TextSummarizer Използване на TextRank и GloVe вграждания

„Колко пъти сме искали кратко и стегнато резюме на новини от цял свят или резюме на презентационния доклад или научна статия?“

Текст Резюмирането е проблем, идентифициран при Естествен език Обработка, който се опитва да рисува изведете важната информация, присъстваща в голяма колекция от неструктурирани текстови данни, и изведете обобщен параграф.

Ще внедрим текстов обобщител, използвайки алгоритъма TextRank.

Алгоритъмът TextRank е извличаща и неконтролирана техника за обобщаване на текст. Базира се на алгоритъма PageRank, разработен от Google. В този алгоритъм се генерира матрица на вероятността потребителят да премине от една страница към друга.

Извличане обобщение: Работи, като избира най-смислените изречения в статия и ги подрежда по изчерпателен начин. Това означава, че обобщените изречения са извлечени от статията без никакви промени.

В TextRank ние формираме косинусоваматрица за сходство, която съхранява оценките за сходство на всяко изречение едно с друго. От стойностите, получени от тази матрица, се генерира графика за изчисляване на резултати за всяко изречение в нашия набор от данни.

Векторизацията се извършва от GloVe вграждания, предлагани от Станфордския университет.

GloVe означава глобални вектори за представяне на думи. Това е неконтролиран алгоритъм за обучение за получаване на векторно представяне на думи. Обучението се извършва на базата на агрегирани глобални статистически данни за съвместното възникване от дума на дума от корпус.

Алгоритъм на текстовия обобщител:

Етап 1:

Свържете целия текст, съдържащ се в отделни статии, в един текст.

Стъпка 2:

Разделете текста на отделни изречения, като използвате sent_tokenize от nltk.tokenize.

Стъпка 3:

Намерете векторно представяне (вграждане на думи) за всяко изречение с помощта на вграждане на GloVe. Може да се наложи вграждането на GloVe да бъде импортирано.

Стъпка 4:

След това приликите между векторите на изреченията се изчисляват и съхраняват в матрица. Тази матрица може да се нарече матрица на подобие.

Стъпка 5:

Сега трябва да преобразуваме тази матрица на подобие в графика. Тази графика ще представлява изречение като връх и ръбовете ще бъдат претеглени от оценките за сходство. Това е необходимо за изчисляване на ранга на изречението. Ние използваме вградена функция за това преобразуване.

Стъпка 6:

И накрая, определен брой изречения с най-висок клас формират крайното резюме като резултат.

И така, ние виждаме как няколко статии могат да бъдат сведени до абзац от десет изречения или така, за да ви дадем съответната информация за тях.

Някои от приложенията на TextSummarizer могат да се видят в мониторинга на медиите поради проблема с претоварването с информация, маркетинга при търсене и SEO, за да се получат най-видните думи като ключови думи, финансови изследвания или медицински изследвания за генериране на кратко резюме на докладите и документи.

Надяваме се, че сте разбрали как работи извличащото резюме на текст.

Вече имаме и автоматично обобщаване на текст, което използва концепцията за задълбочено обучение, но това е извън обхвата на тази статия.

Приятно учене!

Допълнителна информация: