Свързани публикации 'information-retrieval'


Обогатяване на потребителското изживяване с усъвършенстван алгоритъм за извличане на информация
Научете за Okapi BM25, алгоритъм за извличане, базиран на „торба с думи“. Дигитализацията е съсредоточена около принципа „клиентът на първо място“ и оттогава е инструмент за обогатяване на потребителското изживяване. Тази статия ще обясни как алгоритъмът Okapi BM25 се използва за подобряване на уместността на търсенето и потребителското изживяване в дигиталния свят. Представете си случай, когато имате нужда от книга и отидете в книжарница — затрупани сте с много книги и не знаете..

Задълбочено обучение в извличането на информация. Част II: Плътно извличане
Това е втората част от поредицата от статии „Дълбоко обучение при извличане на информация“. Тази серия е за тези, които познават основите на дълбокото обучение и биха искали да се потопят дълбоко в областта на съвременното извличане на информация. В част I научихме основни концепции за извличане на информация, метрики, използвани в IR, основи на дизайна на IR-система и едно семейство от методи за задълбочено обучение, обикновено използвани на първия етап от IR-тръбопроводите. В тази..

По-отблизо в проблема с корекцията на правописа — Част 3 — звънците и свирките
В searchhub.io почистването на заявката от човешка информация (потребителска заявка) е първата стратегия, която прилагаме към всяка заявка за търсене, която получаваме. В част 1 и 2 вече обсъдихме малко предизвикателствата на корекцията на правописа в мащаб и независимостта на езика. В центъра за търсене обаче се стремим да помогнем на софтуерните системи да разбират хората. Следователно не само трябва да се погрижим за правописни грешки като „скейтборд -› скейтборд“. Има много повече..

Извличане на информация: Unigram публикации и позиционни публикации
Нека изградим Unigram и Positional Postings в Python от нулата върху набор от данни от реалния свят. Това е втората публикация от поредицата за извличане на информация. „Щракнете тук“, за да проверите git repo Серия за извличане на информация: «1. Въведение" 2. Unigram индексиране и позиционно индексиране 3. TF-IDF Има още… Съдържание: Генерирайте Unigram Inverted Index и изпълнявайте сложни булеви заявки Генерирайте позиционни индекси и търсете фрази...

Свързани въпроси 'information-retrieval'

Уеб базиран скрипт за определяне на системна информация
Знам, че уеб базираните скриптове могат да се използват за идентифициране на характеристиките на посетителите (разделителна способност на дисплея, версия на Java, операционна система, архитектура, машина за изобразяване и т.н.) Но има ли нещо,...
114 изгледи

Алгоритъм за свързаност на термина
За задание трябва да предложа алгоритъм за изчисляване на степента на свързаност между два термина в даден документ. Не знам откъде да започна създаването на такъв алгоритъм;. Всичко това е в областта на извличането на информация и в момента...
105 изгледи
schedule 15.12.2023

Вземете CIM тип данни от свойства в WMI класове с C#
Така че успях да напиша клас, който ми позволява да имам достъп до WMI и да получа информация за класовете, включително техните методи, както и всички свойства на класовете и техните последващи методи. Не мога да намеря нищо в C# под класовете...
1303 изгледи

изчисляване на tf-idf за уеб страници
Аз съм нов в IR и бих искал да изчисля tf-idf за уеб страници. За частта "tf" искам да изчисля видите честотата на всяка дума в съдържанието на една уеб страница. За частта "idf" искам да сравня няколко уеб страници за съдържанието. Има ли...
572 изгледи
schedule 06.02.2024

Коя задача за извличане на данни за извличане на уникален екземпляр
Работя с извличане на данни и съм запознат със задачите за класификация, групиране и регресия. В класификацията човек може да има много екземпляри (напр. животни), техните характеристики (напр. брой крака) и клас (напр. бозайник, влечуго). Но...
65 изгледи
schedule 15.02.2024

Ефективно извличане на 1-5 грама с питон
Имам огромни файлове от 3 000 000 реда и всеки ред има 20-40 думи. Трябва да извлека 1 до 5 ngram от корпуса. Моите входни файлове са токенизиран обикновен текст, напр.: This is a foo bar sentence . There is a comma , in this sentence . Such is...
2780 изгледи

tf-idf: правилно ли го разбирам?
Интересувам се от групиране на документи и точно сега обмислям да използвам TF-IDF за това. Ако не греша, TF-IDF се използва по-специално за оценка на уместността на документ при зададена заявка . Ако нямам конкретна заявка, как мога да приложа...
3424 изгледи