Публикации по тематике information-retrieval

Публикации по теме 'information-retrieval'

Расширение возможностей пользователей с помощью усовершенствованного алгоритма поиска информации

Узнайте об Okapi BM25, алгоритме поиска на основе «мешка слов». Цифровизация основана на принципе «клиент прежде всего» и с тех пор играет важную роль в обогащении пользовательского опыта. В этой статье объясняется, как алгоритм Okapi BM25 используется для повышения релевантности поиска и удобства пользователей в цифровом мире. Представьте себе случай, когда вам нужна книга, и вы идете в книжный магазин — вы завалены книгами и не знаете, как легко найти нужную книгу . Обратите..

Глубокое обучение в поиске информации. Часть II: Плотное извлечение

Это вторая часть цикла статей Глубокое обучение в информационном поиске . Эта серия предназначена для тех, кто знаком с основами глубокого обучения и хотел бы глубже погрузиться в область современного информационного поиска. В части I мы изучили основные концепции поиска информации, метрики, используемые в IR, основы проектирования IR-систем и одно семейство методов глубокого обучения, обычно используемых на первом этапе IR-конвейеров. В этой части мы рассмотрим другое семейство..

Более пристальный взгляд на проблему исправления заклинаний - Часть 3 - навороты

В searchhub.io очистка запросов от человеческого ввода (пользовательских запросов) является первой стратегией, которую мы применяем к каждому поисковому запросу, который мы получаем. В частях 1 и 2 мы уже немного обсудили проблемы коррекции орфографии в масштабе и независимости языка. Однако в search | hub мы стремимся помочь программным системам понять людей. Поэтому мы не только должны учитывать такие опечатки, как «скейтборд -› скейтборд ». Есть гораздо больше причин, по которым..

Поиск информации: проводки Unigram и позиционные проводки

Давайте создадим Unigram и позиционные проводки в Python с нуля на реальном наборе данных. Это второй пост из серии «Поиск информации». Нажмите здесь , чтобы проверить репозиторий git Информационно-поисковая серия: «1. Введение" 2. Индексирование Unigram и позиционное индексирование 3. TF-IDF Еще не все… Оглавление: Создание инвертированного индекса Unigram и выполнение сложных логических запросов Создание позиционных индексов и поиск фраз. Введение..

Вопросы по теме 'information-retrieval'

Веб-скрипт для определения системной информации

Я знаю, что веб-скрипты можно использовать для определения характеристик визуалов (разрешение экрана, версия Java, ОС, архитектура, механизм рендеринга и т. д.). Но есть ли что-нибудь, что могло бы дать мне объем системной памяти, размещенной на...

114 просмотров

02.12.2023

tf-idf: я правильно понимаю?

Я заинтересован в кластеризации документов, и сейчас я рассматриваю возможность использования для этого TF-IDF. Если я не ошибаюсь, TF-IDF особенно используется для оценки релевантности документа данному запросу . Если у меня нет определенного...

3424 просмотров

algorithm tf-idf text-processing language-agnostic information-retrieval

29.02.2024

Алгоритм родства терминов

Для задания я должен предложить алгоритм для вычисления степени родства между двумя терминами данного документа. Я не знаю, с чего начать создание такого алгоритма ;. Все это относится к области информационного поиска, и в настоящее время мы изучаем...

105 просмотров

information-retrieval

15.12.2023

Какая задача интеллектуального анализа данных для извлечения уникального экземпляра

Я работаю с интеллектуальным анализом данных и знаком с задачами классификации, кластеризации и регрессии. В классификации может быть много экземпляров (например, животные), их признаков (например, количество ног) и класс (например, млекопитающее,...

65 просмотров

data-mining information-retrieval

15.02.2024

Эффективная экстракция 1-5 грамм с помощью питона

У меня есть огромные файлы из 3 000 000 строк, и в каждой строке 20-40 слов. Мне нужно извлечь от 1 до 5 нграмов из корпуса. Мои входные файлы представляют собой токенизированный простой текст, например: This is a foo bar sentence . There is a...

2780 просмотров

python nlp nltk n-gram information-retrieval

11.02.2024

Получить тип данных CIM из свойств в классах WMI с помощью C #

Итак, мне удалось написать класс, который позволяет мне обращаться к WMI и получать информацию о классах, включая их методы, и все свойства классов и их последующих методов. Я не могу найти в C # в классах System.Management или...

1303 просмотров

c# information-retrieval wmi system.management wbem

28.01.2024

расчет tf-idf для веб-страниц

Я новичок в IR и хотел бы рассчитать tf-idf для веб-страниц. Для части «tf» я хочу рассчитать частоту появления каждого слова в содержании одной веб-страницы. Что касается части «idf», я хочу сравнить содержимое нескольких веб-страниц. Есть...

572 просмотров

tf-idf information-retrieval

06.02.2024

ГРАБЛИ с ГЕНСИМ

Я пытаюсь вычислить сходство. Прежде всего, я использовал библиотеку RAKE для извлечения ключевых слов из просканированных заданий. Затем я поместил ключевые слова каждого задания в отдельный массив, а затем объединил все эти массивы в...

798 просмотров

python gensim cosine-similarity information-retrieval rake

18.12.2023

Обучение ранжированию в информационном поиске

Обучение ранжированию — это система ранжирования, основанная на машинном обучении. Как внедрить обучение для ранжирования, а также объяснить необходимость предварительной обработки данных. Спасибо.

100 просмотров

information-retrieval

16.03.2024

Установка пути в файле свойств heidelTime для использования Stanford POS Tagger для немецкого языка?

Я пытаюсь обнаружить временную информацию в немецком тексте. Я попытался использовать конвейер Stanford CoreNLP, так как было бы очень полезно использовать информацию об анализе зависимостей на более поздних этапах (после временной маркировки), но,...

285 просмотров

nlp stanford-nlp information-extraction information-retrieval timex

31.05.2024

Возникли проблемы с получением информации о пользователе из firebase android

Код фрагмента профиля public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_profile, container, false); Name =...

70 просмотров

firebase android firebase-realtime-database database information-retrieval

10.03.2024

Онлайн-кластеризация новостных статей

Существует ли общий онлайн-алгоритм для динамической классификации новостей? У меня есть огромный набор данных новостей, классифицированных по темам. Я рассматриваю каждую из этих тем как кластер . Теперь мне нужно классифицировать экстренные...

312 просмотров

machine-learning nlp cluster-analysis unsupervised-learning information-retrieval

28.11.2022

Точечное и парное обучение ранжированию данных с бинарными значениями релевантности

У меня есть два вопроса о различиях между точечными и парными алгоритмами обучения для ранжирования ДАННЫХ С ДВОЙНЫМИ ЗНАЧЕНИЯМИ РЕЛЕВАНТНОСТИ (0 и 1). Предположим, что функция потерь для парного алгоритма вычисляет, сколько раз запись с меткой 0...

348 просмотров

ranking pairwise information-retrieval

07.12.2022

Поиск информации: как рассчитать tf-idf для нескольких условий поиска?

У меня есть корпус из следующих 4 документов: ‹1> Это первый документ. ‹2> А это второй документ. ‹3> Третий документ длиннее первого и второго. ‹4> Это последний документ. И используйте очередь поиска «первый ИЛИ последний», как я должен...

681 просмотров

search full-text-search tf-idf information-retrieval

28.02.2024

Как индексировать английский и арабский текст в один и тот же индекс с помощью Lucene IndexWriterConfig

Как я могу проиндексировать несколько документов на английском языке и еще несколько документов на арабском языке, используя разные анализаторы, но в одном каталоге индексов?

15 просмотров

lucene information-retrieval

11.05.2024