Публикации по теме 'information-retrieval'


Расширение возможностей пользователей с помощью усовершенствованного алгоритма поиска информации
Узнайте об Okapi BM25, алгоритме поиска на основе «мешка слов». Цифровизация основана на принципе «клиент прежде всего» и с тех пор играет важную роль в обогащении пользовательского опыта. В этой статье объясняется, как алгоритм Okapi BM25 используется для повышения релевантности поиска и удобства пользователей в цифровом мире. Представьте себе случай, когда вам нужна книга, и вы идете в книжный магазин — вы завалены книгами и не знаете, как легко найти нужную книгу . Обратите..

Глубокое обучение в поиске информации. Часть II: Плотное извлечение
Это вторая часть цикла статей Глубокое обучение в информационном поиске . Эта серия предназначена для тех, кто знаком с основами глубокого обучения и хотел бы глубже погрузиться в область современного информационного поиска. В части I мы изучили основные концепции поиска информации, метрики, используемые в IR, основы проектирования IR-систем и одно семейство методов глубокого обучения, обычно используемых на первом этапе IR-конвейеров. В этой части мы рассмотрим другое семейство..

Более пристальный взгляд на проблему исправления заклинаний - Часть 3 - навороты
В searchhub.io очистка запросов от человеческого ввода (пользовательских запросов) является первой стратегией, которую мы применяем к каждому поисковому запросу, который мы получаем. В частях 1 и 2 мы уже немного обсудили проблемы коррекции орфографии в масштабе и независимости языка. Однако в search | hub мы стремимся помочь программным системам понять людей. Поэтому мы не только должны учитывать такие опечатки, как «скейтборд -› скейтборд ». Есть гораздо больше причин, по которым..

Поиск информации: проводки Unigram и позиционные проводки
Давайте создадим Unigram и позиционные проводки в Python с нуля на реальном наборе данных. Это второй пост из серии «Поиск информации». Нажмите здесь , чтобы проверить репозиторий git Информационно-поисковая серия: «1. Введение" 2. Индексирование Unigram и позиционное индексирование 3. TF-IDF Еще не все… Оглавление: Создание инвертированного индекса Unigram и выполнение сложных логических запросов Создание позиционных индексов и поиск фраз. Введение..

Вопросы по теме 'information-retrieval'

Веб-скрипт для определения системной информации
Я знаю, что веб-скрипты можно использовать для определения характеристик визуалов (разрешение экрана, версия Java, ОС, архитектура, механизм рендеринга и т. д.). Но есть ли что-нибудь, что могло бы дать мне объем системной памяти, размещенной на...
114 просмотров

tf-idf: я правильно понимаю?
Я заинтересован в кластеризации документов, и сейчас я рассматриваю возможность использования для этого TF-IDF. Если я не ошибаюсь, TF-IDF особенно используется для оценки релевантности документа данному запросу . Если у меня нет определенного...
3424 просмотров

Алгоритм родства терминов
Для задания я должен предложить алгоритм для вычисления степени родства между двумя терминами данного документа. Я не знаю, с чего начать создание такого алгоритма ;. Все это относится к области информационного поиска, и в настоящее время мы изучаем...
105 просмотров
schedule 15.12.2023

Какая задача интеллектуального анализа данных для извлечения уникального экземпляра
Я работаю с интеллектуальным анализом данных и знаком с задачами классификации, кластеризации и регрессии. В классификации может быть много экземпляров (например, животные), их признаков (например, количество ног) и класс (например, млекопитающее,...
65 просмотров
schedule 15.02.2024

Эффективная экстракция 1-5 грамм с помощью питона
У меня есть огромные файлы из 3 000 000 строк, и в каждой строке 20-40 слов. Мне нужно извлечь от 1 до 5 нграмов из корпуса. Мои входные файлы представляют собой токенизированный простой текст, например: This is a foo bar sentence . There is a...
2780 просмотров

Получить тип данных CIM из свойств в классах WMI с помощью C #
Итак, мне удалось написать класс, который позволяет мне обращаться к WMI и получать информацию о классах, включая их методы, и все свойства классов и их последующих методов. Я не могу найти в C # в классах System.Management или...
1303 просмотров

расчет tf-idf для веб-страниц
Я новичок в IR и хотел бы рассчитать tf-idf для веб-страниц. Для части «tf» я хочу рассчитать частоту появления каждого слова в содержании одной веб-страницы. Что касается части «idf», я хочу сравнить содержимое нескольких веб-страниц. Есть...
572 просмотров
schedule 06.02.2024

ГРАБЛИ с ГЕНСИМ
Я пытаюсь вычислить сходство. Прежде всего, я использовал библиотеку RAKE для извлечения ключевых слов из просканированных заданий. Затем я поместил ключевые слова каждого задания в отдельный массив, а затем объединил все эти массивы в...
798 просмотров

Обучение ранжированию в информационном поиске
Обучение ранжированию — это система ранжирования, основанная на машинном обучении. Как внедрить обучение для ранжирования, а также объяснить необходимость предварительной обработки данных. Спасибо.
100 просмотров
schedule 16.03.2024

Установка пути в файле свойств heidelTime для использования Stanford POS Tagger для немецкого языка?
Я пытаюсь обнаружить временную информацию в немецком тексте. Я попытался использовать конвейер Stanford CoreNLP, так как было бы очень полезно использовать информацию об анализе зависимостей на более поздних этапах (после временной маркировки), но,...
285 просмотров

Возникли проблемы с получением информации о пользователе из firebase android
Код фрагмента профиля public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_profile, container, false); Name =...
70 просмотров

Онлайн-кластеризация новостных статей
Существует ли общий онлайн-алгоритм для динамической классификации новостей? У меня есть огромный набор данных новостей, классифицированных по темам. Я рассматриваю каждую из этих тем как кластер . Теперь мне нужно классифицировать экстренные...
312 просмотров

Точечное и парное обучение ранжированию данных с бинарными значениями релевантности
У меня есть два вопроса о различиях между точечными и парными алгоритмами обучения для ранжирования ДАННЫХ С ДВОЙНЫМИ ЗНАЧЕНИЯМИ РЕЛЕВАНТНОСТИ (0 и 1). Предположим, что функция потерь для парного алгоритма вычисляет, сколько раз запись с меткой 0...
348 просмотров
schedule 07.12.2022

Поиск информации: как рассчитать tf-idf для нескольких условий поиска?
У меня есть корпус из следующих 4 документов: ‹1> Это первый документ. ‹2> А это второй документ. ‹3> Третий документ длиннее первого и второго. ‹4> Это последний документ. И используйте очередь поиска «первый ИЛИ последний», как я должен...
681 просмотров

Как индексировать английский и арабский текст в один и тот же индекс с помощью Lucene IndexWriterConfig
Как я могу проиндексировать несколько документов на английском языке и еще несколько документов на арабском языке, используя разные анализаторы, но в одном каталоге индексов?
15 просмотров
schedule 11.05.2024