Публикации по теме 'information-retrieval'
Расширение возможностей пользователей с помощью усовершенствованного алгоритма поиска информации
Узнайте об Okapi BM25, алгоритме поиска на основе «мешка слов».
Цифровизация основана на принципе «клиент прежде всего» и с тех пор играет важную роль в обогащении пользовательского опыта. В этой статье объясняется, как алгоритм Okapi BM25 используется для повышения релевантности поиска и удобства пользователей в цифровом мире.
Представьте себе случай, когда вам нужна книга, и вы идете в книжный магазин — вы завалены книгами и не знаете, как легко найти нужную книгу . Обратите..
Глубокое обучение в поиске информации. Часть II: Плотное извлечение
Это вторая часть цикла статей Глубокое обучение в информационном поиске . Эта серия предназначена для тех, кто знаком с основами глубокого обучения и хотел бы глубже погрузиться в область современного информационного поиска. В части I мы изучили основные концепции поиска информации, метрики, используемые в IR, основы проектирования IR-систем и одно семейство методов глубокого обучения, обычно используемых на первом этапе IR-конвейеров. В этой части мы рассмотрим другое семейство..
Более пристальный взгляд на проблему исправления заклинаний - Часть 3 - навороты
В searchhub.io очистка запросов от человеческого ввода (пользовательских запросов) является первой стратегией, которую мы применяем к каждому поисковому запросу, который мы получаем. В частях 1 и 2 мы уже немного обсудили проблемы коррекции орфографии в масштабе и независимости языка.
Однако в search | hub мы стремимся помочь программным системам понять людей. Поэтому мы не только должны учитывать такие опечатки, как «скейтборд -› скейтборд ». Есть гораздо больше причин, по которым..
Поиск информации: проводки Unigram и позиционные проводки
Давайте создадим Unigram и позиционные проводки в Python с нуля на реальном наборе данных.
Это второй пост из серии «Поиск информации».
Нажмите здесь , чтобы проверить репозиторий git
Информационно-поисковая серия:
«1. Введение" 2. Индексирование Unigram и позиционное индексирование 3. TF-IDF Еще не все…
Оглавление:
Создание инвертированного индекса Unigram и выполнение сложных логических запросов Создание позиционных индексов и поиск фраз.
Введение..
Вопросы по теме 'information-retrieval'
Веб-скрипт для определения системной информации
Я знаю, что веб-скрипты можно использовать для определения характеристик визуалов (разрешение экрана, версия Java, ОС, архитектура, механизм рендеринга и т. д.).
Но есть ли что-нибудь, что могло бы дать мне объем системной памяти, размещенной на...
114 просмотров
schedule
02.12.2023
tf-idf: я правильно понимаю?
Я заинтересован в кластеризации документов, и сейчас я рассматриваю возможность использования для этого TF-IDF.
Если я не ошибаюсь, TF-IDF особенно используется для оценки релевантности документа данному запросу . Если у меня нет определенного...
3424 просмотров
schedule
29.02.2024
Алгоритм родства терминов
Для задания я должен предложить алгоритм для вычисления степени родства между двумя терминами данного документа. Я не знаю, с чего начать создание такого алгоритма ;. Все это относится к области информационного поиска, и в настоящее время мы изучаем...
105 просмотров
schedule
15.12.2023
Какая задача интеллектуального анализа данных для извлечения уникального экземпляра
Я работаю с интеллектуальным анализом данных и знаком с задачами классификации, кластеризации и регрессии. В классификации может быть много экземпляров (например, животные), их признаков (например, количество ног) и класс (например, млекопитающее,...
65 просмотров
schedule
15.02.2024
Эффективная экстракция 1-5 грамм с помощью питона
У меня есть огромные файлы из 3 000 000 строк, и в каждой строке 20-40 слов. Мне нужно извлечь от 1 до 5 нграмов из корпуса. Мои входные файлы представляют собой токенизированный простой текст, например:
This is a foo bar sentence .
There is a...
2780 просмотров
schedule
11.02.2024
Получить тип данных CIM из свойств в классах WMI с помощью C #
Итак, мне удалось написать класс, который позволяет мне обращаться к WMI и получать информацию о классах, включая их методы, и все свойства классов и их последующих методов. Я не могу найти в C # в классах System.Management или...
1303 просмотров
schedule
28.01.2024
расчет tf-idf для веб-страниц
Я новичок в IR и хотел бы рассчитать tf-idf для веб-страниц.
Для части «tf» я хочу рассчитать частоту появления каждого слова в содержании одной веб-страницы.
Что касается части «idf», я хочу сравнить содержимое нескольких веб-страниц.
Есть...
572 просмотров
schedule
06.02.2024
ГРАБЛИ с ГЕНСИМ
Я пытаюсь вычислить сходство. Прежде всего, я использовал библиотеку RAKE для извлечения ключевых слов из просканированных заданий. Затем я поместил ключевые слова каждого задания в отдельный массив, а затем объединил все эти массивы в...
798 просмотров
schedule
18.12.2023
Обучение ранжированию в информационном поиске
Обучение ранжированию — это система ранжирования, основанная на машинном обучении.
Как внедрить обучение для ранжирования, а также объяснить необходимость предварительной обработки данных.
Спасибо.
100 просмотров
schedule
16.03.2024
Установка пути в файле свойств heidelTime для использования Stanford POS Tagger для немецкого языка?
Я пытаюсь обнаружить временную информацию в немецком тексте. Я попытался использовать конвейер Stanford CoreNLP, так как было бы очень полезно использовать информацию об анализе зависимостей на более поздних этапах (после временной маркировки), но,...
285 просмотров
schedule
31.05.2024
Возникли проблемы с получением информации о пользователе из firebase android
Код фрагмента профиля
public View onCreateView(LayoutInflater inflater, ViewGroup container,
Bundle savedInstanceState) {
View rootView = inflater.inflate(R.layout.fragment_profile, container, false);
Name =...
70 просмотров
schedule
10.03.2024
Онлайн-кластеризация новостных статей
Существует ли общий онлайн-алгоритм для динамической классификации новостей? У меня есть огромный набор данных новостей, классифицированных по темам. Я рассматриваю каждую из этих тем как кластер . Теперь мне нужно классифицировать экстренные...
312 просмотров
schedule
28.11.2022
Точечное и парное обучение ранжированию данных с бинарными значениями релевантности
У меня есть два вопроса о различиях между точечными и парными алгоритмами обучения для ранжирования ДАННЫХ С ДВОЙНЫМИ ЗНАЧЕНИЯМИ РЕЛЕВАНТНОСТИ (0 и 1). Предположим, что функция потерь для парного алгоритма вычисляет, сколько раз запись с меткой 0...
348 просмотров
schedule
07.12.2022
Поиск информации: как рассчитать tf-idf для нескольких условий поиска?
У меня есть корпус из следующих 4 документов:
‹1> Это первый документ. ‹2> А это второй документ. ‹3> Третий документ длиннее первого и второго. ‹4> Это последний документ.
И используйте очередь поиска «первый ИЛИ последний», как я должен...
681 просмотров
schedule
28.02.2024
Как индексировать английский и арабский текст в один и тот же индекс с помощью Lucene IndexWriterConfig
Как я могу проиндексировать несколько документов на английском языке и еще несколько документов на арабском языке, используя разные анализаторы, но в одном каталоге индексов?
15 просмотров
schedule
11.05.2024