Вопросы по теме 'tokenize'

Запрос Lucene БЕЗ операторов
Я пытаюсь использовать Lucene для поиска имен в базе данных. Однако некоторые имена содержат такие слова, как «НЕ» и «ИЛИ» и даже «-» без символов. Я по-прежнему хочу, чтобы различные токены внутри имен были разбиты с помощью анализатора и...
495 просмотров
schedule 26.11.2023

Преобразование строки, разделенной запятыми, в массив в PL/SQL
Как преобразовать строку, разделенную запятыми, в массив? У меня есть ввод ' 1,2,3' , и мне нужно преобразовать его в массив.
195392 просмотров
schedule 02.11.2022

Отображение первой и последней строк текстового файла?
У меня есть программа с графическим интерфейсом, которую я использую для навигации по текстовому файлу. В этом нет ничего сложного, просто возможность просматривать файл и добавлять в него новую информацию. Однако я также хотел бы иметь возможность...
4817 просмотров
schedule 03.02.2024

Строка в последовательность токенов
Я разбираю строки последовательности команд, и мне нужно преобразовать каждую строку в строку [], которая будет содержать токены команд в порядке их чтения. Причина в том, что эти последовательности хранятся в базе данных, чтобы указать клиенту...
444 просмотров
schedule 27.02.2024

Есть ли инструмент для разделения немецких составных слов в java?
Я успешно разбиваю предложения на слова с помощью StringTokenizer . Есть ли инструмент, который может разбивать составные слова, такие как Projektüberwachung , на их части Projekt и überwachung или даже более длинные ? Причина разделения...
2798 просмотров
schedule 13.11.2022

Иерархия классов токенов и проверка их типа в парсере
Я пытаюсь написать многоразовую библиотеку синтаксического анализа (для удовольствия). Я написал класс Lexer , который генерирует последовательность Tokens . Token - это базовый класс для иерархии подклассов, каждый из которых представляет...
1114 просмотров
schedule 02.11.2022

Токенизация строк с использованием регулярного выражения в Javascript
Предположим, у меня есть длинная строка, содержащая символы новой строки и табуляции, например: var x = "This is a long string.\n\t This is another one on next line."; Итак, как мы можем разбить эту строку на токены, используя регулярное...
19535 просмотров

имя файла разбора bash
Есть ли способ в bash проанализировать это имя файла: $file = dos1-20120514104538.csv.3310686 в такие переменные, как $date = 2012-05-14 10:45:38 и $id = 3310686 ? Спасибо
10287 просмотров
schedule 30.11.2022

Управление порядком фильтров токенов в ElasticSearch
Попытка контролировать порядок применения фильтров токенов в ElasticSearch. Из документов я знаю, что сначала применяется токенизатор, затем фильтры токенов, но в них не упоминается, как определяется порядок фильтров токенов. Вот фрагмент YAML...
1945 просмотров
schedule 03.04.2024

Многострочная проблема PHP Tokenizer
Я использую token_get_all для разработки инструмента. Я застрял в ситуации, когда у меня есть следующий запрос в php-коде $sql = "UPDATE `key_values` SET `Value_Content` = '" . $this->db->escape($revisionValues['value']) ....
209 просмотров
schedule 05.04.2024

форматирование файлов перед индексацией в solr server
Я использую сервер Solr для обеспечения возможности поиска инструмента. Я хотел знать, есть ли средство, предоставляемое solr, которое позволит мне отформатировать некоторые файлы до их индексации? точнее, у меня есть простой текстовый файл с...
137 просмотров
schedule 07.12.2022

Можно ли искать слова внутри индекса Lucene по частям речи
У меня есть большой набор документов, хранящихся в индексе Lucene, и я использую customAnalyzer, который в основном выполняет токенизацию и выделение содержимого документов. Теперь, если я ищу в документах слово «любовь», я получаю результаты, в...
1017 просмотров
schedule 11.11.2023

Токенизация аспектов Elasticsearch
Я использую термины чтобы получить топ terms на сервере elasticsearch. Теперь мои теги "indian-government" не рассматриваются как один тег. Он рассматривается как "indian" "government" . Итак, самый используемый тег — "indian" . Как...
245 просмотров
schedule 20.02.2024

Python word_tokenize
Я совсем новичок в питоне. Я пытаюсь найти частотные распределения моего текста. Вот код, import nltk nltk.download() import os os.getcwd() text_file=open(r"ecelebi\1.txt","r") p = text_file.read() words = nltk.tokenize.word_tokenize(p) fdist=...
14259 просмотров
schedule 01.02.2024

ElasticSearch - Проблемы с токенизатором edgeNGram
Я использую ElasticSearch для индексации базы данных. Я пытаюсь использовать токенизатор edgeNGram, чтобы сократить строки до стрелок с требованием «новая строка должна быть длиннее 4 символов». Я использую следующий код для создания индекса:...
254 просмотров
schedule 23.12.2023

XQuery: токенизация текста с сохранением тегов
Рассмотрим следующий код XQuery: let $foo := <root>This is a <tag>test</tag>. This is <tag>only</tag> a <tag>test</tag>.</root> for $s in tokenize($foo, "\. ") return...
62 просмотров
schedule 24.02.2024

Токенизация строк SQL Injection
У меня есть набор данных запросов, полученных из многочисленных файлов PCAP, и я загрузил эти файлы PCAP в R. Каждый файл PCAP фактически ссылается на одно наблюдение (строку). В этом наборе данных есть столбец «Запрос», который содержит строку,...
85 просмотров
schedule 06.11.2022

IBM DB2 TextSearch // Язык = AUTO // Лингвистическая обработка
Я использую последний выпуск IBM DB2 Express-C edition LUW на 32-разрядной версии Windows Server. TextSearch-Engine правильно настроен и работает до сих пор. Я создал небольшую тестовую таблицу с столбцом идентификатора первичного ключа и...
180 просмотров
schedule 24.05.2024

Как создать элемент управления токенизацией для UWP, известный из Outlook, при использовании «Кому», «Копия» и «СК»
Здесь есть отличная статья о том, как написать элемент управления токенизацией для WPF: Управление токенизацией — преобразование текста в токены Но как это реализовать в приложении UWP? Почтовый клиент Windows 10 UWP отлично справляется с...
606 просмотров

Ресурс Python nltk u'tokenizers / punkt / english.pickle 'не найден, но он действительно присутствует
Вот мой код, просто выполняю токенизацию с помощью nltk. import nltk from nltk.corpus import stopwords tokens = nltk.word_tokenize(doc, language='english') # remove all the stopwords filtered = [w for w in tokens if (w not in...
4316 просмотров
schedule 19.11.2022