Свързани въпроси 'tokenize'

Преобразувайте разделен със запетая низ в масив в PL/SQL
Как да конвертирам разделен със запетая низ в масив? Имам входа ' 1,2,3' и трябва да го конвертирам в масив.
195392 изгледи
schedule 02.11.2022

Има ли инструмент за разделяне на немски сложни думи в java?
Успешно разделям изречения на думи с StringTokenizer . Има ли инструмент, който може да разделя сложни думи като Projektüberwachung на техните части Projekt и überwachung или дори някои по-дълги ? Причината за разделянето на сложните...
2798 изгледи
schedule 13.11.2022

Класова йерархия на токени и проверка на техния тип в анализатора
Опитвам се да напиша библиотека за многократно анализиране (за забавление). Написах Lexer клас, който генерира последователност от Tokens . Token е базов клас за йерархия от подкласове, всеки от които представлява различен тип токен , със...
1114 изгледи
schedule 02.11.2022

bash анализира името на файла
Има ли някакъв начин в bash да анализирате това име на файл: $file = dos1-20120514104538.csv.3310686 в променливи като $date = 2012-05-14 10:45:38 и $id = 3310686 ? Благодаря ти
10287 изгледи
schedule 30.11.2022

форматиране на файлове преди индексиране в solr сървър
Използвам сървъра Solr, за да осигуря възможност за търсене на инструмент. Исках да знам дали има възможност, предоставена от solr, която ще ми позволи да форматирам някои файлове, преди да бъдат индексирани? по-конкретно имам обикновен текстов файл...
137 изгледи
schedule 07.12.2022

Възможно ли е да търсите думи в индекс на Lucene по част на речта
Имам голям набор от документи, съхранени в индекс на Lucene, и използвам customAnalyzer, който основно прави токенизиране и произтичане на съдържанието на документите. Сега, ако търся вътре в документите за думата „любов“, получавам резултати,...
1017 изгледи
schedule 11.11.2023

Lucene Query БЕЗ оператори
Опитвам се да използвам Lucene за търсене на имена в база данни. Някои от имената обаче съдържат думи като „НЕ“ и „ИЛИ“ и дори „-“ минус символи. Все още искам различните токени в имената да бъдат разделени с помощта на анализатор и да се търсят...
495 изгледи
schedule 26.11.2023

Показване на първия и последния ред на текстовия файл?
Имам GUI програма, която използвам за навигация в текстов файл. Не е нищо прекалено сложно, само възможността да преглеждате файла и да добавяте нова информация към него. Въпреки това бих искал да мога да идентифицирам първия ред в текстовия файл,...
4817 изгледи
schedule 03.02.2024

Python word_tokenize
Аз съм съвсем нов в Python. Опитвам се да намеря честотни разпределения на моя текст. Ето кода, import nltk nltk.download() import os os.getcwd() text_file=open(r"ecelebi\1.txt","r") p = text_file.read() words = nltk.tokenize.word_tokenize(p)...
14259 изгледи
schedule 01.02.2024

ElasticSearch - Проблеми с edgeNGram tokenizer
Използвам ElasticSearch за индексиране на база данни. Опитвам се да използвам edgeNGram tokenizer, за да режа низове до shoter с изискване „новият низ трябва да е по-дълъг от 4 знака“. Използвам следния код за създаване на индекс: PUT test POST...
254 изгледи
schedule 23.12.2023

Elasticsearch Facet Tokenization
Използвам terms facet за да получите top terms в сървъра elasticsearch. Сега моите етикети "indian-government" не се третират като един етикет. Третира се като "indian" "government" . И така, най-използваният таг е "indian" . Как мога...
245 изгледи
schedule 20.02.2024

XQuery: токенизиране на текст при запазване на тагове
Разгледайте следния код на XQuery: let $foo := <root>This is a <tag>test</tag>. This is <tag>only</tag> a <tag>test</tag>.</root> for $s in tokenize($foo, "\. ") return...
62 изгледи
schedule 24.02.2024

Низ към последователност от токени
Анализирам низове от командна последователност и трябва да конвертирам всеки низ в низ [], който ще съдържа командни токени в реда, в който са прочетени. Причината е, че тези последователности се съхраняват в база данни, за да инструктират клиента...
444 изгледи
schedule 27.02.2024

Контролирайте реда на филтрите за токени в ElasticSearch
Опитвате се да контролирате реда, в който филтрите за токени се прилагат в ElasticSearch. Знам от документите, че първо се прилага токенизаторът, след това филтрите за токени, но те не споменават как се определя редът на филтрите за токени. Ето...
1945 изгледи
schedule 03.04.2024

Многоредов проблем с PHP Tokenizer
Използвам token_get_all за разработване на инструмент. Заседнал съм в ситуация, в която имам следната заявка в php кода $sql = "UPDATE `key_values` SET `Value_Content` = '" . $this->db->escape($revisionValues['value']) ....
209 изгледи
schedule 05.04.2024

Токенизиране на низове с помощта на регулярен израз в Javascript
Да предположим, че имам дълъг низ, съдържащ нови редове и раздели като: var x = "This is a long string.\n\t This is another one on next line."; И така, как можем да разделим този низ на токени, използвайки регулярен израз? Не искам да...
19535 изгледи