Свързани въпроси 'tokenize'
Преобразувайте разделен със запетая низ в масив в PL/SQL
Как да конвертирам разделен със запетая низ в масив?
Имам входа ' 1,2,3' и трябва да го конвертирам в масив.
195392 изгледи
schedule
02.11.2022
Има ли инструмент за разделяне на немски сложни думи в java?
Успешно разделям изречения на думи с StringTokenizer .
Има ли инструмент, който може да разделя сложни думи като Projektüberwachung на техните части Projekt и überwachung или дори някои по-дълги ?
Причината за разделянето на сложните...
2798 изгледи
schedule
13.11.2022
Класова йерархия на токени и проверка на техния тип в анализатора
Опитвам се да напиша библиотека за многократно анализиране (за забавление).
Написах Lexer клас, който генерира последователност от Tokens . Token е базов клас за йерархия от подкласове, всеки от които представлява различен тип токен , със...
1114 изгледи
schedule
02.11.2022
bash анализира името на файла
Има ли някакъв начин в bash да анализирате това име на файл:
$file = dos1-20120514104538.csv.3310686
в променливи като $date = 2012-05-14 10:45:38 и $id = 3310686 ?
Благодаря ти
10287 изгледи
schedule
30.11.2022
форматиране на файлове преди индексиране в solr сървър
Използвам сървъра Solr, за да осигуря възможност за търсене на инструмент. Исках да знам дали има възможност, предоставена от solr, която ще ми позволи да форматирам някои файлове, преди да бъдат индексирани? по-конкретно имам обикновен текстов файл...
137 изгледи
schedule
07.12.2022
Възможно ли е да търсите думи в индекс на Lucene по част на речта
Имам голям набор от документи, съхранени в индекс на Lucene, и използвам customAnalyzer, който основно прави токенизиране и произтичане на съдържанието на документите.
Сега, ако търся вътре в документите за думата „любов“, получавам резултати,...
1017 изгледи
schedule
11.11.2023
Lucene Query БЕЗ оператори
Опитвам се да използвам Lucene за търсене на имена в база данни. Някои от имената обаче съдържат думи като „НЕ“ и „ИЛИ“ и дори „-“ минус символи. Все още искам различните токени в имената да бъдат разделени с помощта на анализатор и да се търсят...
495 изгледи
schedule
26.11.2023
Показване на първия и последния ред на текстовия файл?
Имам GUI програма, която използвам за навигация в текстов файл. Не е нищо прекалено сложно, само възможността да преглеждате файла и да добавяте нова информация към него. Въпреки това бих искал да мога да идентифицирам първия ред в текстовия файл,...
4817 изгледи
schedule
03.02.2024
Python word_tokenize
Аз съм съвсем нов в Python. Опитвам се да намеря честотни разпределения на моя текст. Ето кода,
import nltk
nltk.download()
import os
os.getcwd()
text_file=open(r"ecelebi\1.txt","r")
p = text_file.read()
words = nltk.tokenize.word_tokenize(p)...
14259 изгледи
schedule
01.02.2024
ElasticSearch - Проблеми с edgeNGram tokenizer
Използвам ElasticSearch за индексиране на база данни. Опитвам се да използвам edgeNGram tokenizer, за да режа низове до shoter с изискване „новият низ трябва да е по-дълъг от 4 знака“. Използвам следния код за създаване на индекс:
PUT test
POST...
254 изгледи
schedule
23.12.2023
Elasticsearch Facet Tokenization
Използвам terms facet за да получите top terms в сървъра elasticsearch. Сега моите етикети "indian-government" не се третират като един етикет. Третира се като "indian" "government" . И така, най-използваният таг е "indian" . Как мога...
245 изгледи
schedule
20.02.2024
XQuery: токенизиране на текст при запазване на тагове
Разгледайте следния код на XQuery:
let $foo := <root>This is a <tag>test</tag>. This is <tag>only</tag> a <tag>test</tag>.</root>
for $s in tokenize($foo, "\. ")
return...
62 изгледи
schedule
24.02.2024
Низ към последователност от токени
Анализирам низове от командна последователност и трябва да конвертирам всеки низ в низ [], който ще съдържа командни токени в реда, в който са прочетени.
Причината е, че тези последователности се съхраняват в база данни, за да инструктират клиента...
444 изгледи
schedule
27.02.2024
Контролирайте реда на филтрите за токени в ElasticSearch
Опитвате се да контролирате реда, в който филтрите за токени се прилагат в ElasticSearch.
Знам от документите, че първо се прилага токенизаторът, след това филтрите за токени, но те не споменават как се определя редът на филтрите за токени.
Ето...
1945 изгледи
schedule
03.04.2024
Многоредов проблем с PHP Tokenizer
Използвам token_get_all за разработване на инструмент. Заседнал съм в ситуация, в която имам следната заявка в php кода
$sql = "UPDATE `key_values` SET
`Value_Content` = '" . $this->db->escape($revisionValues['value']) ....
209 изгледи
schedule
05.04.2024
Токенизиране на низове с помощта на регулярен израз в Javascript
Да предположим, че имам дълъг низ, съдържащ нови редове и раздели като:
var x = "This is a long string.\n\t This is another one on next line.";
И така, как можем да разделим този низ на токени, използвайки регулярен израз?
Не искам да...
19535 изгледи
schedule
17.04.2024