Вопросы по теме 'tokenize'
Запрос Lucene БЕЗ операторов
Я пытаюсь использовать Lucene для поиска имен в базе данных. Однако некоторые имена содержат такие слова, как «НЕ» и «ИЛИ» и даже «-» без символов. Я по-прежнему хочу, чтобы различные токены внутри имен были разбиты с помощью анализатора и...
495 просмотров
schedule
26.11.2023
Преобразование строки, разделенной запятыми, в массив в PL/SQL
Как преобразовать строку, разделенную запятыми, в массив?
У меня есть ввод ' 1,2,3' , и мне нужно преобразовать его в массив.
195392 просмотров
schedule
02.11.2022
Отображение первой и последней строк текстового файла?
У меня есть программа с графическим интерфейсом, которую я использую для навигации по текстовому файлу. В этом нет ничего сложного, просто возможность просматривать файл и добавлять в него новую информацию. Однако я также хотел бы иметь возможность...
4817 просмотров
schedule
03.02.2024
Строка в последовательность токенов
Я разбираю строки последовательности команд, и мне нужно преобразовать каждую строку в строку [], которая будет содержать токены команд в порядке их чтения.
Причина в том, что эти последовательности хранятся в базе данных, чтобы указать клиенту...
444 просмотров
schedule
27.02.2024
Есть ли инструмент для разделения немецких составных слов в java?
Я успешно разбиваю предложения на слова с помощью StringTokenizer .
Есть ли инструмент, который может разбивать составные слова, такие как Projektüberwachung , на их части Projekt и überwachung или даже более длинные ?
Причина разделения...
2798 просмотров
schedule
13.11.2022
Иерархия классов токенов и проверка их типа в парсере
Я пытаюсь написать многоразовую библиотеку синтаксического анализа (для удовольствия).
Я написал класс Lexer , который генерирует последовательность Tokens . Token - это базовый класс для иерархии подклассов, каждый из которых представляет...
1114 просмотров
schedule
02.11.2022
Токенизация строк с использованием регулярного выражения в Javascript
Предположим, у меня есть длинная строка, содержащая символы новой строки и табуляции, например:
var x = "This is a long string.\n\t This is another one on next line.";
Итак, как мы можем разбить эту строку на токены, используя регулярное...
19535 просмотров
schedule
17.04.2024
имя файла разбора bash
Есть ли способ в bash проанализировать это имя файла:
$file = dos1-20120514104538.csv.3310686
в такие переменные, как $date = 2012-05-14 10:45:38 и $id = 3310686 ?
Спасибо
10287 просмотров
schedule
30.11.2022
Управление порядком фильтров токенов в ElasticSearch
Попытка контролировать порядок применения фильтров токенов в ElasticSearch.
Из документов я знаю, что сначала применяется токенизатор, затем фильтры токенов, но в них не упоминается, как определяется порядок фильтров токенов.
Вот фрагмент YAML...
1945 просмотров
schedule
03.04.2024
Многострочная проблема PHP Tokenizer
Я использую token_get_all для разработки инструмента. Я застрял в ситуации, когда у меня есть следующий запрос в php-коде
$sql = "UPDATE `key_values` SET
`Value_Content` = '" . $this->db->escape($revisionValues['value']) ....
209 просмотров
schedule
05.04.2024
форматирование файлов перед индексацией в solr server
Я использую сервер Solr для обеспечения возможности поиска инструмента. Я хотел знать, есть ли средство, предоставляемое solr, которое позволит мне отформатировать некоторые файлы до их индексации? точнее, у меня есть простой текстовый файл с...
137 просмотров
schedule
07.12.2022
Можно ли искать слова внутри индекса Lucene по частям речи
У меня есть большой набор документов, хранящихся в индексе Lucene, и я использую customAnalyzer, который в основном выполняет токенизацию и выделение содержимого документов.
Теперь, если я ищу в документах слово «любовь», я получаю результаты, в...
1017 просмотров
schedule
11.11.2023
Токенизация аспектов Elasticsearch
Я использую термины чтобы получить топ terms на сервере elasticsearch. Теперь мои теги "indian-government" не рассматриваются как один тег. Он рассматривается как "indian" "government" . Итак, самый используемый тег — "indian" . Как...
245 просмотров
schedule
20.02.2024
Python word_tokenize
Я совсем новичок в питоне. Я пытаюсь найти частотные распределения моего текста. Вот код,
import nltk
nltk.download()
import os
os.getcwd()
text_file=open(r"ecelebi\1.txt","r")
p = text_file.read()
words = nltk.tokenize.word_tokenize(p)
fdist=...
14259 просмотров
schedule
01.02.2024
ElasticSearch - Проблемы с токенизатором edgeNGram
Я использую ElasticSearch для индексации базы данных. Я пытаюсь использовать токенизатор edgeNGram, чтобы сократить строки до стрелок с требованием «новая строка должна быть длиннее 4 символов». Я использую следующий код для создания индекса:...
254 просмотров
schedule
23.12.2023
XQuery: токенизация текста с сохранением тегов
Рассмотрим следующий код XQuery:
let $foo := <root>This is a <tag>test</tag>. This is <tag>only</tag> a <tag>test</tag>.</root>
for $s in tokenize($foo, "\. ")
return...
62 просмотров
schedule
24.02.2024
Токенизация строк SQL Injection
У меня есть набор данных запросов, полученных из многочисленных файлов PCAP, и я загрузил эти файлы PCAP в R. Каждый файл PCAP фактически ссылается на одно наблюдение (строку).
В этом наборе данных есть столбец «Запрос», который содержит строку,...
85 просмотров
schedule
06.11.2022
IBM DB2 TextSearch // Язык = AUTO // Лингвистическая обработка
Я использую последний выпуск IBM DB2 Express-C edition LUW на 32-разрядной версии Windows Server.
TextSearch-Engine правильно настроен и работает до сих пор.
Я создал небольшую тестовую таблицу с столбцом идентификатора первичного ключа и...
180 просмотров
schedule
24.05.2024
Как создать элемент управления токенизацией для UWP, известный из Outlook, при использовании «Кому», «Копия» и «СК»
Здесь есть отличная статья о том, как написать элемент управления токенизацией для WPF: Управление токенизацией — преобразование текста в токены
Но как это реализовать в приложении UWP? Почтовый клиент Windows 10 UWP отлично справляется с...
606 просмотров
schedule
15.02.2024
Ресурс Python nltk u'tokenizers / punkt / english.pickle 'не найден, но он действительно присутствует
Вот мой код, просто выполняю токенизацию с помощью nltk.
import nltk
from nltk.corpus import stopwords
tokens = nltk.word_tokenize(doc, language='english')
# remove all the stopwords
filtered = [w for w in tokens if (w not in...
4316 просмотров
schedule
19.11.2022