Публикации по тематике tokenize

Вопросы по теме 'tokenize'

Я пытаюсь использовать Lucene для поиска имен в базе данных. Однако некоторые имена содержат такие слова, как «НЕ» и «ИЛИ» и даже «-» без символов. Я по-прежнему хочу, чтобы различные токены внутри имен были разбиты с помощью анализатора и...

495 просмотров

26.11.2023

Преобразование строки, разделенной запятыми, в массив в PL/SQL

Как преобразовать строку, разделенную запятыми, в массив? У меня есть ввод ' 1,2,3' , и мне нужно преобразовать его в массив.

195392 просмотров

oracle tokenize plsql

02.11.2022

Отображение первой и последней строк текстового файла?

У меня есть программа с графическим интерфейсом, которую я использую для навигации по текстовому файлу. В этом нет ничего сложного, просто возможность просматривать файл и добавлять в него новую информацию. Однако я также хотел бы иметь возможность...

4817 просмотров

java string text-files tokenize filereader

03.02.2024

Строка в последовательность токенов

Я разбираю строки последовательности команд, и мне нужно преобразовать каждую строку в строку [], которая будет содержать токены команд в порядке их чтения. Причина в том, что эти последовательности хранятся в базе данных, чтобы указать клиенту...

444 просмотров

string c# tokenize

27.02.2024

Есть ли инструмент для разделения немецких составных слов в java?

Я успешно разбиваю предложения на слова с помощью StringTokenizer . Есть ли инструмент, который может разбивать составные слова, такие как Projektüberwachung , на их части Projekt и überwachung или даже более длинные ? Причина разделения...

2798 просмотров

java string tokenize text-processing

13.11.2022

Иерархия классов токенов и проверка их типа в парсере

Я пытаюсь написать многоразовую библиотеку синтаксического анализа (для удовольствия). Я написал класс Lexer , который генерирует последовательность Tokens . Token - это базовый класс для иерархии подклассов, каждый из которых представляет...

1114 просмотров

c++ types parsing tokenize class-design

02.11.2022

Токенизация строк с использованием регулярного выражения в Javascript

Предположим, у меня есть длинная строка, содержащая символы новой строки и табуляции, например: var x = "This is a long string.\n\t This is another one on next line."; Итак, как мы можем разбить эту строку на токены, используя регулярное...

19535 просмотров

javascript string regex tokenize stringtokenizer

17.04.2024

имя файла разбора bash

Есть ли способ в bash проанализировать это имя файла: $file = dos1-20120514104538.csv.3310686 в такие переменные, как $date = 2012-05-14 10:45:38 и $id = 3310686 ? Спасибо

10287 просмотров

bash parsing tokenize

30.11.2022

Управление порядком фильтров токенов в ElasticSearch

Попытка контролировать порядок применения фильтров токенов в ElasticSearch. Из документов я знаю, что сначала применяется токенизатор, затем фильтры токенов, но в них не упоминается, как определяется порядок фильтров токенов. Вот фрагмент YAML...

1945 просмотров

search tokenize elasticsearch

03.04.2024

Многострочная проблема PHP Tokenizer

Я использую token_get_all для разработки инструмента. Я застрял в ситуации, когда у меня есть следующий запрос в php-коде $sql = "UPDATE `key_values` SET `Value_Content` = '" . $this->db->escape($revisionValues['value']) ....

209 просмотров

php token tokenize lexical

05.04.2024

форматирование файлов перед индексацией в solr server

Я использую сервер Solr для обеспечения возможности поиска инструмента. Я хотел знать, есть ли средство, предоставляемое solr, которое позволит мне отформатировать некоторые файлы до их индексации? точнее, у меня есть простой текстовый файл с...

137 просмотров

tokenize solr

07.12.2022

Можно ли искать слова внутри индекса Lucene по частям речи

У меня есть большой набор документов, хранящихся в индексе Lucene, и я использую customAnalyzer, который в основном выполняет токенизацию и выделение содержимого документов. Теперь, если я ищу в документах слово «любовь», я получаю результаты, в...

1017 просмотров

java nlp tokenize solr lucene

11.11.2023

Токенизация аспектов Elasticsearch

Я использую термины чтобы получить топ terms на сервере elasticsearch. Теперь мои теги "indian-government" не рассматриваются как один тег. Он рассматривается как "indian" "government" . Итак, самый используемый тег — "indian" . Как...

245 просмотров

tokenize elasticsearch

20.02.2024

Python word_tokenize

Я совсем новичок в питоне. Я пытаюсь найти частотные распределения моего текста. Вот код, import nltk nltk.download() import os os.getcwd() text_file=open(r"ecelebi\1.txt","r") p = text_file.read() words = nltk.tokenize.word_tokenize(p) fdist=...

14259 просмотров

python tokenize nltk

01.02.2024

ElasticSearch - Проблемы с токенизатором edgeNGram

Я использую ElasticSearch для индексации базы данных. Я пытаюсь использовать токенизатор edgeNGram, чтобы сократить строки до стрелок с требованием «новая строка должна быть длиннее 4 символов». Я использую следующий код для создания индекса:...

254 просмотров

tokenize

23.12.2023

XQuery: токенизация текста с сохранением тегов

Рассмотрим следующий код XQuery: let $foo := <root>This is a <tag>test</tag>. This is <tag>only</tag> a <tag>test</tag>.</root> for $s in tokenize($foo, "\. ") return...

62 просмотров

tokenize xquery

24.02.2024

Токенизация строк SQL Injection

У меня есть набор данных запросов, полученных из многочисленных файлов PCAP, и я загрузил эти файлы PCAP в R. Каждый файл PCAP фактически ссылается на одно наблюдение (строку). В этом наборе данных есть столбец «Запрос», который содержит строку,...

85 просмотров

r tokenize

06.11.2022

IBM DB2 TextSearch // Язык = AUTO // Лингвистическая обработка

Я использую последний выпуск IBM DB2 Express-C edition LUW на 32-разрядной версии Windows Server. TextSearch-Engine правильно настроен и работает до сих пор. Я создал небольшую тестовую таблицу с столбцом идентификатора первичного ключа и...

180 просмотров

database full-text-search tokenize db2

24.05.2024

Как создать элемент управления токенизацией для UWP, известный из Outlook, при использовании «Кому», «Копия» и «СК»

Здесь есть отличная статья о том, как написать элемент управления токенизацией для WPF: Управление токенизацией — преобразование текста в токены Но как это реализовать в приложении UWP? Почтовый клиент Windows 10 UWP отлично справляется с...

606 просмотров

xaml tokenize win-universal-app winrt-xaml

15.02.2024

Ресурс Python nltk u'tokenizers / punkt / english.pickle 'не найден, но он действительно присутствует

Вот мой код, просто выполняю токенизацию с помощью nltk. import nltk from nltk.corpus import stopwords tokens = nltk.word_tokenize(doc, language='english') # remove all the stopwords filtered = [w for w in tokens if (w not in...

4316 просмотров

python tokenize nltk

19.11.2022

Вопросы по теме 'tokenize'

Похожие вопросы