Публикации по теме 'text-processing'
Повысьте производительность обработки текста JavaScript с помощью оптимизированной подсветки фраз
Если вы работаете с большими объемами текста в JavaScript, вы знаете, что его обработка может быть медленной. Одной из распространенных задач является выделение определенных фраз в тексте, но традиционный подход может быть медленным и неэффективным. В этой статье мы рассмотрим, как оптимизировать выделение фраз в JavaScript, чтобы сделать его более быстрым и эффективным.
Введение
Обработка текста — распространенная задача в JavaScript, но она может быть медленной и неэффективной при..
ScanLines ограничивает байты в Golang
Голанг
ScanLines ограничивает байты в Golang
При работе с bufio.ScanLines для извлечения текста из файла, скажем, если строка в строке превышает сканирование по умолчанию (64 КБ), мы не можем получить полную строку.
Чтобы решить эту проблему, просто установите для параметра maxCapacity значение scan.
В этом примере мы устанавливаем maxCapacity на 512 МБ.
Надеюсь это поможет!!
МИР!!
Вопросы по теме 'text-processing'
Чтение текстовых значений в переменные Matlab из файлов ASCII
Рассмотрим следующий файл
var1 var2 variable3
1 2 3
11 22 33
Я хотел бы загрузить числа в матрицу, а заголовки столбцов в переменную, которая была бы эквивалентна:
variable_names = char('var1', 'var2', 'variable3');
Я не...
34634 просмотров
schedule
22.11.2023
tf-idf: я правильно понимаю?
Я заинтересован в кластеризации документов, и сейчас я рассматриваю возможность использования для этого TF-IDF.
Если я не ошибаюсь, TF-IDF особенно используется для оценки релевантности документа данному запросу . Если у меня нет определенного...
3424 просмотров
schedule
29.02.2024
Преобразование подсчетов в относительные вероятности
Фон
Создайте лексикон вероятностей на основе CSV-файла слов и подсчетов. Это прелюдия к проблеме с сегментацией текста, а не домашнее задание.
Проблема
Дан файл CSV со следующими словами и числами:
aardvark,10
aardwolf,9
armadillo,9...
274 просмотров
schedule
10.04.2024
Есть ли инструмент для разделения немецких составных слов в java?
Я успешно разбиваю предложения на слова с помощью StringTokenizer .
Есть ли инструмент, который может разбивать составные слова, такие как Projektüberwachung , на их части Projekt и überwachung или даже более длинные ?
Причина разделения...
2798 просмотров
schedule
13.11.2022
Эффективно анализируете большой текстовый файл в Python?
У меня есть ряд больших плоских текстовых файлов, которые мне нужно проанализировать, чтобы вставить в базу данных SQL. Каждая запись занимает несколько строк и состоит примерно из сотни полей фиксированной длины. Я пытаюсь понять, как эффективно их...
3816 просмотров
schedule
09.11.2023
сравнение значений в нескольких файлах
У меня есть два файла, и каждый файл имеет 3 столбца и n строк (разное количество строк в каждом файле).
каждый выглядит так:
file1
chr1 12 32
chr1 14 30
chr3 10002 89000
chrx 5678900 987654
и это:
file2
chr1 8...
459 просмотров
schedule
24.03.2024
Извлечь данные из xml-файла
У меня есть файл xml, содержащий тысячи записей, например:
<gml:featureMember>
<Feature>
<featureType>JCSOutput</featureType>
<property name="gml2_coordsys"></property>
<gml:PointProperty>...
4234 просмотров
schedule
26.10.2022
Двойной связанный список и массив в текстовых редакторах
Я запустил экспериментальный редактор кода, используя ncurses. Я использую двойной связанный список для хранения/анализа/печати текста. Несмотря на то, что я далеко в реализации, я еще не решил, было ли использование двойного связанного списка...
930 просмотров
schedule
05.11.2023
Python: лучший способ удалить повторяющийся символ из строки
Как удалить повторяющиеся символы из строки с помощью Python? Например, допустим, у меня есть строка:
foo = "SSYYNNOOPPSSIISS"
Как я могу сделать строку:
foo = SYNOPSIS
Я новичок в python и что я устал, и это работает. Я знал, что...
27914 просмотров
schedule
10.06.2024
Переставить столбцы в таблицу
У меня есть файл с разделителями-пробелами, например:
GID_1 AID_1 2
GID_1 AID_2 1
GID_1 AID_3 3
GID_2 AID_1 3
GID_2 AID_2 1
GID_2 AID_3 2
GID_3 AID_1 1
GID_3 AID_2 1
GID_3 AID_3 3
и я хотел бы перенести столбцы 1 и 3 на столбец 2 и получить...
69 просмотров
schedule
16.02.2024
Удалить текст, сохраненный в файле, из нескольких файлов в терминале Linux
Я хотел бы удалить некоторый текст, который я сохранил в файл (потому что он довольно длинный), о котором я знаю, что он является частью многих файлов в каталоге (и его подкаталогах). Теперь я хочу удалить этот образец текста из всех этих файлов....
48 просмотров
schedule
07.02.2024
Получение числовой подстроки полей с помощью awk
Мне было интересно, как я могу получить числовую подстроку полей, используя awk в текстовом файле, как показано ниже. Я уже знаком с функцией substr(). Однако, поскольку длина полей не фиксирована, я понятия не имею, как отделить текст от числовой...
47 просмотров
schedule
08.01.2024
Создание простой поисковой программы
Решил удалить и перепрошить, просто стало проще! Пожалуйста, не голосуйте против, так как приняли во внимание то, что говорили люди.
У меня есть два вложенных словаря: -
wordFrequency =...
129 просмотров
schedule
27.09.2022
Как прочитать текстовый файл в R как одну строку
Я пытаюсь обработать текстовый файл. В целом у меня есть корпус, который я хотел бы проанализировать. Чтобы использовать пакет tm (пакет анализа текста в R) для создания объекта Корпуса, мне нужно сделать этот абзац одним гигантским вектором, чтобы...
5019 просмотров
schedule
22.03.2024
awk для текстовой обработки файла cvs
У меня есть несколько больших текстовых файлов *.cvs, которые выглядят так:
Word,Tag,Lemma
Off,aa,off
short,aa,short
and,sfg3eþ,and
tall,sþghen,tall
deers,aþ,deer
in,never,in
Africa,nc,Africa
frv.,aa,frv....
189 просмотров
schedule
29.10.2022
Какой самый быстрый и безошибочный метод извлечения и очистки основного текста HTML в Python?
В настоящее время у меня есть две функции для извлечения текста HTML <body> из Python и возврата его в виде набора слов. Они дают эквивалентный результат. Я также очищаю различные теги, которые в противном случае давали бы мне мусорный текст...
195 просмотров
schedule
05.04.2024
[простой вопрос]: импортировать .net файл (слово / вхождения) в cytoscapeКакие атрибуты какие?
Я взял корпус текста и поместил его в VosViewer, чтобы создать для меня сеть. Когда я импортирую этот файл .net в gephi, он работает нормально: я получаю семантическую сеть. Хотя я немного застрял в том, какие атрибуты выбрать для импорта в...
95 просмотров
schedule
25.11.2023
Общий способ использования XSLT для создания текста из одного шаблона XML и другого аргумента XML
У меня есть решение моего вопроса ниже, но мне нужно, чтобы оно было более общим, поэтому мне нужна помощь.
Вопрос:
У нас есть "template.xml", который состоит из смеси элементов <verbatim> и элементов <argument id='foo'/> , каждый...
161 просмотров
schedule
18.11.2022
Обработка английских глаголов, оканчивающихся на «e»
Я реализую несколько заменителей строк с учетом этих преобразований.
'thou sittest' → 'you sit'
'thou walkest' → 'you walk'
'thou liest' → 'you lie'
'thou risest' → 'you rise'
Если я оставлю это наивным, можно использовать регулярное...
75 просмотров
schedule
11.03.2024
Классифицировать имена файлов (экспортированные в Excel) на основе имен/типа
В рамках моей работы мы составляем полный список на основе всех файлов, которые пользователь имеет на своем диске. Эти пользователи должны решить для каждого файла, архивировать их или нет (обозначается Y или N). В качестве услуги для этих...
138 просмотров
schedule
06.12.2023