Публикации по тематике text-processing

Публикации по теме 'text-processing'

Повысьте производительность обработки текста JavaScript с помощью оптимизированной подсветки фраз

Если вы работаете с большими объемами текста в JavaScript, вы знаете, что его обработка может быть медленной. Одной из распространенных задач является выделение определенных фраз в тексте, но традиционный подход может быть медленным и неэффективным. В этой статье мы рассмотрим, как оптимизировать выделение фраз в JavaScript, чтобы сделать его более быстрым и эффективным. Введение Обработка текста — распространенная задача в JavaScript, но она может быть медленной и неэффективной при..

ScanLines ограничивает байты в Golang

Голанг ScanLines ограничивает байты в Golang При работе с bufio.ScanLines для извлечения текста из файла, скажем, если строка в строке превышает сканирование по умолчанию (64 КБ), мы не можем получить полную строку. Чтобы решить эту проблему, просто установите для параметра maxCapacity значение scan. В этом примере мы устанавливаем maxCapacity на 512 МБ. Надеюсь это поможет!! МИР!!

Вопросы по теме 'text-processing'

Чтение текстовых значений в переменные Matlab из файлов ASCII

Рассмотрим следующий файл var1 var2 variable3 1 2 3 11 22 33 Я хотел бы загрузить числа в матрицу, а заголовки столбцов в переменную, которая была бы эквивалентна: variable_names = char('var1', 'var2', 'variable3'); Я не...

34634 просмотров

22.11.2023

tf-idf: я правильно понимаю?

Я заинтересован в кластеризации документов, и сейчас я рассматриваю возможность использования для этого TF-IDF. Если я не ошибаюсь, TF-IDF особенно используется для оценки релевантности документа данному запросу . Если у меня нет определенного...

3424 просмотров

algorithm tf-idf text-processing language-agnostic information-retrieval

29.02.2024

Преобразование подсчетов в относительные вероятности

Фон Создайте лексикон вероятностей на основе CSV-файла слов и подсчетов. Это прелюдия к проблеме с сегментацией текста, а не домашнее задание. Проблема Дан файл CSV со следующими словами и числами: aardvark,10 aardwolf,9 armadillo,9...

274 просмотров

bash csv math text-processing

10.04.2024

Есть ли инструмент для разделения немецких составных слов в java?

Я успешно разбиваю предложения на слова с помощью StringTokenizer . Есть ли инструмент, который может разбивать составные слова, такие как Projektüberwachung , на их части Projekt и überwachung или даже более длинные ? Причина разделения...

2798 просмотров

java string tokenize text-processing

13.11.2022

Эффективно анализируете большой текстовый файл в Python?

У меня есть ряд больших плоских текстовых файлов, которые мне нужно проанализировать, чтобы вставить в базу данных SQL. Каждая запись занимает несколько строк и состоит примерно из сотни полей фиксированной длины. Я пытаюсь понять, как эффективно их...

3816 просмотров

python file-io text-processing

09.11.2023

сравнение значений в нескольких файлах

У меня есть два файла, и каждый файл имеет 3 столбца и n строк (разное количество строк в каждом файле). каждый выглядит так: file1 chr1 12 32 chr1 14 30 chr3 10002 89000 chrx 5678900 987654 и это: file2 chr1 8...

459 просмотров

python bash shell awk text-processing

24.03.2024

Извлечь данные из xml-файла

У меня есть файл xml, содержащий тысячи записей, например: <gml:featureMember> <Feature> <featureType>JCSOutput</featureType> <property name="gml2_coordsys"></property> <gml:PointProperty>...

4234 просмотров

xml awk text-processing perl sed

26.10.2022

Двойной связанный список и массив в текстовых редакторах

Я запустил экспериментальный редактор кода, используя ncurses. Я использую двойной связанный список для хранения/анализа/печати текста. Несмотря на то, что я далеко в реализации, я еще не решил, было ли использование двойного связанного списка...

930 просмотров

c text-processing

05.11.2023

Python: лучший способ удалить повторяющийся символ из строки

Как удалить повторяющиеся символы из строки с помощью Python? Например, допустим, у меня есть строка: foo = "SSYYNNOOPPSSIISS" Как я могу сделать строку: foo = SYNOPSIS Я новичок в python и что я устал, и это работает. Я знал, что...

27914 просмотров

python string text-processing

10.06.2024

Переставить столбцы в таблицу

У меня есть файл с разделителями-пробелами, например: GID_1 AID_1 2 GID_1 AID_2 1 GID_1 AID_3 3 GID_2 AID_1 3 GID_2 AID_2 1 GID_2 AID_3 2 GID_3 AID_1 1 GID_3 AID_2 1 GID_3 AID_3 3 и я хотел бы перенести столбцы 1 и 3 на столбец 2 и получить...

69 просмотров

variables awk text-processing

16.02.2024

Удалить текст, сохраненный в файле, из нескольких файлов в терминале Linux

Я хотел бы удалить некоторый текст, который я сохранил в файл (потому что он довольно длинный), о котором я знаю, что он является частью многих файлов в каталоге (и его подкаталогах). Теперь я хочу удалить этот образец текста из всех этих файлов....

48 просмотров

terminal linux text-processing

07.02.2024

Получение числовой подстроки полей с помощью awk

Мне было интересно, как я могу получить числовую подстроку полей, используя awk в текстовом файле, как показано ниже. Я уже знаком с функцией substr(). Однако, поскольку длина полей не фиксирована, я понятия не имею, как отделить текст от числовой...

47 просмотров

awk text-processing

08.01.2024

Создание простой поисковой программы

Решил удалить и перепрошить, просто стало проще! Пожалуйста, не голосуйте против, так как приняли во внимание то, что говорили люди. У меня есть два вложенных словаря: - wordFrequency =...

129 просмотров

python dictionary search text-processing

27.09.2022

Как прочитать текстовый файл в R как одну строку

Я пытаюсь обработать текстовый файл. В целом у меня есть корпус, который я хотел бы проанализировать. Чтобы использовать пакет tm (пакет анализа текста в R) для создания объекта Корпуса, мне нужно сделать этот абзац одним гигантским вектором, чтобы...

5019 просмотров

r text regex text-mining text-processing

22.03.2024

awk для текстовой обработки файла cvs

У меня есть несколько больших текстовых файлов *.cvs, которые выглядят так: Word,Tag,Lemma Off,aa,off short,aa,short and,sfg3eþ,and tall,sþghen,tall deers,aþ,deer in,never,in Africa,nc,Africa frv.,aa,frv....

189 просмотров

awk text-processing

29.10.2022

Какой самый быстрый и безошибочный метод извлечения и очистки основного текста HTML в Python?

В настоящее время у меня есть две функции для извлечения текста HTML <body> из Python и возврата его в виде набора слов. Они дают эквивалентный результат. Я также очищаю различные теги, которые в противном случае давали бы мне мусорный текст...

195 просмотров

python html beautifulsoup text-processing lxml

05.04.2024

[простой вопрос]: импортировать .net файл (слово / вхождения) в cytoscapeКакие атрибуты какие?

Я взял корпус текста и поместил его в VosViewer, чтобы создать для меня сеть. Когда я импортирую этот файл .net в gephi, он работает нормально: я получаю семантическую сеть. Хотя я немного застрял в том, какие атрибуты выбрать для импорта в...

95 просмотров

nlp cytoscape text-processing

25.11.2023

Общий способ использования XSLT для создания текста из одного шаблона XML и другого аргумента XML

У меня есть решение моего вопроса ниже, но мне нужно, чтобы оно было более общим, поэтому мне нужна помощь. Вопрос: У нас есть "template.xml", который состоит из смеси элементов <verbatim> и элементов <argument id='foo'/> , каждый...

161 просмотров

xml templates xslt text-processing xslt-1.0

18.11.2022

Обработка английских глаголов, оканчивающихся на «e»

Я реализую несколько заменителей строк с учетом этих преобразований. 'thou sittest' → 'you sit' 'thou walkest' → 'you walk' 'thou liest' → 'you lie' 'thou risest' → 'you rise' Если я оставлю это наивным, можно использовать регулярное...

75 просмотров

python nlp text-processing stemming python-textprocessing

11.03.2024

Классифицировать имена файлов (экспортированные в Excel) на основе имен/типа

В рамках моей работы мы составляем полный список на основе всех файлов, которые пользователь имеет на своем диске. Эти пользователи должны решить для каждого файла, архивировать их или нет (обозначается Y или N). В качестве услуги для этих...

138 просмотров

excel text-processing

06.12.2023

Публикации по теме 'text-processing'

Повысьте производительность обработки текста JavaScript с помощью оптимизированной подсветки фраз

ScanLines ограничивает байты в Golang

Вопросы по теме 'text-processing'

Похожие вопросы