Публикации по теме 'text-processing'


Повысьте производительность обработки текста JavaScript с помощью оптимизированной подсветки фраз
Если вы работаете с большими объемами текста в JavaScript, вы знаете, что его обработка может быть медленной. Одной из распространенных задач является выделение определенных фраз в тексте, но традиционный подход может быть медленным и неэффективным. В этой статье мы рассмотрим, как оптимизировать выделение фраз в JavaScript, чтобы сделать его более быстрым и эффективным. Введение Обработка текста — распространенная задача в JavaScript, но она может быть медленной и неэффективной при..

ScanLines ограничивает байты в Golang
Голанг ScanLines ограничивает байты в Golang При работе с bufio.ScanLines для извлечения текста из файла, скажем, если строка в строке превышает сканирование по умолчанию (64 КБ), мы не можем получить полную строку. Чтобы решить эту проблему, просто установите для параметра maxCapacity значение scan. В этом примере мы устанавливаем maxCapacity на 512 МБ. Надеюсь это поможет!! МИР!!

Вопросы по теме 'text-processing'

Чтение текстовых значений в переменные Matlab из файлов ASCII
Рассмотрим следующий файл var1 var2 variable3 1 2 3 11 22 33 Я хотел бы загрузить числа в матрицу, а заголовки столбцов в переменную, которая была бы эквивалентна: variable_names = char('var1', 'var2', 'variable3'); Я не...
34634 просмотров

tf-idf: я правильно понимаю?
Я заинтересован в кластеризации документов, и сейчас я рассматриваю возможность использования для этого TF-IDF. Если я не ошибаюсь, TF-IDF особенно используется для оценки релевантности документа данному запросу . Если у меня нет определенного...
3424 просмотров

Преобразование подсчетов в относительные вероятности
Фон Создайте лексикон вероятностей на основе CSV-файла слов и подсчетов. Это прелюдия к проблеме с сегментацией текста, а не домашнее задание. Проблема Дан файл CSV со следующими словами и числами: aardvark,10 aardwolf,9 armadillo,9...
274 просмотров
schedule 10.04.2024

Есть ли инструмент для разделения немецких составных слов в java?
Я успешно разбиваю предложения на слова с помощью StringTokenizer . Есть ли инструмент, который может разбивать составные слова, такие как Projektüberwachung , на их части Projekt и überwachung или даже более длинные ? Причина разделения...
2798 просмотров
schedule 13.11.2022

Эффективно анализируете большой текстовый файл в Python?
У меня есть ряд больших плоских текстовых файлов, которые мне нужно проанализировать, чтобы вставить в базу данных SQL. Каждая запись занимает несколько строк и состоит примерно из сотни полей фиксированной длины. Я пытаюсь понять, как эффективно их...
3816 просмотров
schedule 09.11.2023

сравнение значений в нескольких файлах
У меня есть два файла, и каждый файл имеет 3 столбца и n строк (разное количество строк в каждом файле). каждый выглядит так: file1 chr1 12 32 chr1 14 30 chr3 10002 89000 chrx 5678900 987654 и это: file2 chr1 8...
459 просмотров
schedule 24.03.2024

Извлечь данные из xml-файла
У меня есть файл xml, содержащий тысячи записей, например: <gml:featureMember> <Feature> <featureType>JCSOutput</featureType> <property name="gml2_coordsys"></property> <gml:PointProperty>...
4234 просмотров
schedule 26.10.2022

Двойной связанный список и массив в текстовых редакторах
Я запустил экспериментальный редактор кода, используя ncurses. Я использую двойной связанный список для хранения/анализа/печати текста. Несмотря на то, что я далеко в реализации, я еще не решил, было ли использование двойного связанного списка...
930 просмотров
schedule 05.11.2023

Python: лучший способ удалить повторяющийся символ из строки
Как удалить повторяющиеся символы из строки с помощью Python? Например, допустим, у меня есть строка: foo = "SSYYNNOOPPSSIISS" Как я могу сделать строку: foo = SYNOPSIS Я новичок в python и что я устал, и это работает. Я знал, что...
27914 просмотров
schedule 10.06.2024

Переставить столбцы в таблицу
У меня есть файл с разделителями-пробелами, например: GID_1 AID_1 2 GID_1 AID_2 1 GID_1 AID_3 3 GID_2 AID_1 3 GID_2 AID_2 1 GID_2 AID_3 2 GID_3 AID_1 1 GID_3 AID_2 1 GID_3 AID_3 3 и я хотел бы перенести столбцы 1 и 3 на столбец 2 и получить...
69 просмотров
schedule 16.02.2024

Удалить текст, сохраненный в файле, из нескольких файлов в терминале Linux
Я хотел бы удалить некоторый текст, который я сохранил в файл (потому что он довольно длинный), о котором я знаю, что он является частью многих файлов в каталоге (и его подкаталогах). Теперь я хочу удалить этот образец текста из всех этих файлов....
48 просмотров
schedule 07.02.2024

Получение числовой подстроки полей с помощью awk
Мне было интересно, как я могу получить числовую подстроку полей, используя awk в текстовом файле, как показано ниже. Я уже знаком с функцией substr(). Однако, поскольку длина полей не фиксирована, я понятия не имею, как отделить текст от числовой...
47 просмотров
schedule 08.01.2024

Создание простой поисковой программы
Решил удалить и перепрошить, просто стало проще! Пожалуйста, не голосуйте против, так как приняли во внимание то, что говорили люди. У меня есть два вложенных словаря: - wordFrequency =...
129 просмотров
schedule 27.09.2022

Как прочитать текстовый файл в R как одну строку
Я пытаюсь обработать текстовый файл. В целом у меня есть корпус, который я хотел бы проанализировать. Чтобы использовать пакет tm (пакет анализа текста в R) для создания объекта Корпуса, мне нужно сделать этот абзац одним гигантским вектором, чтобы...
5019 просмотров
schedule 22.03.2024

awk для текстовой обработки файла cvs
У меня есть несколько больших текстовых файлов *.cvs, которые выглядят так: Word,Tag,Lemma Off,aa,off short,aa,short and,sfg3eþ,and tall,sþghen,tall deers,aþ,deer in,never,in Africa,nc,Africa frv.,aa,frv....
189 просмотров
schedule 29.10.2022

Какой самый быстрый и безошибочный метод извлечения и очистки основного текста HTML в Python?
В настоящее время у меня есть две функции для извлечения текста HTML <body> из Python и возврата его в виде набора слов. Они дают эквивалентный результат. Я также очищаю различные теги, которые в противном случае давали бы мне мусорный текст...
195 просмотров

[простой вопрос]: импортировать .net файл (слово / вхождения) в cytoscapeКакие атрибуты какие?
Я взял корпус текста и поместил его в VosViewer, чтобы создать для меня сеть. Когда я импортирую этот файл .net в gephi, он работает нормально: я получаю семантическую сеть. Хотя я немного застрял в том, какие атрибуты выбрать для импорта в...
95 просмотров
schedule 25.11.2023

Общий способ использования XSLT для создания текста из одного шаблона XML и другого аргумента XML
У меня есть решение моего вопроса ниже, но мне нужно, чтобы оно было более общим, поэтому мне нужна помощь. Вопрос: У нас есть "template.xml", который состоит из смеси элементов <verbatim> и элементов <argument id='foo'/> , каждый...
161 просмотров
schedule 18.11.2022

Обработка английских глаголов, оканчивающихся на «e»
Я реализую несколько заменителей строк с учетом этих преобразований. 'thou sittest' → 'you sit' 'thou walkest' → 'you walk' 'thou liest' → 'you lie' 'thou risest' → 'you rise' Если я оставлю это наивным, можно использовать регулярное...
75 просмотров

Классифицировать имена файлов (экспортированные в Excel) на основе имен/типа
В рамках моей работы мы составляем полный список на основе всех файлов, которые пользователь имеет на своем диске. Эти пользователи должны решить для каждого файла, архивировать их или нет (обозначается Y или N). В качестве услуги для этих...
138 просмотров
schedule 06.12.2023