Вопросы по теме 'fuzzywuzzy'

Нечеткое сопоставление строк в Python
У меня есть 2 списка из более чем миллиона имен с немного разными соглашениями об именах. Цель здесь состоит в том, чтобы сопоставить те записи, которые похожи, с логикой достоверности 95%. Мне известно, что есть библиотеки, которые я могу...
11549 просмотров
schedule 14.09.2022

Возврат соответствующей строки на основе коэффициента fuzzywuzzy
Я использую fuzzy wuzzy для сравнения двух столбцов в двух разных кадрах данных. Я хотел бы получить соответствующее значение в той же строке, но в другом столбце в df2. Например: Если я в столбце A df1 имеет коэффициент соответствия более 50 со...
355 просмотров
schedule 03.06.2024

Нечеткое сопоставление Python имен только с первыми инициалами
У меня есть случай, когда мне нужно сопоставить имя из заданной строки с базой данных имен. Ниже я привел очень простой пример проблемы, с которой я сталкиваюсь, и мне непонятно, почему один случай работает над другим? Если я не ошибаюсь, алгоритмом...
2344 просмотров
schedule 14.12.2023

нечеткое сопоставление на основе словаря
Я хочу сопоставить вхождения сущностей в SeqString . Например: dict_data = ['johnson', 'apple platform'] SeqString = 'Johnson buys a new phone which is based on Apppple Platform. Johnson very likes the Apple Platform.' Ожидаемые результаты:...
230 просмотров

Лучший подход, чем FuzzyWuzzy?
Я получаю результат в fuzzywuzzy, который не работает так, как я надеялся. Если в середине есть лишнее слово из-за разницы Левенштейна, оценка ниже. Пример: from fuzzywuzzy import fuzz score = fuzz.ratio('DANIEL CARTWRIGHT', 'DANIEL WILLIAM...
1980 просмотров
schedule 07.06.2024

Нужно больше понимать частичное соотношение python fuzz
Я использую python fuzzywuzzy на уровне предприятия для сопоставления двух строк. В большинстве случаев он отлично работает, но дает неожиданные результаты в приведенном ниже сценарии: fuzz.partial_ratio('ja rule:mesmerize','ja rule feat....
2861 просмотров

Нечеткое сопоставление строк с Pandas и FuzzyWuzzy, сопоставление данных: TypeError: нельзя использовать шаблон строки для объекта, подобного байтам
У меня есть файл данных, который выглядит так: И у меня есть еще один файл данных, в котором указаны все правильные названия стран. Для сопоставления обоих файлов, которые я использую ниже: import pandas as pd names_array=[]...
138 просмотров
schedule 03.05.2024

fuzzy wuzzy WRatio для обнаружения верхнего регистра
Мне нужна помощь в выяснении причин fuzz.WRatio('Māne', 'mane', force_ascii=True) => 75% а также fuzz.WRatio('Māne', 'Mane', force_ascii=True) => 75% Я бы ожидал, что параметр force_ascii обеспечит большую точность. Спасибо.
272 просмотров
schedule 06.06.2024

Создать новый столбец с нечеткой оценкой для двух строковых столбцов в одном фрейме данных
Я пытаюсь рассчитать нечеткую оценку (предпочтительно оценку partial_ratio) по двум столбцам в одном кадре данных. | column1 | column2| | -------- | -------------- | | emmett holt| holt | greenwald| christopher Это должно выглядеть примерно...
103 просмотров