Вопросы по теме 'fuzzywuzzy'
Нечеткое сопоставление строк в Python
У меня есть 2 списка из более чем миллиона имен с немного разными соглашениями об именах. Цель здесь состоит в том, чтобы сопоставить те записи, которые похожи, с логикой достоверности 95%.
Мне известно, что есть библиотеки, которые я могу...
11549 просмотров
schedule
14.09.2022
Возврат соответствующей строки на основе коэффициента fuzzywuzzy
Я использую fuzzy wuzzy для сравнения двух столбцов в двух разных кадрах данных. Я хотел бы получить соответствующее значение в той же строке, но в другом столбце в df2. Например:
Если я в столбце A df1 имеет коэффициент соответствия более 50 со...
355 просмотров
schedule
03.06.2024
Нечеткое сопоставление Python имен только с первыми инициалами
У меня есть случай, когда мне нужно сопоставить имя из заданной строки с базой данных имен. Ниже я привел очень простой пример проблемы, с которой я сталкиваюсь, и мне непонятно, почему один случай работает над другим? Если я не ошибаюсь, алгоритмом...
2344 просмотров
schedule
14.12.2023
нечеткое сопоставление на основе словаря
Я хочу сопоставить вхождения сущностей в SeqString . Например:
dict_data = ['johnson', 'apple platform']
SeqString = 'Johnson buys a new phone which is based on Apppple Platform. Johnson very likes the Apple Platform.'
Ожидаемые результаты:...
230 просмотров
schedule
23.11.2022
Лучший подход, чем FuzzyWuzzy?
Я получаю результат в fuzzywuzzy, который не работает так, как я надеялся. Если в середине есть лишнее слово из-за разницы Левенштейна, оценка ниже.
Пример:
from fuzzywuzzy import fuzz
score = fuzz.ratio('DANIEL CARTWRIGHT', 'DANIEL WILLIAM...
1980 просмотров
schedule
07.06.2024
Нужно больше понимать частичное соотношение python fuzz
Я использую python fuzzywuzzy на уровне предприятия для сопоставления двух строк. В большинстве случаев он отлично работает, но дает неожиданные результаты в приведенном ниже сценарии:
fuzz.partial_ratio('ja rule:mesmerize','ja rule feat....
2861 просмотров
schedule
08.10.2022
Нечеткое сопоставление строк с Pandas и FuzzyWuzzy, сопоставление данных: TypeError: нельзя использовать шаблон строки для объекта, подобного байтам
У меня есть файл данных, который выглядит так:
И у меня есть еще один файл данных, в котором указаны все правильные названия стран.
Для сопоставления обоих файлов, которые я использую ниже:
import pandas as pd
names_array=[]...
138 просмотров
schedule
03.05.2024
fuzzy wuzzy WRatio для обнаружения верхнего регистра
Мне нужна помощь в выяснении причин
fuzz.WRatio('Māne', 'mane', force_ascii=True) => 75%
а также
fuzz.WRatio('Māne', 'Mane', force_ascii=True) => 75%
Я бы ожидал, что параметр force_ascii обеспечит большую точность. Спасибо.
272 просмотров
schedule
06.06.2024
Создать новый столбец с нечеткой оценкой для двух строковых столбцов в одном фрейме данных
Я пытаюсь рассчитать нечеткую оценку (предпочтительно оценку partial_ratio) по двум столбцам в одном кадре данных.
| column1 | column2|
| -------- | -------------- |
| emmett holt| holt
| greenwald| christopher
Это должно выглядеть примерно...
103 просмотров
schedule
23.11.2023