Алгоритми за съпоставяне на имена на домейни

Имам списък с компании и искам да съпоставя домейни, извлечени с помощта на търсенето в Google, за да установя кои от тях вероятно принадлежат на същата компания. Има ли някакви съществуващи алгоритми, които са налични за този случай на употреба (законно разрешено да се използва и в търговски проект).

напр. Имам Internet Movie Database като име на фирмата и казвам, че Google ми връща резултатите, от които валидни могат да бъдат internetmoviedatabase, internet-movie-database, the-internet-movie-database, theinternetmoviedatabase, internetmovies, internet-movies, imd, imdb .(Забележка: Изключих TLD от списъка, за да опростя въпроса)


person mehulved    schedule 05.04.2013    source източник
comment
Звучи сякаш имате нужда от същия вид алгоритъм, който регистраторите на имена на домейни използват, за да предложат алтернативи, когато някой се опита да регистрира име на домейн, което вече е регистрирано. Те могат да предложат вдъхновение, ако не и пълен алгоритъм.   -  person Matthew Strawbridge    schedule 05.04.2013


Отговори (1)


Звучи сякаш търсите приблизителен алгоритъм за съвпадение на низове. Не съм сигурен дали търсите само алгоритъма или внедряване.

Тук вече има въпрос за него: Алгоритъм за съвпадение на низ

Едно възможно решение е да използвате Levenshtein distance: http://en.wikipedia.org/wiki/Levenshtein_distance

Ако търсите внедряване, ако търсите в Google „приблизително съвпадение на низ C++“, това е първият резултат: http://www.chokkan.org/software/simstring/

Късмет!

person maditya    schedule 05.04.2013