Алгоритмы сопоставления доменных имен

У меня есть список компаний, и я хочу сопоставить домены, полученные с помощью поиска Google, чтобы определить, какие из них, вероятно, принадлежат одной и той же компании. Существуют ли какие-либо существующие алгоритмы, доступные для этого варианта использования (законно разрешено использовать и в коммерческих проектах).

например У меня есть база данных фильмов в Интернете в качестве названия компании, и я говорю, что Google возвращает мне результаты, из которых допустимыми могут быть база данных интернет-фильмов, база данных интернет-фильмов, база данных интернет-фильмов, база данных интернет-фильмов, интернет-фильмы, интернет-фильмы, imd, imdb .(Примечание: я исключил TLD из списка, чтобы упростить вопрос)


person mehulved    schedule 05.04.2013    source источник
comment
Похоже, вам нужен такой же алгоритм, который используют регистраторы доменных имен, чтобы предлагать альтернативы, когда кто-то пытается зарегистрировать доменное имя, которое уже было зарегистрировано. Они могут предложить вдохновение, если не полный алгоритм.   -  person Matthew Strawbridge    schedule 05.04.2013


Ответы (1)


Похоже, вы ищете приблизительный алгоритм сопоставления строк. Не уверен, что вы ищете только алгоритм или реализацию.

Здесь уже есть вопрос: алгоритм сопоставления строк

Одним из возможных решений является использование расстояния Левенштейна: http://en.wikipedia.org/wiki/Levenshtein_distance

Если вы ищете реализацию, если вы погуглите «приблизительное соответствие строки C++», это будет первый результат: http://www.chokkan.org/software/simstring/

Удачи!

person maditya    schedule 05.04.2013