У меня есть список компаний, и я хочу сопоставить домены, полученные с помощью поиска Google, чтобы определить, какие из них, вероятно, принадлежат одной и той же компании. Существуют ли какие-либо существующие алгоритмы, доступные для этого варианта использования (законно разрешено использовать и в коммерческих проектах).
например У меня есть база данных фильмов в Интернете в качестве названия компании, и я говорю, что Google возвращает мне результаты, из которых допустимыми могут быть база данных интернет-фильмов, база данных интернет-фильмов, база данных интернет-фильмов, база данных интернет-фильмов, интернет-фильмы, интернет-фильмы, imd, imdb .(Примечание: я исключил TLD из списка, чтобы упростить вопрос)