Имам списък с компании и искам да съпоставя домейни, извлечени с помощта на търсенето в Google, за да установя кои от тях вероятно принадлежат на същата компания. Има ли някакви съществуващи алгоритми, които са налични за този случай на употреба (законно разрешено да се използва и в търговски проект).
напр. Имам Internet Movie Database като име на фирмата и казвам, че Google ми връща резултатите, от които валидни могат да бъдат internetmoviedatabase, internet-movie-database, the-internet-movie-database, theinternetmoviedatabase, internetmovies, internet-movies, imd, imdb .(Забележка: Изключих TLD от списъка, за да опростя въпроса)