Способ обнаружения припаркованной страницы?

Кто-нибудь знает способ программно обнаружить припаркованную веб-страницу? То есть те страницы, которые вы случайно вводите (а иногда и намеренно), и они размещены службой парковки доменов, на которых нет ничего, кроме рекламы.

Я работаю над сетью ссылок и хочу убедиться, что сайты с истекающим сроком действия не будут перехвачены кем-то другим, а затем не станут припаркованной страницей.


person GeoffreyF67    schedule 29.01.2009    source источник


Ответы (4)


Вот тест, который, я думаю, может поймать приличное количество из них. Он использует тот факт, что вы на самом деле не хотите иметь настоящие веб-сайты для своих припаркованных доменов. Он ищет подстановочные знаки как поддомена, так и пути. Допустим, у нас есть этот URL в нашей системе

http://www.example.com/method-to-detect-parked .

Сначала я проверял фактический URL-адрес и хешировал его или брал копию для сравнения.

Второй моей проверкой будет

http://random.example.com/random

Если она совпадает с исходной ссылкой или даже успешна, у вас есть хороший показатель того, что страница запаркована. Если это не удастся, я могу проверить как субдомен, так и путь по отдельности. Если на странице случайным образом изменяются некоторые элементы, вы можете выбрать несколько элементов для сравнения. Например, составьте список ссылок, включенных в страницу, и сравните их или, возможно, тег заголовка.

person Philip Tinney    schedule 29.01.2009

Я бы сказал, что вам придется изучить записи WHOIS для рассматриваемых сайтов и/или фактическое содержание страниц и разработать некоторые эвристики в отношении того, что представляет собой «припаркованная страница».

Возьмите goooogle.com и посмотрите на их WHOIS показывает, что они принадлежат "Защите конфиденциальности" и что их DNS-серверы - ns1/ns2.fastpark.net. Если вы посмотрите на исходный код сайта, они достаточно глупы, чтобы иметь файл CSS с именем «style_park.css» :)

В общем, я не думаю, что вы сможете придумать общий способ сделать это. Вы, вероятно, закончите с какой-то постоянно развивающейся базой правил или черным списком

person Kevin    schedule 29.01.2009
comment
Возможно, у вас больше шансов с идеей черных списков и правил ... Очень сложно программно понять, смотрите ли вы на мусор данных, но вы все равно можете искать уникальные шаблоны в файлах (общие правила css, изображения и т. д.). - person David; 29.01.2009

Вы могли бы просто положиться на то, что ваши пользователи «сообщат об этой ссылке»… что поставит ее в очередь для проверки позже?

person BoltBait    schedule 29.01.2009

Посмотрите на дату создания записи dns/whois и сравните ее с датой добавления ссылки. Если DNS новее, это ссылка, требующая ручной проверки.

Или: проверьте http://example.com/ и http://example.com/xxxxxxrandomstringxxxxx . Если эти две страницы идентичны, у вас возникла проблема, требующая ручной проверки. Либо основная страница, на которую вы хотели сослаться, не работает, либо домен запаркован, и все страницы возвращают одно и то же значение. Этот тест не является 100%, потому что некоторые припаркованные страницы отображают элементы из URL.

Если вы просто хотите проверить существующий веб-сайт, воспользуйтесь такой службой, как http://www.linkalarm.com/. это хорошо.

person Bryce    schedule 28.08.2014