Стандартный и надежный способ отслеживать подписчиков RSS?

Как лучше всего надежно отслеживать подписчиков RSS без использования Feedburner? Некоторые из очевидных подходов, таких как отслеживание по IP или количеству обращений, имеют некоторые фатальные недостатки. IP-адреса могут меняться с каждым запросом, или несколько пользователей могут использовать один и тот же IP-адрес. Кроме того, читатели каналов могут запрашивать канал несколько раз в день или даже час. Обе проблемы затрудняют получение надежной статистики по уникальным подписчикам.

Я прочитал статьи как Лео Нотенбума, так и Tim Bray по теме, но ни одно из их предложений, похоже, не решает, как точно отслеживать подписчиков. и надежный способ. Лео предлагает иметь уникальный идентификатор, сгенерированный программно, который будет добавляться к URL-адресу RSS-канала при каждой загрузке ссылающейся страницы. Тим выступает за то, чтобы RSS-ридеры генерировали уникальный хэштег, а также предлагает различные варианты, от отслеживания рефереров до использования файлов cookie. Уникальный URL-адрес был бы надежным, но у него есть два недостатка: это не удобный URL-адрес, и он создает дублированный контент для SEO. Существуют ли другие надежные методы отслеживания подписчиков RSS? Как Feedburner оценивает количество подписчиков?


rss
person VirtuosiMedia    schedule 25.07.2010    source источник
comment
генерация уникального файла xml ex: www.site.com/rss/12345/ для каждого подписавшегося пользователя вашего сайта; Итак, сгенерируйте xml с помощью php, используя тип заголовка xml, и отследите его по времени ()! это может быть безопасным способом подсчета уникальных доступов к вашему RSS. ИМХО довольно радикально, но действенно! ;)   -  person Luca Filosofi    schedule 03.08.2010


Ответы (4)


На самом деле нет стандартного способа сделать это. Подсчет подписчиков всегда ненадежен, но с его помощью можно получить хорошие оценки.

Вот как это делает Google (источник):

Количество подписчиков рассчитывается путем сопоставления комбинаций IP-адреса и считывателя каналов, а затем с использованием нашего детального понимания множества считывателей, агрегаторов и ботов на рынке, чтобы сделать дополнительные выводы.

Конечно, отчасти это легко для Google, так как они могут сначала подсчитать, сколько пользователей Google Reader подписано на рассматриваемый канал. После этого они также используют сопоставление IP-адресов, и это то, что вы тоже должны использовать.

Вы можете рассчитать индивидуальные IP-адреса (то есть уникальные) из журналов веб-серверов, но это будет считать 10 человек за 1, если все они используют один и тот же адрес. Вот почему вам следует проверять HTTP-заголовки, отправляемые клиентом, а точнее поля заголовков HTTP_X_FORWARDED_FOR и HTTP_VIA. Вы можете использовать адрес HTTP_VIA в качестве «основного» адреса, а затем подсчитать, сколько уникальных адресов HTTP_X_FORWARDED_FOR подписано на фид. Если у подписчика нет этих добавленных прокси-полей, он считается уникальным IP-адресом. Они должны обрабатываться в коде, генерирующем фид. Вы также можете добавить поиск IP-адресов в GeoIP и сохранить все в базе данных. Это позволит вам увидеть, в какой стране больше всего подписчиков на ваш канал.

Это тоже имеет свои проблемы. Все прокси не используют эти поля и это не решает проблему подсчета абонентов за NAT шлюзами. Однако это хорошая оценка. Кроме того, вас, вероятно, больше интересует порядок, а не точное количество подписчиков, не так ли? Если счетчик говорит, что у вас 5989 подписчиков, у вас, вероятно, больше подписчиков, так как счетчик дает вам нижнюю границу.

person vtorhonen    schedule 28.07.2010

Стандартный и надежный - это не совсем слова в словаре RSS :-) Нужно помнить, что через сколько лет у этой штуки даже нет стандартного XSD? Если под отслеживанием вы имеете в виду «счет», есть несколько вещей, которые вы можете сделать, и тактика зависит от цели, то есть демонстрируете большое или малое количество? Это маркетинговая вещь, поэтому вы должны определить свои цели :-)

Возможно, вам придется классифицировать IP-номера для начала — чтобы иметь базовую коллекцию больших / корпоративных / зонтичных IP-номеров. Для них вы можете использовать реферер в качестве разумного критерия фильтрации и считать все остальное уникальным, если не доказано обратное. Подавляющее большинство IP-номеров остаются стабильными в течение примерно 2 дней, но опять же всегда полезно использовать базовую логику реферера в качестве фильтра для людей, которые, так сказать, просто продолжают «кликать».

Затем вам нужен приличный список агрегаторов и классификация того, как они обрабатывают URL-адреса, и если они полностью скрывают конечных читателей, вам нужны либо опубликованные, либо предполагаемые средние значения — всегда справедливо использовать справедливое распределение среднего количества. Использование файлов cookie может помочь собирать IP-адреса агрегаторов и различать автоматических агентов и отдельных лиц.

Очень важно иметь в виду, что вы не можете использовать только один метод и ожидать, что он будет серебряной пулей — вам нужно использовать эти 3-4 аспекта одновременно, а также базовые статистические рассуждения.

person ZXX    schedule 03.08.2010

Вы можете запросить журналы вашего веб-сервера для трафика на ваш RSS-канал, возможно, отфильтровать его по IP, чтобы получить количество уникальных.

Проблема в том, что это будет зависеть от людей, ежедневно проверяющих ленту. Частота посещений вашего RSS-канала одним человеком может варьироваться в зависимости от дня, и это число может быть ниже.

person joshtronic    schedule 25.07.2010
comment
Спасибо за предложение. Однако с этим методом есть проблемы. IP-адреса могут меняться с каждым запросом, или несколько пользователей могут использовать один и тот же IP-адрес. Кроме того, читатели каналов могут запрашивать канал несколько раз в день или даже час. Обе проблемы затрудняют получение надежной статистики по уникальным подписчикам. - person VirtuosiMedia; 25.07.2010

Если вы настроите свой RSS-канал так, чтобы он требовал какой-либо аутентификации, вы можете использовать метрики на основе пользователей вместо метрик на основе IP-адресов. Хотя это было бы технически правильным решением, заставить людей выбрать аутентифицированный блог в любом другом сценарии, кроме интрасети, — это натяжка.

person kbrimington    schedule 31.07.2010
comment
Это было бы идеально, но, к сожалению, аутентификация — это не то, как большинство каналов работают в дикой природе. Я даже не уверен, что большинство читателей RSS поддерживают что-то подобное. - person VirtuosiMedia; 01.08.2010