Некоторое время назад два человека из тех, блоги которых я читаю, выражали желание заняться написанием Правильной Статистики. Хочу поделиться идеей для такого сервиса.
С распространением фид-агрегаторов в статистике появилась проблема. Количество запросов фида на порядки превышает количество запросов всего остального (у меня на блоге — в 100 раз). Такое большое количество обусловлено тем, что большинство из этих запросов — проверки на наличие обновлений, которые агрегатор делает либо сам автоматически, либо по кнопочке из интерфейса. Эти запросы не представляют большого интереса, потому что юзер не пойдет читать фид, агрегатор показывает, что там нет новых сообщений.
Так вот, мне пришла сегодня в голову мысль, что эти запросы можно довольно просто отсечь из статистики. К счастью большинство нормальных агрегаторов используют HTTP'шный conditional get. То есть, проставляют в запросе заголовок If-Modified-Since, по которому блог определяет, отдавать новый контент или сказать "304 Not Modified".
Вот это и можно использовать, не учитывая в статистике те запросы фида, на которые блог ответил 304.
Таким образом в статистику будут попадать в большинстве случаев только по одному запросу от каждого клиента-агрегатора для каждого нового поста.
Вот.
P.S. Только, ребят, не бросайте, plz, это дело "потому что Google Analytics"! Я, например, не поставлю его себе, потому что из-за него тормозит сайт у посетителей. И есть еще куча других причин.
Комментарии: 5
http://stats.k78.info ;)
Очень ценная мысль.
Сегодня же опробую на деле.
С самого начала мне не нравилось захламление базы со статистикой просто проверками фида на обновление.
Еще бы кто придумал как отличать подписчиков, читающих фид с одного онлайн-сервиса. Радует хоть то, что некоторые сервисы в HTTP_USER_AGENT пишут число подписчиков.
И еще. Кто-нибудь знает как отличить Яндекс.Ленту от роботов поиска по блогам?
Хм, лично мне вполне хватает FeedBurner для сбора статистики.
Я был бы ни я, если бы не рассказал о своей системе сбора статистики:
FeedStat
удачна и версия ZOOB-а (ссылка там же).
Единственный недостаток плагина (на мой взгляд), он не вычитает из количества читателей "роботов". Но это условный недостаток, ибо статистика, вещь относительная. И куда важно - есть прирост читателей или отток, а не абсолютные числа.