Google Sitemap – Должен ли я предусмотреть контроль загрузки/кэширование?

У меня есть сайт сообщества, на котором сейчас около 10 000 объявлений. Я принимаю новую стратегию URL-адресов, например

example.com/products/category/some-product-name

В рамках стратегии я внедряю карту сайта. У Google уже есть хороший индекс моего сайта, но URL-адреса изменятся. Я использую php-фреймворк, который обращается к БД для каждого списка продуктов.

Меня беспокоит влияние на производительность предоставления Google 10 000 новых URL. Должен ли я быть обеспокоен?

Возможное решение, на которое я смотрю, - это рендеринг моих php-выведенных страниц на статические HTML-страницы. У меня уже есть эта функция в другом месте на сайте. Таким образом, Google проиндексирует 10 000 html-страниц. Прелесть этой системы в том, что если пользователь попадает через Google на эту HTML-страницу, как только он начинает перемещаться по сайту, он сразу же возвращается к PHP-версии.

Моя проблема с этим методом заключается в том, что мне придется добавлять .html к моим красивым чистым URL-адресам...

example.com/products/category/some-product-name.html

Я иду об этом неправильно?

Редактировать 1: я хочу сократить нагрузку на PHP и MySQL. Создание HTML-страниц — это просто метод кэширования при подготовке к скачку нагрузки, когда поисковые системы сканируют эти страницы. Есть ли лучшие способы?


person ed209    schedule 08.12.2008    source источник


Ответы (4)


Если я что-то не упустил, я думаю, вам не нужно об этом беспокоиться. Я предполагаю, что ваш список названий продуктов не меняется это часто — в масштабе дня или около того, не каждую секунду. Карта сайта Google должна быть прочитана за секунду или меньше, и поисковый робот не будет сканировать вас сразу после обновления. Я бы попробовал это без каких-либо осложнений и измерил бы эффект, прежде чем вы сломаете себе шею, оптимизируя.

person Charlie Martin    schedule 08.12.2008
comment
формат URL-адреса продукта больше не изменится. URL-адрес продукта может измениться, если изменится название продукта. - person ed209; 09.12.2008

Вам не следует беспокоиться о 10000 новых ссылок, но вы можете проанализировать свой текущий трафик Google, чтобы увидеть, насколько быстро Google будет их сканировать. Кэширование — это всегда хорошая идея (см. Memcache или даже генерировать статические файлы?).

Например, в настоящее время у меня есть около 5 запросов в секунду от googlebot, что означает, что Google просканирует эти 10 000 страниц за добрых полчаса, но учтите следующее:

  1. Перенаправить все существующие ссылки на новые места

    Делая это, вы гарантируете, что ссылки, уже проиндексированные Google и другими поисковыми системами, почти сразу же будут перезаписаны. Текущий рейтинг Google переносится на новую ссылку (дополнительные ссылки начинаются с 0 баллов).

  2. Гугл Аналитика

    Мы заметили, что Google использует данные Analytics для сканирования страниц, которые обычно не находят при обычном сканировании (перенаправления javascript, ссылки на контент пользователя, вошедшего в систему). Скорее всего, Google очень быстро обнаружит изменение вашего URL, но см. 1).

  3. Карта сайта

    Эмпирическое правило для файлов карты сайта в нашем случае заключается в том, чтобы обновлять их только последним контентом. Хранить там 10 000 ссылок или даже все ваши ссылки довольно бессмысленно. Как вы будете обновлять этот файл?


В наши дни это отношения любви и ненависти между мной и поисковым роботом Google, поскольку большинство используемых пользователями ссылок довольно хорошо кэшируются, а поисковые роботы Google обычно этого не делают. Это причина, по которой Google вызывает 6-кратную нагрузку на 1/6 запросов.

person Community    schedule 08.12.2008
comment
Как вы будете обновлять этот файл? cron job и PHP-фреймворк (Seagull PHP), которые я использую, имеют функциональность карты сайта. - person ed209; 09.12.2008

Не ответ на ваш главный вопрос.

Вам не нужно добавлять .html. Вы можете оставить URL как есть. Если вы не можете найти лучший способ перенаправления на html-файл (у которого нет или нет суффикса .html), вы можете вывести его через PHP с помощью readfile.

person OIS    schedule 08.12.2008
comment
Спасибо ОИС. Основная причина использования HTML-подхода заключалась в том, чтобы на сервере не было накладных расходов на обработку php. Интересный подход, но возьму на заметку. - person ed209; 09.12.2008

Я беспокоюсь о влиянии на производительность предоставления 10 000 новых URL-адресов в Google, должен ли я быть обеспокоен?

Влияние на производительность серверов Google? Я бы не беспокоился об этом.

Влияние на производительность на ваших собственных серверах? Я бы тоже не беспокоился об этом. Я сомневаюсь, что вы получите гораздо больше трафика, чем раньше, вы просто будете отправлять его на другие URL-адреса.

person Max Lybbert    schedule 08.12.2008
comment
да, производительность на моем сервере (уверен, гугл справится!). Я ожидаю начального всплеска по мере индексации новых страниц, но вы не думаете, что это произойдет? спасибо :) - person ed209; 09.12.2008
comment
Ваш сайт уже сканируется Google и отлично справляется с нагрузкой. Вы не должны получать больше трафика от робота Googlebot, чем уже получаете. - person Max Lybbert; 10.12.2008