Зарубежные сайты и Yandexbot

yandexbot-block

В мае 2010 года торжественно было объявлено, что Яндекс выходит на мировой рынок поисковиков. Только вот одна проблема: рынок уже поделен гигантами вроде Google, Bing и Yahoo и Яндекс там никому не нужен. Тем более в его выдаче лишь малая часть страниц, давно проиндексированных зарубежными поисковиками.

Более того, многие владельцы сайтов и хостеры блокируют Яндекс-бота. Именно этот факт и стал причиной переезда моего сайта с немецкого хостинга в Россию.

Осенью я обнаружил внезапный вылет большинства страниц этого сайта из поиска Яндекса. Когда стал копать поглубже выяснилось, что на большинство страниц яндексбот не смог попасть из-за ошибки 403 («доступ запрещен»). Проверил при помощи сервиса просмотра HTTP заголовков – действительно, только Яндексу выдается 403, с остальными ботами всё в порядке.

Обратился с этой проблемой к хостеру, получил ответ:

I am sorry, we disabled access for this browser agent, there is no intention to change this due to several reasons.
(Мне очень жаль, мы запретили доступ для этого юзерагента и по нескольким причинам не можем поменять наше решение)

Через несколько дней после этого сайт я перенес в Россию, но осадочек остался. Я решил немного побольше узнать про яндексбота.

@mariavtogroup:

…при прогулке яндекса по сайтам нагрузка на цп возрастает прмерно на 15%, mysql около 8%

Нагрузка – это не единственная проблема. Гуглинг по фразе «block yandex bot» дал большое количество форумов, где люди жаловались, что yandexbot кушает огромное количество трафика и засоряет канал сайта.

I want to block all request from yandex.ru search bot. It is very traffic intensive (2GB/day).
(via)
I’d like to block the Yandex bot. It eats bandwidth unduly.
…I just got a call from my hoster because my bandwith usage is insane.
(via)

Более того, бот Яндекса попросту игнорирует robots.txt.

Yandex DOES NOT CARE anything about robots.txt, and doesn’t even visit it when they come skulking around your site.
(via)

Это послужило причиной того, что Яндекс банят самым жестким способом: через .htaccess.

SetEnvIfNoCase User-Agent «^Yandex*» bad_bot
Order Deny,Allow
Deny from env=bad_bot

Столь некрасивое поведение бота не делает чести поисковой системе. Уже сейчас некоторые владельцы хостингов (особенно бесплатных, где на каждом сервере сотня-другая сайтов) и владельцы сайтов заблокировали яндексбота, ибо пользы от него почти никакой (доля трафика с Яндекса для зарубежных сайтов ничтожно мала), а проблем много.
И только русским (ну и жителям СНГ) приходится терпеть выходки yandexbot’a: Яндекс лидирует на отечественном рынке поисковых систем и поэтому приходится играть по его правилам.

Читайте так же:
Оставить комментарий

Последние публикации