Seo

Всегда блокируйте Google от доступа к результатам поиска вашего сайта

Если вы используете Систему пользовательского поиска Google или другую службу поиска на своем веб-сайте, убедитесь, что страницы результатов поиска, такие как та, которая доступна здесь, недоступны для робота Googlebot. Это необходимо, иначе спам-домены могут создать серьезные проблемы для вашего сайта не по вашей вине.
Несколько дней назад я получил автоматически сгенерированное электронное письмо от Google Webmaster Tools, в котором говорилось, что робот Googlebot испытывает проблемы с индексированием моего веб-сайта labnol.org, поскольку он обнаружил большое количество новых URL-адресов. В сообщении говорилось:

Робот Googlebot обнаружил на вашем сайте очень большое количество ссылок. Это может указывать на проблему со структурой URL-адресов вашего сайта… В результате робот Google может потреблять гораздо больше трафика, чем необходимо, или может быть не в состоянии полностью проиндексировать все содержание вашего сайта.

Это был тревожный сигнал, потому что он означал, что на сайт без моего ведома были добавлены тонны новых страниц. Я вошел в Инструменты для веб-мастеров и, как и ожидалось, тысячи страниц находились в очереди сканирования Google.
Вот что произошло.
Некоторые спам-домены внезапно стали ссылаться на страницу поиска моего веб-сайта, используя поисковые запросы на китайском языке, которые, очевидно, не дали результатов поиска. Каждая поисковая ссылка технически считается отдельной веб-страницей, поскольку у них есть уникальные адреса, и поэтому робот Googlebot пытался сканировать их все, думая, что это разные страницы.

Поскольку тысячи таких поддельных ссылок были созданы за короткий промежуток времени, робот Googlebot предположил, что эти многочисленные страницы были внезапно добавлены на сайт и, следовательно, было помечено предупреждающее сообщение.
Есть два решения проблемы.
Я могу либо заставить Google не сканировать ссылки, найденные в доменах для спама, что, очевидно, невозможно, либо я могу запретить роботу Googlebot индексировать эти несуществующие поисковые страницы на моем веб-сайте. Последнее возможно, поэтому я запустил свой редактор VIM, открыл файл robots.txt и добавил эту строку вверху. Вы найдете этот файл в корневой папке вашего веб-сайта.
User-agent: *
Disallow: /?s=*

Заблокируйте поисковые страницы от Google с помощью robots.txt

Директива существенно запрещает роботу Googlebot и любому другому роботу поисковой системы индексировать ссылки, которые имеют параметр «s» в строке запроса URL. Если на вашем сайте в качестве переменной поиска используется «q» или «поиск» или что-то еще, возможно, вам придется заменить «s» этой переменной.
Другой вариант — добавить метатег NOINDEX, но это не будет эффективным решением, поскольку Google все равно придется сканировать страницу, прежде чем принять решение не индексировать ее. Кроме того, это проблема WordPress, поскольку файл robots.txt в Blogger уже блокирует сканирование страниц результатов поисковыми системами.
Связанный: CSS для пользовательского поиска Google