Как удалить страницы из индекса поисковых систем

Как удалить страницы из индекса поисковых систем

819
Время чтения: 15 минут
Содержание

Чтобы Гугл и Яндекс «забыли» URL неудачной страницы, можно просто удалить ее с сайта. Через какое-то время краулеры поисковых роботов сделают все автоматически — сотрут страницу из индекса. Но что, если этого времени нет? Бывают разные ситуации, когда нужно удалить страницу из SERP срочно — для каждой ситуации свой метод и принцип действия. Разбираем, как удалить сайт из поиска — лучшие варианты и методы.

Зачем удалять страницу из индекса

В чем проблема. Иногда на сайте есть ненужные страницы: дубли, неуникальные тексты, ошибки. Эти страницы не используются для продвижения и ухудшают хостовые поведенческие факторы, такие как показатель отказов, глубина просмотра, проведенное на странице время и т.д. Их индексирование поисковыми системами ухудшает результаты ранжирования — рейтинг сайта в глазах поисковиков падает. Поэтому от «мусорных» страниц нужно избавляться как можно быстрее.

Какие страницы удалять:

  • страницы с неактуальной информацией и устаревшим контентом
  • страницы с персональными данными пользователей
  • дубли и копии страниц
  • страницы с неуникальными текстами и изображениями
  • страницы с информацией о посещаемости, технические и служебные страницы, которые больше не нужны
  • страницы, доступ к которым ограничен
  • страницы с GET-параметрами — дубли посадочных страниц (сортировки, варианты отображения каталога)
  • системные каталоги и файлы
  • удаленные страницы, которые индекс все еще помнит

Проверяем индексацию страницы

Если страница есть на сайте, еще не значит, что она отображается в поиске. Поэтому перед удалением есть смысл проверить, индексирует ли поисковый робот ненужный нам урл. Отдельно для Гугла, отдельно для Яндекса.

В Google. У Гугла для проверки индексации есть специальный инструмент — Отчет об индексном покрытии. Чтобы его использовать:

  1. Переходим в справку Гугла и нажимаем кнопку «Отчет о покрытии индекса»
  2. Откроется интерфейс поисковой консоли Google Search Console. В правой части интерфейса выбираем из выпадающего списка домен, на котором находится проверяемая страница
  3. В строке поиска «Проверка всех URL на ресурсе» вводим полный адрес проверяемой страницы → Enter
  4. Если страница в индексе, вы получите данные о покрытиях, результатах сканирования и индексирования. Если поисковый робот уже не видит страницу, он так и напишет: «URl нет в индексе Google»

Такое сообщение получит вебмастер в Google Search Console, если Гугл перестал индексировать запрашиваемую страницу — проблемный URL на данный момент не может присутствовать в выдаче. Удалять его из индекса Гугла дополнительно не нужно

В Яндексе. У Яндекса для проверки индексации свои инструменты в «Яндекс.Вебмастер» — сервис «Проверить статус URL». Но проверять можно только те домены, которые относятся к подтвержденным — для удаления страницы или сайта из поиска вы должны подтвердить, что являетесь владельцем или имеете права доступа. Чтобы проверить:

  1. «Яндекс.Вебмастер» → Индексация → «Проверить статус URL»
  2. Вводим адрес проверяемой страницы → нажимаем кнопку «Проверить»
  3. Если страница в поиске, увидим статус «Проверено» и данные о том, что страница обходится роботом и находится в поиске. Если нет — высветится соответствующий статус

Если робот Яндекса видит страницу и отображает ее в поиске, пользователь увидит это сообщение

В поисковой строке. Можно сделать еще проще — использовать поисковые строки Гугля и Яндекса. Если роботы поисковых систем индексируют урл страницы, они легко найдут его через поиск и покажут в выдаче первым номером. Если не найдут — страница удалена автоматически.

Результаты запрошенного URL через поисковую строку Гугла и Яндекса. Поисковые роботы индексируют необходимые страницы. Иначе поисковики не нашли бы их через строку поиска

Почему не стоит проверять через «site:». Поисковый оператор site: запоминает не только страницы в индексе, но и страницы с перенаправлениями, страницы-канониалы. Если вы сделали зеркало или перенесли сайт на новый домен, то поисковый оператор покажет вам совершенно другой сайт с иным заголовком. Проверка будет некорректной.

Как удалить страницу сайта из поиска Google

Есть разные способы. Мы разобрали 7 ситуаций и рассказываем, как удалить сайт из поиска Гугл.

Несрочное удаление страницы

Я хочу удалить страницу или контент с нее, но никуда не спешу и не хочу напрягаться. Меня не напрягает, что какое-то время (2–3 недели) поисковая машина будет видеть страницу и выдавать ее в поиске.

Если выше описан ваш случай, рекомендуем просто удалить содержимое страницы через админпанель своей CMS. В разных системах управления контентом это происходит по-разному. Например, в Вордпрессе вебмастер открывает редактирование выбранной страницы и на правой панели выбирает «удалить в корзину».

Пройдет какое-то время и удаленная страница начнет высвечивать ошибку «404». Это заметят поисковые алгоритмы Гугла и очистят урл от индекса. Обычно на удаление уходит несколько дней, в худшем случае 2–3 недели. Даже если сама страница недоступна, ее кэшированная версия может висеть в поиске какое-то время.

Админпанель Вордпресса, в которой вебмастер редактирует содержимое страницы. В ней же можно удалить страницу с сайта. Когда это произойдет, поисковые роботы автоматически удалят страницу из поиска

Объединение нескольких страниц и указание главной

Так получилось, что на сайте несколько копий одной страницы. Мы хотим объединить эти страницы в одну, чтобы в индексе был только один адрес. Тексты и содержимое страниц почти или полностью дублируется.

Если у вас есть одна страница, доступная по нескольким URL, или разные страницы с практически одинаковым контентом, Гугл будет считать один адрес каноническим, а остальные — копиями. Чтобы поисковые роботы не ошиблись, канонизацию можно выполнить самостоятельно если включить в содержимое необходимых страниц атрибут rel=canonical. Он указывает поисковому роботу на то, какая страница является канонической — главной.

Гугл предлагает несколько способов указания канонической страницы — используйте любой. Подробнее о об этих способах, а также общие рекомендации по объединению — в справке Гугла.

Способ и описание+
Тег rel=canonical
В код всех повторяющихся страниц вебмастер добавляет тег , который указывает на главную страницу
- можно отметить любое число страниц на сайте- размер страницы увеличивается
- если у вас большой сайт, адреса страниц на которых часто меняются, постоянно делать разметку вручную сложно
- работает только с HTML-страницами, разметить файлы не получится
HTTP-заголовок rel=canonical
В HTTP-заголовок главной страницы вебмастер включает поле rel=canonical. Тег указывает на главную страницу
- можно отметить любое число страниц на сайтеесли у вас большой сайт, адреса страниц на которых часто меняются, постоянно делать разметку вручную сложно
Файл sitemap.xls
Вебмастер указывает главные страницы в файле sitemap.xls. Это сигнал для поискового робота — он будет воспринимать указанные страницы как приоритетные. Все страницы в этом файле воспринимаются в качестве канонических
- простота настройки и обновления даже для крупного сайта- поисковый робот Гугла все равно должен найти и пометить второстепенные страницы по отношению к канонической, указанной в sitemap.xls
- каноническая страница в sitemap.xls — менее значимый знак для поискового робота, чем атрибут rel=canonical
Код статуса 301
Вебмастер может выбрать предпочтительный URL, настроить на него переадресацию 301 на стороне сервера и перенаправить трафик на приоритетный адрес. Как это сделать — ищите в справочных материалах к веб-хостингу. Код статуса 301 скажет поисковому роботу, что у текущей страницы сменился адрес — конечный URL наиболее актуален
- наиболее надежный способ обеспечить переход роботов и пользователей на актуальную и приоритетную страницу- этот способ следует использовать только для случаев, когда решено избавится от дублей и настроить переадресацию с устаревших URL

Срочное удаление страницы из результатов поиска

Нет времени ждать и разбираться с канонизацией страниц. Мне нужно срочно удалить страницу из поисковой выдачи. На ней размещены персональные данные — человек угрожает судом/ нужно исполнить судебное решение.

Временно — на 6 месяцев. Специально для таких случаев в Гугле есть специальный «Инструмент удаления URL». Он сработает в течение суток и поможет скрыть страницу из результатов поиска примерно на 6 месяцев. Если за это время вы передумаете, Гугл снова начнет индексировать страницу. В любое время запрос на сокрытие страницы из поиска можно отменить.

  1. Перейдите по ссылке. Выберите нужный сайт и нажмите кнопку «Создать запрос»
  2. Укажите полный адрес страницы, которую нужно скрыть
  3. Если необходимо — поставьте отметку напротив функции «Удалить все URL c этим префиксом»
  4. Когда все готово, жмите кнопку

Навсегда. Если нужно избавится от веб-страницы навсегда, Гугл советует:

  1. Установить пароль доступа к файлу или странице
  2. Удалить страницу через систем управления контентом
  3. Удалить страницу из сервисов Гугл, например, из Гугл Покупок или Мой бизнес

Страницу нужно удалить из поиска, но она должна быть доступной

Мы хотим, чтобы страница исчезла из поисковой системы, но при этом оставалась доступной по правильному адресу URL. Например, если пользователь сохранил страницу в закладке или знает URL наизусть.

Чтобы убрать страницу из поисковой выдачи навсегда, но при этом оставить ее «живой», нужно добавить на эту страницу атрибут noindex. Эта директива блокирует индексирование со стороны поискового робота. Обнаружив этот атрибут во время сканирования страницы, поисковый алгоритм проигнорирует адрес, даже если на него ссылаются другие сайты. Это сработает, если доступ поискового робота Гугл не заблокирован с помощью файла robots.txt или иного блокировщика.

Использовать директиву noindex можно двумя способами:

  1. Тег. Чтобы запретить поисковым роботам индексировать страницу, вебмастер добавляет раздел этой страницы метатег
    — для всех роботов
    — для роботов Гугла
  2. Учитывайте, что не все поисковые роботы одинаково воспринимают директиву noindex. Некоторые поисковые системы могут воспроизводить страницы в поисковой выдаче, несмотря на метатег. Больше информации про эту директиву здесь
  3. Заголовок HTTP-ответа. Вместо метатега в ответе можно возвращать заголовок X-Robots-Tag со значением noindex или none. Вот как будет выглядеть пример HTTP-ответа, который запрещает поисковому алгоритму индексировать страницу. Подробнее о том, как внести директиву в заголовок ответа читайте в справке Гугла

Учтите, что в случае удаления нежелательной страницы только из Гугл, она может быть продемонстрирована другим пользователям по прямой ссылке. Например, на эту страницу может ссылаться сторонний сайт или она может остаться сохраненной в закладке браузера. Используйте атрибут noindex только для сокрытия страницы от поисковых роботов. Если страницу нужно удалить полностью — блокируйте ее и удаляйте содержимое через CMS.

Из поиска нужно удалить изображение

Мы хотим, чтобы в результатах поиска не отображалась картинка, которая есть на нашем сайте.

Чтобы в поиске не было графических файлов с вашего сайта, используйте Disallow. Это атрибут, который нужно добавить в файл robots.txt, а его в свою очередь — в корневой каталог сервера. Этот файл заблокирует доступ к изображению для всех поисковых систем, а не только для Гугла.

Как это работает? Допустим, что вы хотите удалить из поиска изображение с именем name.jpg. Оно размещено по адресу www.wesite.ru/images/name.jpg. Чтобы изображение не отображалось в поисковой выдаче, вебмастеру нужно добавить в robots.txt строки следующего содержания:

User-agent: Googlebot-Image

Disallow: /images/name.jpg

Когда поисковый алгоритм в следующий раз будет сканировать сайт, он увидит эту директиву и исключит картинку из поисковой выдачи. С помощью этой же директивы можно исключить из поиска все страницы с сайта. Для этого в robots.txt добавляют строки:

User-agent: Googlebot-Image

Disallow: /

Подробнее о способах удаления картинок из поиска читайте в справке Гугла.

Удаление страницы, нарушающей авторское право

На стороннем сайте есть страницы, контент на которых принадлежит мне. Мое авторское право нарушено. Мы хотим удалить эту страницу из поиска.

Для таких ситуаций правообладателю нужно отправить в Гугл сообщение о предполагаемом нарушении авторских прав. Его можно подать через панель удаления материалов:

  1. Переходим по ссылке, жмем кнопку «Создать новое заявление»
  2. Заполняем контактную информацию и описываем контент, который защищен авторским правом. Тут же указываем ссылку на сайт, где контент размещен законно — с согласия правообладателя или самим владельцем. Ниже — URL страницы, которая нарушает авторское право
  3. Ставим флажки в нужных местах, указываем дату и имя-подпись
  4. Жмем кнопку «Отправить»

Гугл рассмотрит сообщение, и если подозрения в отношении спорного контента подтвердятся — страницу заблокируют или удалят из поисковой выдачи.

Удаление страниц с персональными данными

В интернете есть страницы, содержащие мои личные данные. Как удалить эту страницу из поиска.

Для этого у гугла есть инструмент «Удаление конфиденциальных данных» (Privacy Removal). Вообще этот инструмент запущен для граждан Евросоюза, но обычно жалоба на страницу срабатывает и на территории РФ. Чтобы подать обращение:

  1. Перейдите по ссылке и заполните анкету
  2. Укажите URL-адрес контента, содержащего личную информацию и причину, по который вы бы хотели его удалить
  3. Укажите ключевой запрос (имя и фамилию), по которому в поиске Гугла находит страницу с вашими персональными данными
  4. Проставьте галочки в нужных местах, укажите дату заполнения и подпись
  5. Жмите «Submit»

Жалобу рассмотрят. Если она обоснована, страницу с конфиденциальными данными удалят из поиска. О результатах рассмотрения сообщать на почту.

Обратите внимание: Гугл может отказать заявителю, если посчитает, что обнародование личной информации отвечает интересам широкой общественности. Например, если это информация о финансовых махинациях, служебной халатности, приговорах суда или публичном поведении чиновников.

Как удалить страницу из результатов поиска Яндекс

Чтобы удалить сайт из поиска Яндекса, нужно запретить поисковому роботу его индексирование. Это можно сделать несколькими способами, все они подробно описаны в справке Яндекса.

1. Директива Disallow в файле robots.txt. Как и в случае с Гуглом, директива запрещает поисковому роботу Яндекса индексирование сайта, его отдельных разделов, страниц или файлов. Чтобы дать сигнал краулеру, добавьте в файл robots.txt строки такого содержания:

User-agent: Yandex

Disallow: / # — запрещает поисковому роботу сканирование всего сайта

User-agent: Yandex

Disallow: /catalogue # — запрещает сканирование страниц, адрес которых начинается с /catalogue

User-agent: Yandex

Disallow: /page? # — запрещает сканирование страниц, адрес которых содержит параметры.

Обратите внимание, что поисковый алгоритм сначала сканирует файл robots.txt, и только потом обходит страницы сайта. Убедитесь, что директивы запрета индексирования указаны корректно. Используйте для этого специальный сервис Яндекса — Анализ robots.txt. Он отобразит текст файла — сможете проверить корректность указаний. Если вы хотите удалить из поисковой выдачи несколько страниц, атрибут Disallow нужно указать для каждой.

2. Настройка HTTP-статуса. Вебмастеру необходимо настроить сервер (и саму удаляемую страницу) так, чтобы он отправлял HTTP-статус с кодом 404 Not Found, 403 Forbidden или 410 Gone или редирект 301.

3. Метатег robots с директивой noindex. Как и у гугла, атрибут noindex запрещает поисковому роботу Яндекса индексировать страницу — она не будет отображаться в результатах поиска. Чтобы этот способ сработал, нужно прописать мета-тег robots в HTML-коде страницы в элементе <head>. Вот как это должно выглядеть:

Запись в HTML-коде, которая запрещает поисковому роботу Яндекса индексировать страницу

Обратите внимание: в случае указания нескольких директив (сочетание запрещающих с разрешающими), разрешающие атрибуты имеют приоритет.

В зависимости от выбранного способа, поисковый робот может вести себя по-разному.

Способ удаленияПоведение алгоритма
Директива Disallow в файле robots.txtАлгоритм прекращает сканировать страницу в течение 24 часов

Настройка HTTP-статуса с кодом 404 Not Found, 403 Forbidden или 410 Gone

Мета-тег robots с директивой noindex

Алгоритм продолжает сканировать сайт какое-то время — так он убеждается, что статус страницы не изменился. Если страница продолжит быть недоступной, сканирование прекратится

Когда поисковый алгоритм просканирует сайт и узнает о блокировке индексирования, он удалит страницу из поисковой выдачи в 7-дневный срок. Удаленные страницы будут отображаться в истории Яндекс.Вебмастер до следующего сканирования. Затем URL удаленной страницы отобразится в Вебмастере в списке исключенных страниц. Больше информации об этом в справке Яндекса.

Еще в Яндексе есть специальный урок: «Как удалить сайт из Яндекса». Почитайте, чтобы разобраться лучше.

Как ускорить удаление

Чтобы не ждать планового сканирования сайта со стороны алгоритма, можно сообщить Яндексу о необходимости удаления и так ускорить отмену индексирования. Для этого в вебмастере есть специальный инструмент «Удалить URL». Это специальная форма для удаления из поиска страницы, которая запрещена к индексации или больше не существует.

  1. Перейдите по ссылке.
  2. Введите полный адрес удаляемой страницы. Например, www.wesite.ru/catalog/name1
  3. Жмите кнопку «Удалить»

Чтобы удалить несколько страниц таким образом, нужно последовательно вводить страницы в форму и отправлять их Яндексу. Если сайт добавлен в Яндекс.Вебмастер и право на управление им подтверждено, в инструменте удаления может быть добавлено до 500 страниц одновременно в течение 24 часов.

После отправки Яндексу уведомления, его статус можно отслеживать во вкладке Инструменты → Удаление страниц из поиска. Вот какие могут быть статусы.

СтатусОписание
«В очереди на удаление»Алгоритм проверяет, что отвечает сервер и есть ли директива на удаление страницы из поисковой выдачи. Обычно проверка занимает несколько минут
«В процессе»Алгоритм проверил страницу и убедился, что директива корректная. В течение 24 часов страница будет изъята из поиска
«Удалена»Страница или сайт изъяты из поисковой выдачи
«Отклонено»

Директива на блокировку индексирования отсутствует или некорректна.

При обращении алгоритма к серверу, его ответ отличается от статуса 403, 404 или 410

Обратите внимание, вернуть удаленные страницы обратно в поиск можно, если убрать директивы disallow или noindex. При следующем сканировании сайта бот увидит отсутствие атрибутов и вернет страницы в выдачу. Обычно на это уходит 20–30 дней.

Как не надо удалять страницу из поиска

Есть способы, которые вы можете встретить в официальных источниках и которые могут не сработать.

Использование атрибута nofollow

Этот атрибут часто путают с атрибутом noindex и пытаются с его помощью запретить сканирование страниц. Это не работает по двум причинам:

  1. Атрибут nofollow используется для запрета сканирования ссылок на страницу или отдельных ссылок и связывания сайта и этих ссылок. Он не является прямым запретом на сканирование и индексацию
  2. Атрибут nofollow — это рекомендация. Поисковый робот может игнорировать ее и просканировать ссылки на страницу, если захочет

Использование атрибута noindex в файле robots.txt

Раньше этот метод работал для Гугла — поисковый робот поддерживал атрибут noindex в файле robots.txt. Но из-за некорректного использования этой директивы многие вебмастеры верили своим же сайтам. Теперь атрибут официально не поддерживается.

Блокировка сканирования в в файле robots.txt

Находчивые вебмастеры иногда пытаются запретить сканирование страницы с помощью строки в файле robots.txt. Учитывайте, что сканирование и индексирование — не одно и то же. Если на старницу ведут сторонние ссылки, она по прежнему может оставаться в поиске и индексироваться. Поисковый робот не будет знать, какое содержание на странице и не будет сохранять его в кэше. Но он будет знать, что страница существует и даже сможет присвоить ей заголовок в выдаче.

Атрибут noindex и каноникал и на другой URL

Это две противоречащие друг другу директивы. Атрибут noindex говорит алгоритму, что нужно удалить страницу из поиска и не индексировать ее. А каноникал — что нужно перейти на другой адрес и проиндексировать его. Это может сработать, так как поисковый робот Гугла воспринимает директиву каноникал как приоритетную. Но гарантий нет. Если как приоритетный будет воспринят тег noindex, консолидация страниц пройдет некорректно.

Коротко: как удалить страниц из индекса поисковых систем

Способ 1. Удалить контент сайта или страницы в своей системе управления контентом. Со временем страница начнет высвечивать ошибку «404». При очередном сканировании это увидят поисковые алгоритмы, которые удалят страницу из индекса. Обычно это занимает 15–20 дней.

Способ 2. Если нужно удалить дубли и копии страниц, можно использовать атрибут rel=canonical. Он помогает объединить дублированные страницы под одним адресом и указать URL канонической (главной) страницы. Этот способ подойдет для поисковых алгоритмов Гугла.

Способ 3. Использовать инструменты удаления URL. У каждого поисковика есть специальный сервис, с помощью которого можно отправить запрос на срочное удаление страницы из поиска. У разных поисковиков могут быть предусмотрены дополнительные условия. Например, в Яндексе форма удаления работает только для страниц, для которых установлен запрет на индексирование.

Способ 4. Чтобы указать поисковому роботу на запрет индексирования, можно использовать директиву noindex. Ее добавляют в качестве мета-тега в заголовок страницы или в качестве HTTP-ответа. При следующем сканировании сайта алгоритм увидит директиву и удалит страницу из индекса поисковика. При этом ее можно будет посмотреть по прямой ссылке.

Способ 5. Использование директивы Disallow в файле robots.txt. С его помощью можно запретить обход целого сайта, отдельных его разделов и страниц или файлов. Например, картинок на сайте.

Способ 6. Если на чужом сайте есть контент, который нарушает авторское право или конфиденциальность персональных данных, на него можно пожаловаться через специальные формы в поисковых системах. Если жалоба обоснована, запрошенную страницу удалят автоматически.

Получайте статьи почтой. Самое важное и дважды в месяц. Иногда смешно, но не сильно
Наверх
Мы используем cookie для вашего удобства. Используя сайт, вы соглашаетесь с этим. Подробнее - в политике конфиденциальности.
Я согласен