Как писать robots.txt для uCoz

Как писать robots.txt для uCoz

52016-12-2962618Денис Абдуллин

Что такое robots.txt? Текстовый файл, который задает правила для роботов поисковых систем, что разрешено индексировать, а что нет. В этой заметке мы разберем из чего состоит этот файл, как написать robots.txt самому, и приведем примеры.

Не рекомендуется заменять стандартный robots.txt на сайте uCoz. Он прописан так, чтобы индексировались только страны с информацией, а служебные страницы – нет. Это один из основных элементов внутренней оптимизации сайта.

Вот так выглядит стандартный robots.txt:

User-agent: *  
Allow: /*?page  
Allow: /*?ref=  
Allow: /stat/dspixel  
Disallow: /*?  
Disallow: /stat/  
Disallow: /index/1  
Disallow: /index/3  
Disallow: /register  
Disallow: /index/5  
Disallow: /index/7  
Disallow: /index/8  
Disallow: /index/9  
Disallow: /index/sub/  
Disallow: /panel/  
Disallow: /admin/  
Disallow: /informer/  
Disallow: /secure/  
Disallow: /poll/  
Disallow: /search/  
Disallow: /abnl/  
Disallow: /*_escaped_fragment_=  
Disallow: /*-*-*-*-987$  
Disallow: /shop/order/  
Disallow: /shop/printorder/  
Disallow: /shop/checkout/  
Disallow: /shop/user/  
Disallow: /*0-*-0-17$  
Disallow: /*-0-0-  

Sitemap: http://forum.ucoz.ru/sitemap.xml  
Sitemap: http://forum.ucoz.ru/sitemap-forum.xml

Расшифровка каждого пункта ниже.


Из чего состоит robots.txt

Сначала нужно указать, к какому роботу мы обращаемся. Если обращаемся ко всем, то указываем звездочку, а если нужен конкретный, то обращаемся по имени. У Яндекса это YandexBot, а у Google – Googlebot. Это основные индексирующие роботы, узнавайте их имена в справках поисковых систем.

Собственно, вот пример начала для всех роботов:

User-agent: *

Далее запрещаем или разрешаем выбранные нами страницы. Используем правило Disallow для запрета и Allow для разрешения. Используя такую структуру, можно например, запретить индексацию определенного раздела, но разрешить в нем же чтение роботом одного документа и т.д.

Состав robots.txt

Вот таким образом мы запрещаем поисковым системам читать наши «sekretiki» (сам директория и адреса начинающие на нее под запретом):

User-agent: *
Disallow: /sekretiki/

Спецсимволы и комментарии:

Для того, чтобы запретить только сам раздела без его содержимого, на конце ставится знак $:

User-agent: *
Disallow: /sekretiki$

Таким образом, дирректория «/sekretiki» запрещены к индексации, но «/sekretiki.html» допустимы.

Для использования в адресе переменные, используйте звездочки:

User-agent: *
Disallow: /sekretiki/*-0-0
Disallow: /news/17-*-0-*

С помощью этих символов, можно сделать правило на запрет индексирования страниц дублей:

Disallow: /*&*

Код можно комментировать. Все что находится после # в строке не читается:

User-agent: * # Приветствую всех роботов
Allow: /sekretiki/ # Разрешаю секретики
Disallow: / # Запрещаю индексировать все остальные страницы

User-agent: GoogleBot # Приветствую только робота Google
Disallow: /sekretiki/ # А вот ему я запрещаю именно секретики

Указываем карту сайта Sitemap:

Если не указать ссылку на карту сайта, то робот не сможет быстро индексировать сайт, новые страницы без sitemap.xml могут не попасть в индекс даже в течении нескольких месяцев.

uCoz сам генерирует карту сайта, в том числе и отдельную для форума, поэтому в конце robots.txt указаны такие строки:

Sitemap: http://forum.ucoz.ru/sitemap.xml
Sitemap: http://forum.ucoz.ru/sitemap-forum.xml

Существуют и другой момент в robots.txt, называется Clean-param. Он позволит указать неиспользуемые параметры, не влияющие на содержимое страницы, чтобы робот не заходил на них лишний раз. В uCoz такой тонкой необходимости нет, мы сразу убираем дубли без указания конкретных параметров.

Если вы обнаружили, что на вашем сайте испорчен файл robots.txt, просто удалите его, при запросе система сама подставит правильный robots.txt. Это относится именно к специфики работы с uCoz.

Разбор стандартного robots.txt uCoz:

Теперь, когда вы знаете, из чего состоит файл robots.txt, перейдем к расшифровке стандартного:

  • User-agent: * — правила касаются всех ботов;
  • Allow: /*?page — разрешить индексировать страницы пагинации;
  • Allow: /*?ref= — разрешить доступ к страницам соц. авторизации;
  • Allow: /stat/dspixel — разрешить доступ к системному скрипту статистики;
  • Disallow: /*? — запретить индексировать URL с параметрами;
  • Disallow: /stat/ — запретить индексацию URL статистики;
  • Disallow: /index/1 — запретить индексацию Страницы входа;
  • Disallow: /index/3 — запретить индексацию страницы регистрации;
  • Disallow: /register — запретить индексацию страницы регистрации;
  • Disallow: /index/5 — запретить индексацию системного URL восстановления пароля;
  • Disallow: /index/7 — запретить индексацию системного Меню аватарок;
  • Disallow: /index/8 — запретить индексацию пользовательских профилей;
  • Disallow: /index/9 — запретить индексацию системного URL Истории репутации;
  • Disallow: /index/sub/ — запретить индексацию системного URL;
  • Disallow: /panel/ — запретить индексацию ПУ;
  • Disallow: /admin/ — запретить индексацию ПУ;
  • Disallow: /informer/ — запретить индексацию системных информеров;
  • Disallow: /secure/ — запретить индексацию системной капчи;
  • Disallow: /poll/ — запретить индексацию опросов;
  • Disallow: /search/ — запретить индексацию страниц поиска;
  • Disallow: /abnl/ — запретить индексацию системных URL;
  • Disallow: /*_escaped_fragment_= — дополнительный запрет на индексацию системных URL;
  • Disallow: /*-*-*-*-987$ — запрет дублей страниц в модулях Новости и Блог, связанных с кодом комментариев на странице;
  • Disallow: /shop/checkout/ — запрет на индексацию Корзины для модуля uShop;
  • Disallow: /shop/user/ — запрет на индексацию пользовательских профилей для модуля uShop;
  • Disallow: /*0-*-0-17$ — дополнительный запрет на индексацию системных URL;
  • Disallow: /*-0-0- — запрет к индексации страниц добавления материалов, списков материалов пользователей, ленточного варианта форума (некоторые дублирующие URL), страниц со списком пользователей (некоторые дублирующие URL), поиска по форуму, правил форума, добавления тем на форуме, различные фильтры (с дублями), страницы с редиректами на залитые на сервер файлы;
  • Sitemap: http://вашсайт.ru/sitemap.xml — ссылка на общую карту сайта;
  • Sitemap: http://вашсайт.ru/sitemap-forum.xml — ссылка на карту форума;
  • Sitemap: http://вашсайт.ru/sitemap-shop.xml — ссылка на карту магазина.

Проверить правильность robots.txt

На Яндексе для вебмастеров создана страница для анализа robots.txt. Просто введите ссылку на сайт и отдельно ссылки на желательные и не желательные для индексации страницы и получите результат:

Форма для анализа robots.txt

Результат проверки robots.txt

Зачем вообще прикасаться к файлу robots.txt на uCoz? Это нужно только в том случае, если вы сами не считаете его правильным или же вам нужно разрешить к индексированию, например, страницу регистрации или персональные страницы пользователей.

Источники:
https://yandex.ru/support/webmaster/controlling-robot/robots-txt.xml
http://ucoz.help/robots-txt/


Создать сайт в uKit Нужен классный сайт для бизнеса?
Воспользуйтесь сервисом uKit. Никакого кода!
Комментарии (8)
Dimon Ivanov 2016-03-07 в 22:13 / МатериалСпам
Сейчас новый веб мастер запрашивает, если зеркало и предаться ставить Host: Ваш сайт
0
Уолтер Уайт 2015-08-31 в 12:37 / МатериалСпам
Не трогай
1
Дмитрий Мокрушин 2015-08-29 в 21:03 / МатериалСпам
А почему страницы пагинации открыты для индексирования, ведь у них одинаковые титлы и мета-теги, разве это не сказывается негативно на оптимизации в ПС?
0
David 2015-08-31 в 02:17 / МатериалСпам
У меня файл robots.txt выглядит так:

User-agent: *
Disallow: /a/
Disallow: /stat/
Disallow: /index/1
Disallow: /index/2
Disallow: /index/3
Disallow: /index/5
Disallow: /index/7
Disallow: /index/8
Disallow: /index/9
Disallow: /panel/
Disallow: /admin/
Disallow: /secure/
Disallow: /informer/
Disallow: /mchat
Disallow: /search
Disallow: /shop/order/
Disallow: /?ssid=
Disallow: /abnl/

Sitemap: /sitemap.xml
Sitemap: /sitemap-forum.xml

Нужно изменить или не нужно ? это стандартный файл robots.txt, я раньше не изменял!!
0
Jack Patison Brom 2015-08-30 в 08:46 / МатериалСпам
Разве нельзя просто для пагинаций укаказать rel canonical?
Допустим, если у нас есть модуль статьи, категория авто (site.ru/auto), то в коде прописать rel canonical с этим урл и при переходе на вторую страницу этой категории робот будет видеть, что эту страницу не нужно считать главное
0
Дмитрий Мокрушин 2015-08-30 в 09:07 / МатериалСпам
Я не нашел такого здесь, только что исходник смотрел, на страницах пагинации титл и метатеги - одинаковые.
0
David 2015-08-31 в 09:59 / МатериалСпам
У меня самом начале стоит такой код

User-agent: Mediapartners-Google
Disallow:

Это что значит ? Нужно удалить или оставить ? Я так понимаю что этот код связано с adsense, но не знаю какая задача выполняет!!
0
Дмитрий Мокрушин 2015-08-30 в 03:08 / МатериалСпам
Ну да, я тоже об этом подумал. Но все-же в инструментах вебмастера гугла такие страницы помечаются как с ошибками (одинаковые титлы и метатеги). Это реально плохо или можно забить? Кстати где-то читал предлагали на таких страницах добавлять в титл и метатеги что-то типа (Страница №) и тогда это уже как-бы не повторение.
0
Чтобы оставить комментарий или отзыв под этой публикацией, войдите или зарегистрируйтесь.