Как писать robots.txt для uCoz

Как писать robots.txt для uCoz

29.08.201539188admin

Что такое robots.txt? Текстовый файл, который задает правила для роботов поисковых систем, что разрешено индексировать, а что нет. В этой заметке мы разберем из чего состоит этот файл, как написать robots.txt самому, и приведем примеры.

Не рекомендуется заменять стандартный robots.txt на сайте uCoz. Он прописан так, чтобы индексировались только страны с информацией, а служебные страницы – нет. Это один из основных элементов внутренней оптимизации сайта.

Вот так выглядит стандартный robots.txt:

User-agent: *  
Allow: /*?page  
Allow: /*?ref=  
Allow: /stat/dspixel  
Disallow: /*?  
Disallow: /stat/  
Disallow: /index/1  
Disallow: /index/3  
Disallow: /register  
Disallow: /index/5  
Disallow: /index/7  
Disallow: /index/8  
Disallow: /index/9  
Disallow: /index/sub/  
Disallow: /panel/  
Disallow: /admin/  
Disallow: /informer/  
Disallow: /secure/  
Disallow: /poll/  
Disallow: /search/  
Disallow: /abnl/  
Disallow: /*_escaped_fragment_=  
Disallow: /*-*-*-*-987$  
Disallow: /shop/order/  
Disallow: /shop/printorder/  
Disallow: /shop/checkout/  
Disallow: /shop/user/  
Disallow: /*0-*-0-17$  
Disallow: /*-0-0-  

Sitemap: http://forum.ucoz.ru/sitemap.xml  
Sitemap: http://forum.ucoz.ru/sitemap-forum.xml

Расшифровка каждого пункта ниже.


Из чего состоит robots.txt

Сначала нужно указать, к какому роботу мы обращаемся. Если обращаемся ко всем, то указываем звездочку, а если нужен конкретный, то обращаемся по имени. У Яндекса это YandexBot, а у Google – Googlebot. Это основные индексирующие роботы, узнавайте их имена в справках поисковых систем.

Собственно, вот пример начала для всех роботов:

User-agent: *

Далее запрещаем или разрешаем выбранные нами страницы. Используем правило Disallow для запрета и Allow для разрешения. Используя такую структуру, можно например, запретить индексацию определенного раздела, но разрешить в нем же чтение роботом одного документа и т.д.

Состав robots.txt

Вот таким образом мы запрещаем поисковым системам читать наши «sekretiki» (сам директория и адреса начинающие на нее под запретом):

User-agent: *
Disallow: /sekretiki/

Спецсимволы и комментарии:

Для того, чтобы запретить только сам раздела без его содержимого, на конце ставится знак $:

User-agent: *
Disallow: /sekretiki$

Таким образом, дирректория «/sekretiki» запрещены к индексации, но «/sekretiki.html» допустимы.

Для использования в адресе переменные, используйте звездочки:

User-agent: *
Disallow: /sekretiki/*-0-0
Disallow: /news/17-*-0-*

С помощью этих символов, можно сделать правило на запрет индексирования страниц дублей:

Disallow: /*&*

Код можно комментировать. Все что находится после # в строке не читается:

User-agent: * # Приветствую всех роботов
Allow: /sekretiki/ # Разрешаю секретики
Disallow: / # Запрещаю индексировать все остальные страницы

User-agent: GoogleBot # Приветствую только робота Google
Disallow: /sekretiki/ # А вот ему я запрещаю именно секретики

Указываем карту сайта Sitemap:

Если не указать ссылку на карту сайта, то робот не сможет быстро индексировать сайт, новые страницы без sitemap.xml могут не попасть в индекс даже в течении нескольких месяцев.

uCoz сам генерирует карту сайта, в том числе и отдельную для форума, поэтому в конце robots.txt указаны такие строки:

Sitemap: http://forum.ucoz.ru/sitemap.xml
Sitemap: http://forum.ucoz.ru/sitemap-forum.xml

Существуют и другой момент в robots.txt, называется Clean-param. Он позволит указать неиспользуемые параметры, не влияющие на содержимое страницы, чтобы робот не заходил на них лишний раз. В uCoz такой тонкой необходимости нет, мы сразу убираем дубли без указания конкретных параметров.

Если вы обнаружили, что на вашем сайте испорчен файл robots.txt, просто удалите его, при запросе система сама подставит правильный robots.txt. Это относится именно к специфики работы с uCoz.

Разбор стандартного robots.txt uCoz:

Теперь, когда вы знаете, из чего состоит файл robots.txt, перейдем к расшифровке стандартного:

  • User-agent: * — правила касаются всех ботов;
  • Allow: /*?page — разрешить индексировать страницы пагинации;
  • Allow: /*?ref= — разрешить доступ к страницам соц. авторизации;
  • Allow: /stat/dspixel — разрешить доступ к системному скрипту статистики;
  • Disallow: /*? — запретить индексировать URL с параметрами;
  • Disallow: /stat/ — запретить индексацию URL статистики;
  • Disallow: /index/1 — запретить индексацию Страницы входа;
  • Disallow: /index/3 — запретить индексацию страницы регистрации;
  • Disallow: /register — запретить индексацию страницы регистрации;
  • Disallow: /index/5 — запретить индексацию системного URL восстановления пароля;
  • Disallow: /index/7 — запретить индексацию системного Меню аватарок;
  • Disallow: /index/8 — запретить индексацию пользовательских профилей;
  • Disallow: /index/9 — запретить индексацию системного URL Истории репутации;
  • Disallow: /index/sub/ — запретить индексацию системного URL;
  • Disallow: /panel/ — запретить индексацию ПУ;
  • Disallow: /admin/ — запретить индексацию ПУ;
  • Disallow: /informer/ — запретить индексацию системных информеров;
  • Disallow: /secure/ — запретить индексацию системной капчи;
  • Disallow: /poll/ — запретить индексацию опросов;
  • Disallow: /search/ — запретить индексацию страниц поиска;
  • Disallow: /abnl/ — запретить индексацию системных URL;
  • Disallow: /*_escaped_fragment_= — дополнительный запрет на индексацию системных URL;
  • Disallow: /*-*-*-*-987$ — запрет дублей страниц в модулях Новости и Блог, связанных с кодом комментариев на странице;
  • Disallow: /shop/checkout/ — запрет на индексацию Корзины для модуля uShop;
  • Disallow: /shop/user/ — запрет на индексацию пользовательских профилей для модуля uShop;
  • Disallow: /*0-*-0-17$ — дополнительный запрет на индексацию системных URL;
  • Disallow: /*-0-0- — запрет к индексации страниц добавления материалов, списков материалов пользователей, ленточного варианта форума (некоторые дублирующие URL), страниц со списком пользователей (некоторые дублирующие URL), поиска по форуму, правил форума, добавления тем на форуме, различные фильтры (с дублями), страницы с редиректами на залитые на сервер файлы;
  • Sitemap: http://вашсайт.ru/sitemap.xml — ссылка на общую карту сайта;
  • Sitemap: http://вашсайт.ru/sitemap-forum.xml — ссылка на карту форума;
  • Sitemap: http://вашсайт.ru/sitemap-shop.xml — ссылка на карту магазина.

Проверить правильность robots.txt

На Яндексе для вебмастеров создана страница для анализа robots.txt. Просто введите ссылку на сайт и отдельно ссылки на желательные и не желательные для индексации страницы и получите результат:

Форма для анализа robots.txt

Результат проверки robots.txt

Об этом можно и вовсе не задумываться, если заказываешь раскрутку сайта на promo.siteactiv.ru, грамотные специалисты работают с 2006 года, в курсе всех изменений в механизмах поисковых систем. Файл robots.txt в свою очередь мелочь, хоть и важная. Специалисты сделают правильный robots.txt.

Зачем вообще прикасаться к файлу robots.txt на uCoz? Это нужно только в том случае, если вы сами не считаете его правильным или же вам нужно разрешить к индексированию, например, страницу регистрации или персональные страницы пользователей.

Источники:
https://yandex.ru/support/webmaster/controlling-robot/robots-txt.xml
http://ucoz.help/robots-txt/




Сохраните в социальную сеть
Комментарии (8)
А почему страницы пагинации открыты для индексирования, ведь у них одинаковые титлы и мета-теги, разве это не сказывается негативно на оптимизации в ПС?
0
Ну да, я тоже об этом подумал. Но все-же в инструментах вебмастера гугла такие страницы помечаются как с ошибками (одинаковые титлы и метатеги). Это реально плохо или можно забить? Кстати где-то читал предлагали на таких страницах добавлять в титл и метатеги что-то типа (Страница №) и тогда это уже как-бы не повторение.
0
Jack Patison Brom 30.08.2015 в 08:46Спам
Разве нельзя просто для пагинаций укаказать rel canonical?
Допустим, если у нас есть модуль статьи, категория авто (site.ru/auto), то в коде прописать rel canonical с этим урл и при переходе на вторую страницу этой категории робот будет видеть, что эту страницу не нужно считать главное
0
Я не нашел такого здесь, только что исходник смотрел, на страницах пагинации титл и метатеги - одинаковые.
0
David 31.08.2015 в 02:17Спам
У меня файл robots.txt выглядит так:

User-agent: *
Disallow: /a/
Disallow: /stat/
Disallow: /index/1
Disallow: /index/2
Disallow: /index/3
Disallow: /index/5
Disallow: /index/7
Disallow: /index/8
Disallow: /index/9
Disallow: /panel/
Disallow: /admin/
Disallow: /secure/
Disallow: /informer/
Disallow: /mchat
Disallow: /search
Disallow: /shop/order/
Disallow: /?ssid=
Disallow: /abnl/

Sitemap: /sitemap.xml
Sitemap: /sitemap-forum.xml

Нужно изменить или не нужно ? это стандартный файл robots.txt, я раньше не изменял!!
0
Уолтер Уайт 31.08.2015 в 12:37Спам
Не трогай
1
David 31.08.2015 в 09:59Спам
У меня самом начале стоит такой код

User-agent: Mediapartners-Google
Disallow:

Это что значит ? Нужно удалить или оставить ? Я так понимаю что этот код связано с adsense, но не знаю какая задача выполняет!!
0
Dimon Ivanov 07.03.2016 в 22:13Спам
Сейчас новый веб мастер запрашивает, если зеркало и предаться ставить Host: Ваш сайт
0
Чтобы оставить комментарий под этой публикацией,
зарегистрируйтесь или войдите.
Рейтинг лучших сервисов для самостоятельного создания сайта.
Лучшие конструкторы
Легко! Если пользоваться нашими советами.
Создать сайт