Правильный robots.txt для сайта


Со статьи Вы узнаете:

1. Что такое CMS?

2. Файл robots.txt для WordPress (WP)

3. Файл robots.txt для Bitrix

4. Файл robots.txt для OpenCart

5. Файл robots.txt для Joomla

6. Файл robots.txt для ModX

7. Проверка файла robots.txt

8. Вывод




Файл robots.txt является важным элементом для управления индексацией и поведением поисковых систем на вашем сайте. Это текстовый файл, расположенный в корневой директории вашего домена, указывающий поисковым системам, что на Вашем сайте можно индексировать и показывать в выдаче, а что нет.

В этой статье мы рассмотрим универсальные принципы создания правильного файла /robots.txt.

Прежде всего, давайте разберемся, как работают роботы (поисковые боты) и как они взаимодействуют с вашим файлом robots.txt. Когда робот поиска пытается индексировать ваш сайт, он сначала проверяет наличие этого файла. Если robots.txt найден, работы анализируют его содержимое и определяют, какие страницы могут быть индексированы, а какие нет.

Файл robots.txt состоит из списка правил, каждое из которых начинается со специального ключевого слова, за которым следует колонка и значение правила. Основные ключевые слова, используемые в файле robots.txt, включают в себя:


  • User-agent - указывает конкретную работу или группу роботов, к которым применяется следующее правило.
  • Disallow - указывает путь к странице или директории, которую следует закрыть для индексации.
  • Allow - указывает путь к странице или директории, которую следует разрешить для индексации, даже если другие правила Disallow запрещают доступ к этой области.
  • Sitemap - указывает путь к файлу sitemap для вашего сайта, который помогает поисковым работам лучше индексировать ваш сайт.

Создание правильного файла robots.txt под Вашу CMS

CMS (Content Management System) — это система управления содержимым сайта (примеры самых популярных CMS: WordPress, Bitrix, OpenCart, Joomla, ModX, Joomla). У каждой CMS свои принципы работы, у каждой свои технические страницы, которые нужно закрывать с помощью файла robots.txt

Мы сделали файлы robots.txt под каждый из популярных CMS, чтобы Вы могли просто скачать файл robots.txt и заменить URL адрес сайта на свой.

Файл robots.txt для WordPress (WP)

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-login.php
Disallow: /wp-cron.php
Disallow: /readme.html
Disallow: /xmlrpc.php
Disallow: /wp-json/
Disallow: /comments/feed/
Disallow: /trackback/
Disallow: /feed/
Disallow: /?s=

Sitemap: https://yourdomain.com/sitemap.xml

Скачать robots.txt для Wordpress (WP)

Давайте рассмотрим каждую строчку поочередно:

User-agent: * Эта строка указывает, что следующие правила касаются всех поисковых роботов.
Disallow: /wp-admin/ Эта строка запрещает доступ к директории wp-admin/, где обычно находится административная панель WordPress.
Disallow: /wp-includes/ Эта строка запрещает доступ к директории "wp-includes/", содержащей ядро WordPress и важные системные файлы.
Disallow: /wp-content/plugins/ Эта строка запрещает доступ к директории "wp-content/plugins/", где хранятся плагины.
Disallow: /wp-content/themes/ Эта строка запрещает доступ к директории "wp-content/themes/", где хранятся темы WordPress.
Disallow: /wp-login.php Эта строка запрещает доступ к странице входа в систему администратора WordPress.
Disallow: /wp-cron.php Эта строка запрещает доступ к файлу "wp-cron.php", используемому для автоматических задач в WordPress.
Disallow: /readme.html Эта строка запрещает доступ к файлу "readme.html", содержащему информацию о вашей WordPress-установке.
Disallow: /xmlrpc.php Эта строка запрещает доступ к файлу "xmlrpc.php", используемому для некоторых внешних служб и плагинов.
Disallow: /wp-json/ Эта строка запрещает доступ к REST API WordPress.
Disallow: /comments/feed/ Эта строка запрещает доступ к ленте комментариев вашего сайта.
Disallow: /trackback/ Эта строка запрещает доступ к функции trackback, которая позволяет другим сайтам отправлять вам уведомления об обратной ссылке.
Disallow: /feed/ Эта строка запрещает доступ к основной ленте вашего сайта.
Disallow: /?s= Эта строка запрещает доступ к поисковым запросам на вашем сайте.
Обратите внимание, что это пример базового файла robots.txt для WordPress-сайта. Вы можете добавить или изменить эти правила в соответствии с вашими потребностями.

Также, не забудьте заменить "yourdomain.com" в строке "Sitemap" на URL вашей карты сайта (sitemap), если вы используете эту функцию.


Файл robots.txt для Bitrix

User-agent: *
Disallow: /bitrix/
Disallow: /upload/
Disallow: /auth/
Disallow: /auth/
Disallow: /auth/
Disallow: /search/
Disallow: /personal/
Disallow: /404.php
Disallow: /include/
Disallow: /local/
Disallow: /mobile/
Disallow: /?PAGEN_1$
Disallow: /&PAGEN_1$
Disallow: /?SORT$
Disallow: /?SHOWALL$

Sitemap: https://yourdomain.com/sitemap.xml

Скачать robots.txt для Bitrix

Давайте рассмотрим каждую строчку поочередно:

User-agent: * Эта строка указывает, что следующие правила касаются всех поисковых роботов.

Disallow: /bitrix/ Эта строка запрещает доступ к директории "bitrix/", где находится основная системная структура Bitrix.

Disallow: /upload/ Эта строка запрещает доступ к директории "upload/", где обычно хранятся загруженные файлы.

Disallow: /auth/ Эта строка запрещает доступ к страницам авторизации.

Disallow: /search/ Эта строка запрещает доступ к страницам поиска на сайте.

Disallow: /personal/ Эта строка запрещает доступ к личным страницам пользователей.

Disallow: /404.php Эта строка запрещает доступ к странице 404, которая отображается при ошибочных запросах.

Disallow: /include/ Эта строка запрещает доступ к директории "include/", где обычно находятся файлы включений.

Disallow: /local/ Эта строка запрещает доступ к директории "local/", которая может содержать локальные настройки и расширения.

Disallow: /mobile/ Эта строка запрещает доступ к директории "mobile/", используемой для мобильных версий сайта.

Disallow: /*?PAGEN_1$ Эта строка запрещает доступ к страницам с параметром сортировки.

Disallow: /*&PAGEN_1$ Эта строка запрещает доступ к страницам с параметром сортировки.

Disallow: /*?SORT$ Эта строка запрещает доступ к страницам с параметром сортировки.

Disallow: /*?SHOWALL$ Эта строка запрещает доступ к страницам с параметром отображения всех элементов.

Также, не забудьте заменить "yourdomain.com" в строке "Sitemap" на URL вашей карты сайта (sitemap), если вы используете эту функцию.

Файл robots.txt для OpenCart

User-agent: *
Disallow: /admin/
Disallow: /catalog/
Disallow: /system/
Disallow: /image/
Disallow: /download/
Disallow: /includes/
Disallow: /javascript/
Disallow: /cache/
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /feed/
Disallow: /route=account/
Disallow: /route=checkout/
Disallow: /route=product/compare/
Disallow: /route=product/search/
Disallow: /route=affiliate/
Disallow: /route=information/
Disallow: /?route=account/
Disallow: /?route=checkout/
Disallow: /?route=product/compare/
Disallow: /?route=product/search/
Disallow: /?route=affiliate/
Disallow: /?route=information/

Sitemap: https://yourdomain.com/sitemap.xml

Скачать robots.txt для OpenCart

Давайте рассмотрим каждую строчку поочередно:

User-agent: * Эта строка указывает, что следующие правила касаются всех поисковых роботов.

Disallow: /admin/ Эта строка запрещает доступ к директории "admin/", где находится административная панель OpenCart.

Disallow: /catalog/ Эта строка запрещает доступ к директории "catalog/", содержащей фото-информацию о товарах.

Disallow: /system/ Эта строка запрещает доступ к директории "system/", где находятся системные файлы OpenCart.

Disallow: /image/ Эта строка запрещает доступ к директории "image/", содержащей изображения товаров.

Disallow: /download/ Эта строка запрещает доступ к директории "download/", где могут находиться файлы для загрузки.

Disallow: /includes/ Эта строка запрещает доступ к директории "includes/", где могут находиться включаемые файлы.

Disallow: /javascript/ Эта строка запрещает доступ к директории "javascript/", где могут находиться файлы JavaScript.

Disallow: /cache/ Эта строка запрещает доступ к директории cache/, где могут находиться временные файлы кэша.

Disallow: /cgi-bin/ Эта строка запрещает доступ к директории "cgi-bin/", где обычно находятся CGI-скрипты.

Disallow: /tmp/ Эта строка запрещает доступ к директории "tmp/", где могут находиться временные файлы.

Disallow: /feed/ Эта строка запрещает доступ к ленте вашего сайта.

Disallow: /*route=account/ Эта строка запрещает доступ к страницам аккаунта пользователя.

Disallow: /*route=checkout/ Эта строка запрещает доступ к страницам оформления заказа.

Disallow: /*route=product/compare/ Эта строка запрещает доступ к страницам сравнения товаров.

Disallow: /*route=product/search/ Эта строка запрещает доступ к страницам поиска товаров.

Disallow: /*route=affiliate/ Эта строка запрещает доступ к страницам афилиатской программы.

Disallow: /*route=information/ Эта строка запрещает доступ к страницам информационного раздела.

Disallow: /*?route=account/ Эта строка запрещает доступ к страницам аккаунта пользователя с параметром.

Disallow: /*?route=checkout/ Эта строка запрещает доступ к страницам оформления заказа с параметром.

Disallow: /*?route=product/compare/ Эта строка запрещает доступ к страницам сравнения товаров с параметром.

Disallow: /*?route=product/search/ Эта строка запрещает доступ к страницам поиска товаров с параметром.

Disallow: /*?route=affiliate/ Эта строка запрещает доступ к страницам афилиатской программы с параметром.

Disallow: /*?route=information/ Эта строка запрещает доступ к страницам информационного раздела с параметром.

Также, не забудьте заменить "yourdomain.com" в строке "Sitemap" на URL вашей карты сайта (sitemap), если вы используете эту функцию.

Файл robots.txt для Joomla

User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/

Sitemap: https://yourdomain.com/sitemap.xml

Скачать robots.txt для Joomla

Давайте рассмотрим каждую строчку поочередно:

User-agent: * Эта строка указывает, что следующие правила касаются всех поисковых роботов.

Disallow: /administrator/ Эта строка запрещает доступ к директории "administrator/", где находится административная панель Joomla.

Disallow: /bin/ Эта строка запрещает доступ к директории "bin/", где могут находиться исполняемые файлы.

Disallow: /cache/ Эта строка запрещает доступ к директории "cache/", где хранятся временные файлы кэша.

Disallow: /cli/ Эта строка запрещает доступ к директории "cli/", содержащей файлы для выполнения через командную строку.

Disallow: /components/ Эта строка запрещает доступ к директории "components/", где находятся компоненты Joomla.

Disallow: /images/ Эта строка запрещает доступ к директории "images/", где могут находиться изображения.

Disallow: /includes/ Эта строка запрещает доступ к директории "includes/", где находятся включённые файлы.

Disallow: /installation/ Эта строка запрещает доступ к директории "installation/", где находится процесс установки Joomla.

Disallow: /language/ Эта строка запрещает доступ к директории "language/", где находятся файлы языковых пакетов.

Disallow: /layouts/ Эта строка запрещает доступ к директории "layouts/", где находятся шаблоны разметки.

Disallow: /libraries/ Эта строка запрещает доступ к директории "libraries/", где находятся библиотеки и фреймворки, используемые в Joomla.

Disallow: /logs/ Эта строка запрещает доступ к директории "logs/", где хранятся журналы системы.

Disallow: /modules/ Эта строка запрещает доступ к директории "modules/", где находятся модули Joomla.

Disallow: /plugins/ Эта строка запрещает доступ к директории "plugins/", где находятся плагины Joomla.

Disallow: /tmp/ Эта строка запрещает доступ к директории "tmp/", где находятся временные файлы.

Также, не забудьте заменить "yourdomain.com" в строке "Sitemap" на URL вашей карты сайта (sitemap), если вы используете эту функцию.

Файл robots.txt для ModX

User-agent: *
Disallow: /assets/
Disallow: /core/
Disallow: /manager/
Disallow: /connectors/
Disallow: /error/
Disallow: /packages/
Disallow: /plugins/
Disallow: /snippet/
Disallow: /system/
Disallow: /tmp/

Sitemap: https://yourdomain.com/sitemap.xml

Скачать robots.txt для ModX

В этом примере указано несколько директив Disallow, запрещающих доступ к определенным директориям MODX, таким как "assets/", "core/", "manager/", "connectors/", "error/", "packages/", "plugins /", "snippet/", "system/" и "tmp/".

Обратите внимание, что это всего лишь пример базового файла robots.txt. Вы можете добавить или изменить эти правила в соответствии с вашей конкретной конфигурацией MODX и требованиями вашего сайта.

Не забудьте заменить "yourdomain.com" в строке "Sitemap" на URL вашей карты сайта (sitemap), если вы используете эту функцию.

Проверка файла robots.txt

После создания файла robots.txt рекомендуется проверить его наличие ошибок или неправильно указанных правил.

Некоторые инструменты, которые можно использовать для проверки файла robots.txt, включают в себя:

  1. Инструмент проверки файла robots.txt веб-сайта Google. Вы можете загрузить свой файл robots.txt или проверить URL вашего сайта для анализа правил.
  2. Поиск в Google. Через некоторое время (приблизительно неделю), проверьте все страницы, которые попали в индекс, это позволит найти страницы и разделы, которых там быть не должно и закрыть их от индексации.

Разместите файл robots.txt в корневой директории вашего сайта https://yourdomain.com/robots.txt. Убедитесь, что файл robots.txt находится непосредственно в корневой директории вашего сайта. Поисковые работы предполагают, что файл robots.txt находится именно там, поэтому его расположение в другом месте может привести к его неправильному игнорированию.

Вывод:

Файл robots.txt является важным инструментом для управления поисковой системой индексации на вашем веб-сайте. Корректное использование этого файла поможет обеспечить надлежащую индексацию и уменьшить риск нежелательных последствий, таких как дубликатный контент или некорректное индексирование.

Помните об анализе роботов, создании конкретных и четких правил, использовании файла sitemap и проверке файла robots.txt на наличие ошибок. Сохраняйте свой файл robots.txt актуальным, обновляя его при изменении структуры вашего сайта.

С правильным файлом robots.txt вы сможете обеспечить оптимальную индексацию вашего веб-сайта поисковиками и улучшить общую видимость вашего контента в Интернете.

Если статья не помогла и robots.txt не удалось сделать, мы можем бесплатно Вас проконсультировать по этому вопросу, для этого нажмите