Правильний robots.txt для сайту



Зі статті ви дізнаєтеся:

1. Що таке CMS?

2. Файл robots.txt для WordPress (WP)

3. Файл robots.txt для Bitrix

4. Файл robots.txt для OpenCart

5. Файл robots.txt для Joomla

6. Файл robots.txt для ModX

7. Перевірка файлу robots.txt

8. Висновок




Файл robots.txt є важливим елементом для керування індексацією та поведінкою пошукових систем на вашому сайті. Це текстовий файл, розташований у кореневій директорії вашого домену, який вказує пошуковим системам, що на Вашому сайті можна індексувати та показувати у видачі, а що ні.

У цій статті ми розглянемо універсальні загальноприйняті принципи створення правильного файлу /robots.txt.

Перш за все, давайте розберемося, як працюють роботи (пошукові боти) і як вони взаємодіють з вашим файлом robots.txt. Коли робот пошуку намагається індексувати ваш веб-сайт, він спочатку перевіряє наявність цього файлу. Якщо robots.txt знайдено, роботи аналізують його вміст і визначають, які сторінки можуть бути індексовані, а які - ні.

Файл robots.txt складається зі списку правил, кожне з яких починається зі спеціального ключового слова, за яким слідує колонка і значення правила. Основні ключові слова, які використовуються у файлі robots.txt, включають:

  • User-agent - вказує конкретного робота або групу роботів, до яких застосовується наступне правило.
  • Disallow - вказує шлях до сторінки або директорії, яку слід закрити для індексації.
  • Allow - вказує шлях до сторінки або директорії, яку слід дозволити для індексації, навіть якщо інші правила Disallow забороняють доступ до цієї області.
  • Sitemap - вказує шлях до файлу sitemap для вашого сайту, який допомагає пошуковим роботам краще індексувати ваш сайт.

Створення правильного файлу robots.txt під Вашу CMS

CMS (Content Management System) — це система керування вмістом сайту (приклади найпопулярніших CMS: WordPress, Bitrix, OpenCart, Joomla, ModX, Joomla ). У кожної CMS свої принципи роботи, у кожної свої технічні сторінки, які потрібно закривати за допомогою файлу robots.txt

Ми зробили файли robots.txt під кожну з популярних CMS, щоб Ви могли просто скачати файл robots.txt і замінити URL адресу сайту на свою.

Файл robots.txt для WordPress (WP)

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-login.php
Disallow: /wp-cron.php
Disallow: /readme.html
Disallow: /xmlrpc.php
Disallow: /wp-json/
Disallow: /comments/feed/
Disallow: /trackback/
Disallow: /feed/
Disallow: /?s=

Sitemap: https://yourdomain.com/sitemap.xml

Скачати robots.txt для Wordpress (WP)

Давайте розглянемо кожен рядок по черзі:

User-agent: * Цей рядок вказує, що правила, які слідують, стосуються всіх пошукових роботів.
Disallow: /wp-admin/ Цей рядок забороняє доступ до директорії "wp-admin/", де зазвичай знаходиться адміністративна панель WordPress.
Disallow: /wp-includes/ Цей рядок забороняє доступ до директорії "wp-includes/", яка містить ядро WordPress і важливі системні файли.
Disallow: /wp-content/plugins/ Цей рядок забороняє доступ до директорії "wp-content/plugins/", де зберігаються плагіни.
Disallow: /wp-content/themes/ Цей рядок забороняє доступ до директорії "wp-content/themes/", де зберігаються теми WordPress.
Disallow: /wp-login.php Цей рядок забороняє доступ до сторінки входу в систему адміністратора WordPress.
Disallow: /wp-cron.php Цей рядок забороняє доступ до файлу "wp-cron.php", який використовується для автоматичних завдань в WordPress.
Disallow: /readme.html Цей рядок забороняє доступ до файлу "readme.html", який містить інформацію про вашу WordPress-установку.
Disallow: /xmlrpc.php Цей рядок забороняє доступ до файлу "xmlrpc.php", який використовується для деяких зовнішніх служб і плагінів.
Disallow: /wp-json/ Цей рядок забороняє доступ до REST API WordPress.
Disallow: /comments/feed/ Цей рядок забороняє доступ до стрічки коментарів вашого сайту.
Disallow: /trackback/ Цей рядок забороняє доступ до функції trackback, яка дозволяє іншим сайтам надсилати вам сповіщення про зворотне посилання.
Disallow: /feed/ Цей рядок забороняє доступ до основної стрічки вашого сайту.
Disallow: /?s= Цей рядок забороняє доступ до пошукових запитів на вашому сайті.
Зверніть увагу, що це лише приклад базового файлу robots.txt для WordPress-сайту. Ви можете додати або змінити ці правила відповідно до ваших потреб.

Також, не забудьте замінити "yourdomain.com" у рядку "Sitemap" на URL вашої карти сайту (sitemap), якщо ви використовуєте цю функцію.


Файл robots.txt для Bitrix

User-agent: *
Disallow: /bitrix/
Disallow: /upload/
Disallow: /auth/
Disallow: /auth/
Disallow: /auth/
Disallow: /search/
Disallow: /personal/
Disallow: /404.php
Disallow: /include/
Disallow: /local/
Disallow: /mobile/
Disallow: /?PAGEN_1$
Disallow: /&PAGEN_1$
Disallow: /?SORT$
Disallow: /?SHOWALL$

Sitemap: https://yourdomain.com/sitemap.xml

Скачати robots.txt для Bitrix

Давайте розглянемо кожен рядок по черзі:

User-agent: * Цей рядок вказує, що правила, які слідують, стосуються всіх пошукових роботів.

Disallow: /bitrix/ Цей рядок забороняє доступ до директорії "bitrix/", де знаходиться основна системна структура Bitrix.

Disallow: /upload/ Цей рядок забороняє доступ до директорії "upload/", де зазвичай зберігаються завантажені файли.

Disallow: /auth/ Цей рядок забороняє доступ до сторінок авторизації.

Disallow: /search/ Цей рядок забороняє доступ до сторінок пошуку на сайті.

Disallow: /personal/ Цей рядок забороняє доступ до особистих сторінок користувачів.

Disallow: /404.php Цей рядок забороняє доступ до сторінки 404, яка відображається при помилкових запитах.

Disallow: /include/ Цей рядок забороняє доступ до директорії "include/", де зазвичай знаходяться файлы включень.

Disallow: /local/ Цей рядок забороняє доступ до директорії "local/", яка може містити локальні налаштування і розширення.

Disallow: /mobile/ Цей рядок забороняє доступ до директорії "mobile/", яка використовується для мобільних версій сайту.

Disallow: /*?PAGEN_1$ Цей рядок забороняє доступ до сторінок з параметром сортування.

Disallow: /*&PAGEN_1$ Цей рядок забороняє доступ до сторінок з параметром сортування.

Disallow: /*?SORT$ Цей рядок забороняє доступ до сторінок з параметром сортування.

Disallow: /*?SHOWALL$ Цей рядок забороняє доступ до сторінок з параметром відображення всіх елементів.

Також, не забудьте замінити "yourdomain.com" у рядку "Sitemap" на URL вашої карти сайту (sitemap), якщо ви використовуєте цю функцію.

Файл robots.txt для OpenCart

User-agent: *
Disallow: /admin/
Disallow: /catalog/
Disallow: /system/
Disallow: /image/
Disallow: /download/
Disallow: /includes/
Disallow: /javascript/
Disallow: /cache/
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /feed/
Disallow: /route=account/
Disallow: /route=checkout/
Disallow: /route=product/compare/
Disallow: /route=product/search/
Disallow: /route=affiliate/
Disallow: /route=information/
Disallow: /?route=account/
Disallow: /?route=checkout/
Disallow: /?route=product/compare/
Disallow: /?route=product/search/
Disallow: /?route=affiliate/
Disallow: /?route=information/

Sitemap: https://yourdomain.com/sitemap.xml

Скачати robots.txt для OpenCart

Давайте розглянемо кожен рядок по черзі:

User-agent: * Цей рядок вказує, що правила, які слідують, стосуються всіх пошукових роботів.

Disallow: /admin/ Цей рядок забороняє доступ до директорії "admin/", де знаходиться адміністративна панель OpenCart.

Disallow: /catalog/ Цей рядок забороняє доступ до директорії "catalog/", яка містить фото-інформацію про товари.

Disallow: /system/ Цей рядок забороняє доступ до директорії "system/", де знаходяться системні файли OpenCart.

Disallow: /image/ Цей рядок забороняє доступ до директорії "image/", яка містить зображення товарів.

Disallow: /download/ Цей рядок забороняє доступ до директорії "download/", де можуть знаходитись файли для завантаження.

Disallow: /includes/ Цей рядок забороняє доступ до директорії "includes/", де можуть знаходитись включаємі файли.

Disallow: /javascript/ Цей рядок забороняє доступ до директорії "javascript/", де можуть знаходитись файли JavaScript.

Disallow: /cache/ Цей рядок забороняє доступ до директорії "cache/", де можуть знаходитись тимчасові файли кешу.

Disallow: /cgi-bin/ Цей рядок забороняє доступ до директорії "cgi-bin/", де зазвичай знаходяться CGI-скрипти.

Disallow: /tmp/ Цей рядок забороняє доступ до директорії "tmp/", де можуть знаходитись тимчасові файли.

Disallow: /feed/ Цей рядок забороняє доступ до стрічки (feed) вашого сайту.

Disallow: /*route=account/ Цей рядок забороняє доступ до сторінок облікового запису користувача.

Disallow: /*route=checkout/ Цей рядок забороняє доступ до сторінок оформлення замовлення.

Disallow: /*route=product/compare/ Цей рядок забороняє доступ до сторінок порівняння товарів.

Disallow: /*route=product/search/ Цей рядок забороняє доступ до сторінок пошуку товарів.

Disallow: /*route=affiliate/ Цей рядок забороняє доступ до сторінок афіліатської програми.

Disallow: /*route=information/ Цей рядок забороняє доступ до сторінок інформаційного розділу.

Disallow: /*?route=account/ Цей рядок забороняє доступ до сторінок облікового запису користувача з параметром.

Disallow: /*?route=checkout/ Цей рядок забороняє доступ до сторінок оформлення замовлення з параметром.

Disallow: /*?route=product/compare/ Цей рядок забороняє доступ до сторінок порівняння товарів з параметром.

Disallow: /*?route=product/search/ Цей рядок забороняє доступ до сторінок пошуку товарів з параметром.

Disallow: /*?route=affiliate/ Цей рядок забороняє доступ до сторінок афіліатської програми з параметром.

Disallow: /*?route=information/ Цей рядок забороняє доступ до сторінок інформаційного розділу з параметром.

Також, не забудьте замінити "yourdomain.com" у рядку "Sitemap" на URL вашої карти сайту (sitemap), якщо ви використовуєте цю функцію.

Файл robots.txt для Joomla

User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/

Sitemap: https://yourdomain.com/sitemap.xml

Скачати robots.txt для Joomla

Давайте розглянемо кожен рядок по черзі:

User-agent: * Цей рядок вказує, що правила, які слідують, стосуються всіх пошукових роботів.

Disallow: /administrator/ Цей рядок забороняє доступ до директорії "administrator/", де знаходиться адміністративна панель Joomla.

Disallow: /bin/ Цей рядок забороняє доступ до директорії "bin/", де можуть знаходитись виконувані файли.

Disallow: /cache/ Цей рядок забороняє доступ до директорії "cache/", де зберігаються тимчасові файли кешу.

Disallow: /cli/ Цей рядок забороняє доступ до директорії "cli/", яка містить файлы для виконання через командний рядок.

Disallow: /components/ Цей рядок забороняє доступ до директорії "components/", де знаходяться компоненти Joomla.

Disallow: /images/ Цей рядок забороняє доступ до директорії "images/", де можуть знаходитись зображення.

Disallow: /includes/ Цей рядок забороняє доступ до директорії "includes/", де знаходяться включаємі файли.

Disallow: /installation/ Цей рядок забороняє доступ до директорії "installation/", де знаходиться процес встановлення Joomla.

Disallow: /language/ Цей рядок забороняє доступ до директорії "language/", де знаходяться файли мовних пакетів.

Disallow: /layouts/ Цей рядок забороняє доступ до директорії "layouts/", де знаходяться шаблони розмітки.

Disallow: /libraries/ Цей рядок забороняє доступ до директорії "libraries/", де знаходяться бібліотеки і фреймворки, використовані в Joomla.

Disallow: /logs/ Цей рядок забороняє доступ до директорії "logs/", де зберігаються журнали системи.

Disallow: /modules/ Цей рядок забороняє доступ до директорії "modules/", де знаходяться модулі Joomla.

Disallow: /plugins/ Цей рядок забороняє доступ до директорії "plugins/", де знаходяться плагіни Joomla.

Disallow: /tmp/ Цей рядок забороняє доступ до директорії "tmp/", де знаходяться тимчасові файли.

Також, не забудьте замінити "yourdomain.com" у рядку "Sitemap" на URL вашої карти сайту (sitemap), якщо ви використовуєте цю функцію.

Файл robots.txt для ModX

User-agent: *
Disallow: /assets/
Disallow: /core/
Disallow: /manager/
Disallow: /connectors/
Disallow: /error/
Disallow: /packages/
Disallow: /plugins/
Disallow: /snippet/
Disallow: /system/
Disallow: /tmp/

Sitemap: https://yourdomain.com/sitemap.xml

Скачати robots.txt для ModX

У цьому прикладі вказано декілька директив Disallow, які забороняють доступ до певних директорій MODX, таких як "assets/", "core/", "manager/", "connectors/", "error/", "packages/", "plugins/", "snippet/", "system/" та "tmp/".

Зверніть увагу, що це лише приклад базового файлу robots.txt. Ви можете додати або змінити ці правила відповідно до вашої конкретної конфігурації MODX і вимог вашого сайту.

Не забудьте замінити "yourdomain.com" у рядку "Sitemap" на URL вашої карти сайту (sitemap), якщо ви використовуєте цю функцію.

Перевірка файлу robots.txt

Після створення файлу robots.txt рекомендується його перевірити на наявність помилок або неправильно вказаних правил.

Деякі інструменти, які можна використовувати для перевірки файлу robots.txt, включають в себе:

  1. Інструмент перевірки файлу robots.txt веб-сайту Google. Ви можете завантажити свій файл robots.txt або перевірити URL-адресу вашого сайту для аналізу правил.
  2. Пошук в Google. Через деякий час (приблизно тиждень), перевірте всі сторінки, які потрапили в індекс, це дасть можливість знайти сторінки і розділи, яких там бути не повинно і закрити їх від індексації.

Розмістіть файл robots.txt в кореневій директорії вашого сайту https://yourdomain.com/robots.txt. Переконайтеся, що файл robots.txt знаходиться безпосередньо у кореневій директорії вашого сайту. Пошукові роботи припускають, що файл robots.txt знаходиться саме там, тому його розташування в іншому місці може призвести до його неправильного ігнорування.

Висновок:

Файл robots.txt є важливим інструментом для керування індексацією пошуковими системами на вашому веб-сайті. Коректне використання цього файлу допоможе забезпечити належну індексацію та зменшити ризик небажаних наслідків, таких як дублікатний контент або некоректне індексування.

Пам'ятайте про аналіз роботів, створення конкретних і чітких правил, використання файлу sitemap та перевірку файлу robots.txt на наявність помилок. Зберігайте свій файл robots.txt актуальним, оновлюючи його при зміні структури вашого сайту.

З правильним файлом robots.txt ви зможете забезпечити оптимальну індексацію вашого веб-сайту пошуковими системами і поліпшити загальну видимість вашого контенту в Інтернеті.

Якщо стаття Вам не допомогла і robots.txt не вдалося зробити, ми можемо безкоштовно Вас проконсультувати по цьому питанню, для цього натисніть