wordpress robots.txt — файл ограничения доступа к содержимому на вашем блоге, сайте и т.д. Более подробно об этом вы можете прочитать здесь — ссылка

Этот файл необходимо создать в корне вашего сайта и прописать в нем некоторые строки. Так как я работаю на движке wordpress я буду писать именно о файле robots.txt для wordpress.
Итак. Если у вас еще нет этого файла на вашем блоге, то создайте его и поместите его в корень вашего блога на сервере.
Когда поисковый робот заходит на ваш блог, он сразу же ищет этот файл, потому что именно он указывает что индексировать на блоге можно, а что нельзя. Так же он указывает на наличие sitemap.xml на сервере, если у вас нет и sitemap.xml, то это говорит о том, что вы еще новичок в блоговедении и вам следует почитать вот этот пост.
На блоге wordpress имеется куча папок которые не нужно индексировать поисковикам, поэтому можно сделать так, чтобы поисковик не тратил на них время а индексировал, только самое необходимое. Вы можете подумать, — «Ну и что, не мое же время». А это очень важный момент, так как робот может устать индексировать всякую хрень и пропустить некоторые важные страницы вашего блога, так что советую придать файлу robots.txt особое внимание.
Как сделать файл robots.txt? Очень просто. Создайте у себя на рабочем столе текстовый файл robots.txt откройте его и пропишите следующее:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 | User-agent: * Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /webstat/ Disallow: /feed/ Disallow: /trackback Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /*?* Disallow: /*? Disallow: /category/*/* Disallow: /wp-content/plugins Disallow: /wp-content/themes Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /comments User-agent: Yandex Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /webstat/ Disallow: /feed/ Disallow: /trackback Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /*?* Disallow: /*? Disallow: /category/*/* Disallow: /wp-content/plugins Disallow: /wp-content/themes Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /comments Host: isif-life.ru Sitemap: http://isif-life.ru/sitemap.xml Sitemap: http://isif-life.ru/sitemap.xml.gz |
Вместо isif-life.ru — укажите адрес вашего блога. Готово!
Не бойтесь, здесь все составлено четко, ваши посты в безопасности =))) Сами разработчики wordpress рекомендуют такой файл wordpress robots.txt
Ну вот и вы теперь знаете как составить правильный wordpress robots.txt!
Успехов!!!
P.S. Как вам статья? Советую получать свежие статьи на e-mail, чтобы не пропустить информацию о новых бесплатных видеокурсах и конкурсах блога!
C уважением, Александр Борисов










Подскажите, корректно ли настравить подобным образом для строительного портала роботс?
ugrastroyinfo.ru/robots.txt
Не возможно сказать. Сложно ответить когда нет доступа к вашему сайту =)
Здравствуйте, подскажите плз. а где взять этот файл, создать текстовый файл и назвать его robots.txt? Если не так, то можно подробней?
Александр, подскажите, а если у меня файл robots.txt уже настроен, он немного отличается от этого, следует ли мне его менять на этот? И нужно ли, как поисковый робот, будет заходить на мой сайт, если изменять этот файл? Каковы последствия?
Я посмотрел ваш файл, вроде нормально настроен. У меня как-то был резкий спад посещаемости на блоге, я написал в Yandex они сказали что у меня закрыт роботсом Disallow: /tag. У вас кстати тоже.
Убрал и пошла вверх посещаемость!
Crawl-delay: 4 — можно убрать
Sitemap: everydayolga.com/sitemap.xml.gz тоже.
Crawl-delay: 4 и Sitemap: everydayolga.com/sitemap.xml.gz убрать, а Disallow: /tag — открыть и сделать allow?
И еще, Александр, Вы не знаете как уменьшить количество внутренних ссылок, чтоб их было меньше 100. Как убрать, так сказать дубликаты, дублирующие ссылки? Может статья у Вас есть? Поис на Вашем блоге, к сожалению, не нашла...(((
Здравствуйте, Александр! Не в первый раз читаю об этом файле,но, к моему сожалению, понять не могу."о создайте его и поместите его в корень вашего блога на сервере." именно эта фраза ставит меня в тупик...
Вижу, что посылают, но не знаю ( не понимаю) куда. Где этот кореь находится на сервере ?
Извините, даже стыдно спрашивать...такая я непонятливая
Елена корень блога — это папка вашего блога httpdocs или public_html
Вот туда и закиньте его!
Александр! Уж извините, спрошу еще ... Для меня , что « корень вашего блога на сервере», что
« папка вашего блога httpdocs или public_html» ... ну не могу понять, хоть тресни.
Видимо проблема в том, что я создала сайт прямо копируя каждое действие видео — уроков школы «START UP». Создать то создала , а вот где эти папки так и не понимаю.
Захожу через админ ... в панель управления сайтом... здесь ничего не вижу . Плагины добавляю, активирую . А папок не вижу .
Еще один вариант — итскать на хостинге timeweb ?
Кажется я нашла ... Впанели управлении акаунтом на хостнге еть « Файловый менеждер» а там
/public_html. Туда ли я попала? Да, осталось теперь только " закинуть " =)
Ага, именно туда!
Елена, не знаю, актуально ли для вас еще или уже разобрались. Посмотрела у вас на сайте robots.txt, но он у вас странного вида сейчас. Не понятно — вы так планировали или так получилось:)
В общем, решила вам ответить. Мы ведь с вами выпускницы одной школы:)
Вы уже почти уже достигли цели. Вы попали в правильное место — в «Файловый менеджере» — папка /public_html. Там выбираете файл- загрузить . И выбираете нужный файл. Все просто.
Александр, у меня такой вопрос: robots.txt настроен точь в точь как у вас, но по данным программы «site-auditor 2.20+» мне говорят что правила robots.txt препятствуют индексации всего сайта... Может подскажете что не так???
http://studentbusines.com/robots.txt — ну это собственно путь к нему )))
Александр как мне robots.txt установить в корень сайта
Попробовала сделать так как Вы тут пишите:
на рабочем столе сделала в блокноте этот файл, возник сразу вопрос в 33 строчке, у меня например блог с www, начинается, а как тогда в файле прописывать, с этой приставкой или без? Я поставила без нее. Загрузила в ту папку как Вы сказали. На этом все? И если блог с www. а на сервере робот без этой приставки, это ни на что не повлияет?
Нина здравствуйте. На сервере тоже должно быть с WWW в файле robots.txt если не хотите, что бы было зеркало сайта. =)
Александр, почему файл Robots.txt вашего сайта отличается от того, который вы советуете? Так какой лучше?
Трудно переоценить значение файла robots.txt для сайта.
Рекомендуемый файл сильно отличается от файла на Вашем сайте.
Пока объяснений нет, приходится только гадать — почему?
скажите пожалуйста зачем закрывать теги Disallow: /tag ? они плохо влияют на продвижение? я всё хотел у вас спросить почему вы не ставите облоко тегов и меток ? оно оказывает плохое влияние?
Спасибо
После последнего апдейта Яндекса из индекса выпали все картинки моего сайта. Стал разбираться, написал в поддержку Яндекса. Мне указали на такую строчку в моем Robots.txt
Получается, я сам запретил ПС индексировать всю папку с контентом и картинки в частности.
Эту строку я бездумно скопировал с нового Роботс у Александра.
Вывод: используйте рекомендованный на этой странице Robots.txt. А если экспериментируете, то делайте это с умом.
А у меня робот.тхт такой User-agent: *
Disallow:
Sitemap: bizneshit.ru/sitemap.xml.gz
это правильно? или все же поставить ваш.
Посмотрел robots.txt у Вас на сайте. Немного отличается от приведенного в статье. Я понимаю, что на месте ничего не стоит. Происходят изменения, когда значительные ,а когда и нет.
Меня больше всего интересует tag Закрывать или не закрывать?
Хотелось бы получить ответ от автора поста , какой же роботс использовать?
Елена — да, это корень (publik_html или httpdocs). Кидайте туда! У вас кстати он вообще не настроен. Дублей страниц будет много соответственно сайт вверх не пойдет!
Иван — что-то вам не правильно говорит кто-то. Это нормальный роботс. Как вариант возьмите у меня посмотрите и подредактируйте. У вас вообще он не настроен. Так же много дублей будет и соответственно сайт вверх не пойдет.
mnemotex — соединитесь с хостингом и закиньте.
Нина — вы когда ссылки покупаете или анонсы постов делаете как ссылки свои указываете? С www или без? Вообще-то желательно без www, но раз у вас уже давно с www, то не меняйте.
Валерий и Евгений — любой берите. Все хороши! =) Тот который у меня сейчас вроде вреда не приносит, можете и его взять!
Sanchez — плохо влияют! Это лишние линки в которых роботы могут запутаться. На блоге должна быть четкая перелинковка. Главная на рубрики, рубрики на записи, записи на главную. И ни чего лишнего. Теги можешь и открыть.
Валерий — wp-content у меня не закрыта.
Бабай — нет конечно. Ставь мой. У тебя же пустой вообще.
Markelo — не закрывай.
kunet — используйте мой роботс, он проверен. Этот я брал у разработчиков worpress, который был сделан для старой wp.
Ребята, поменял роботс в статье! Вот это изначально нормальный! Ну результат на лицо. У меня проблем нет раз посещаемость 3000 в сутки!
Используйте! Удачи!
Александр Борисов
Александр один момент почему Вы не указываете: Здесь насколько вижу блокируется индексация рекламы от партнерки Яндекса. Но она ведь не у каждого стоит. В основном у всех Google AdSense. Подскажите где тогдка сменить если это действительно правда.
Нина здесь ни какой рекламы не закрывается. Опять вы что-то выдумываете?
Второй код в файле задает правила конкретно для робота Ядекса, а не для партнерки.
Александр Борисов
Все понятно Александр, спасибо. Просто в том коде который ранее стол, там были вот такие строчки:
Disallow:
Allow: /* # Google AdSense
User-agent: Mediapartners-Google*
Насколько они важны и какую — нибудь роль играют?
наконец нашел! всем спасибо!
А я разбиралась-разбиралась с этим файлом, но так до конца и не поняла всех тонкостей — эти слэши, звездочки то так пишут, то эдак, на что они влияют, короче, темный лес. Мой Правильный robots.txt для WordPress
Сегодня опять переделала, вроде при проверке ошибок не выявлено, но посмотрю, как это скажется на посещаемости. Я год назад доэкспериментировалась, что меня Яндекс вообще забанил, надеюсь, новый robots ему больше понравится.
Сделал как вы сказали. При проверке в яндекс пишет
User-agent: *Обнаружена неизвестная директива
Disallow: /wp-login.php Перед правилом нет директивы User-agent
что и как ???
Александр, я конечно не спец в роботс, но предполагаю, что между User-agent: и * нет пробела, судя по всему проблема в этом.
Спасибо за статью, создал robots.txt по вашей статье
Подскажите кто нибудь, как запретить в роботе индексировать статьи из рублики новости???
Нина, это просто — соответствующая инструкция прописывается в robots.txt, где прописывается путь к рубрике —
Всегда интересовался, а зачем запрещать к индексации комментарии? Disallow: /comment
Вот проверил свой робот в яндексе. он имеет вот такой вид:
User-agent: *
Crawl-delay: 4
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
User-agent: Yandex
Crawl-delay: 4
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Host: info-gramota.com
Sitemap: info-gramota.com/sitemap.xml.gz
Sitemap: info-gramota.com/sitemap.xml
Яндекс показал мне следующее:
16-30
User-agent: Yandex
Crawl-delay: 4
...
Host: info-gramota.com
32-33
Sitemap: info-gramota.com/sitemap.xml.gz
Sitemap: info-gramota.com/sitemap.xm
Александр, Что это значит и что нужно изменить? Когда я проверял в яндексе почему у меня вылетели все страницы из индексации , показало следующие проблемы:
Документ запрещен в файле robots.txt 276
Документ содержит мета-тег noindex 222
Документ не является каноническим 4
Подскажи, что и как исправить?
Не для каждого блога полезно вносить в роботс это :
Вообще-то, это одна и та же директива...
Звёздочка, завершающая описание директивы может не указываться (по правилам составления директив)
А обязательно ли закрывать категории? Многие пишут, что нужно закрыть все не нужные страницы (метки, архивы, постраничную навигацию), но категории оставить.
Александр, подскажите, пожалуйста, как закрыть пост от индексации. Если я внесу адрес поста в файл Роботс это поможет? Дело в том, что я написала статью для конкурса на другой сайт, она там будет размещена полностью. Но я хочу эту статью и у себя на сайте опубликовать. Не стоит этого делать или все же можно ее спрятать от поисковиков, чтобы они не подумали, что это плагиат?
Александр! В Webmastere Google выскочило вот такое: Заблокирован файлом robots.txt (12)
Мой robots:
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /xmlrpc.php
Disallow: /wp-content/uploads
Disallow: /wp-content/themes
Disallow: /trackback/
Disallow: /feed/
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /?feed=
Disallow: /?s=
Allow: /wp-content/uploads/
Host: ludmilca.ru
Sitemap: ludmilca.ru/sitemap.xml.gz
Sitemap: ludmilca.ru/sitemap.xml
Не подскажите в чем тут дело?
Все правильно, такое всем пишет. Просто Google указывает вам, что некоторые страницы были заблокированы файлом robots.txt.
Не будем ничего выдумывать, возьмем ваш вариант. Спасибо, что вы есть!
При использовании этого robots проверка выдала ошибку Некорректное имя главного зеркала сайта. 36: Host: xn----8sbfeahwirdiugcul1d2j.xn--p1ai
Что тут не так? Или он не совсем понимает сайты на латинице?
Александр, ну наконец-то...статья про robots.txt.
Пока не знал об этом файле, естественно ничего в нем и не менял, потому что его просто-напросто не было.
Но потом узнал...начал гуглить...как правильно составлять...насоставлял, что в один прекрасный день захожу в вебмастер яндекс и вижу что в индексации всего лишь 5 страниц! Меня всего перехватило
Уже месяц-полтора в индексации были 5-15 страниц, причем кол-во постоянно менялось. Сегодня, как какое то чудо, когда прочитал статью Вашу, заходу в вебмастер Яндекс — тадааам — 34 страницы =)Но дело в том, что я ничего не менял с того момента, как составил robots.
Просто тогда я был уверен что правильно всё сделал, и надежду давало сообщение:
«Сайт advisehow.ru не участвует в поиске, так как ранее наш робот получил полный запрет на его индексирование в Вашем файле robots.txt. В настоящий момент запрет отсутствует, сайт уже начал индексироваться и должен появиться в поиске после 1–2 обновлений поисковых баз, после этого сообщение обновится.»
Вот я ждал, ждал...но это всё равно еще не все страницы...буду надеяться на полное индексирование.
P.S. сегодня я начал прогон своих статей по каталогам (по советам в Ваших статьях). Есть подозрения, что это такой быстрый эффект от поста статью в каталоге. Возможно просто быстрее ускорилась проверка и индексация.
И всё таки пара вопросов остается:
1. Теги точно открывать? Сейчас закрыты. Мне кажется это дублирование контента. Нет?
2. Если у меня идет строка
Host: site.ru и потом сразу Sitemap: site.ru/sitemap.xml без пустой строки, т.е. вот так:
Host: site.ru
Sitemap: site.ru/sitemap.xml
то это ошибка? Обязательно чтобы было вот так?
Host: site.ru
Sitemap: site.ru/sitemap.xml
Спасибо!
Добрый день!
у меня есть рукодельный блог!
подскажите пожалуйста по поводу файла robots.txt. У меня он верно настроен или нет??? я немного в этом не понимаю.
Спасибо большое за статью. Еще вчера Яндекс писал, что мой сайт закрыт от индексации мета-тегом noindex. Вечером поменяла файл robots.txt на Ваш и о чудо. Сегодня Яндекс уже проиндексировал часть статей. Я новичок, может это и нормально, но я не ожидала, что так быстро.
Александр, можно ли поменять робот txt, когда сайту уже почти 6 месяцев?
Не навредит ли ему это?
Ответе пожалуйста, очень важен ваш ответ.
Файл robots.txt можно редактировать, это не зависит от возраста сайта...
После редактирования нужно терпеливо ждать переиндексации...
========
Лучший исход для сайта, когда в самом начале админ составил и залил свой актуальный файл robots.txt, но о составлении правильных директив новички не знают и практический опыт приобретается со временем. Поисковые системы проведут переиндексацию, они переиндексацию ведут регулярно, но на это нужно время и терпение админа...
Такой шаблон файла robots.txt не может быть рекомендован разработчиками движка WordPress (как автор утверждает).
Директивы, например, 2-3 и 20-21 — это просто абсурд, этими директивами закрываются от индексации страницы входа в админку (зачем такие страницы закрывать от индексации?)
От индексации админ закрывает дубли доступа авторских страниц и «секретные» станицы...
Я опубликовал свои советы по составлению актуального файла robots.txt, статья в свежих записях, предлагаю обсудить...
Все сделал правильно. Скопировал ваш, заменил ссылки, яндекс вебмастер упорно пишет при проверке внизу-
1: User-agent: *
Обнаружена неизвестная директива
2: Disallow: /wp-login.php
Перед правилом нет директивы User-agent
Что это такое, не пойму
Не понятно только одно, зачем дважды прописывать User-agent: * (для всех роботов) и User-agent: Yandex (отдельно для Яндекса), по-моему для него отдельного приглашения никогда не требовалось
Если обе группы директив «для всех» и «для Яндекса» имеют одинаковый состав директив, то можно оставить только группу директив «для всех» (User-agent: * )
============
пункт №3 инструкции Яндекса по составлению директив для файла robots.txt
Так и не получил ответ по поводузакрытия\открытия тегов и категорий:- ( Не понятно, закрывать их или открывать? Я просто понимаю так. Записи все начинаю появлятся на главной странице, значит в первую очередь анонсы индексируются с главной, затем робот доходит к тегам и категориям, а там те же анонсы что и на главной! Выходят дубли? А если учесть что дублей не два, а три будет — так это вообще неприемлемо? :- ( Первый дубль с главной, второй с тегов (меток) и третий с категорий. Как быть?
Кстати у Вас я тоже смотрю дублей хватает, в индексе Яшки 590 страниц, а в гугле 18600. Или это нормально?