Эта статья посвящена крайне важному элементу при продвижении сайта, как служебный файл под названием robots.txt. В глобальной сети, разумеется полно материала по этой теме, но я принял решение все-таки подытожить все уже сказанное, а совсем при подготовке опирался исключительно на собственный опыт. Итак, что же надо учесть чтобы составить хороший robots. txt, зачем нужно внедрять такой файл в корень вашего проекта и какую выгоду можно с этого получить? Давайте по порядку разберемся с этим.
Robots. txt служит для закрытия доступа поисковым роботам к тем разделам проекта, которые не нужно проиндексировать. Опубликовать robots. txt следует в корневом каталоге проекта.
В файл вы можете вносить несколько записей. Первая это User-agent. Такой параметр указывает на то, какой ПС вы хотите закрыть от индексации разделов, директорий или страниц.
Когда вы планируете причислить ваш запрет сразу ко всем роботам, то в поле впишите просто звездочку (*).
Потом идет директива Disallow. Она указывает, какие папки или страницы нужно запретить на индексацию. К примеру, нам нужно запретить доступ к папкам со скриптами, какими-то временными файлами и т.д. Так мы запретили роботам проиндексировать определенные страницы и категории проекта.
Напомню, что набирается все это дело в обыкновенном блокноте, а после копируется в корень веб-сервера при помощи FTP клиента непременно в режиме ASCII.
Это вводная часть, что направлена ознакомлению с robots. Теперь подумаем почему же нужно запрещать от индексации ПС и почему?
Разные ненужные вещи обычно могут наделать бед - начиная от дублирования страниц до невозможности индексации проекта. В случае применения показателей переменных, нужно изменить директивы Disallow. Дубли при правильной настройке маловероятны, но все же подстраховаться стоит.
Далее нужно закрывать от индексации поисковиками все CSS файлы. Это нужно чтобы бот не счел стили нарушениями. К примеру, вы сделали простые бледно-серые буквы на невнятном сером фоне и тогда они плохо видны, что повлечет за собой санкции. Или если вы в стиле для заголовка H2 прописали его размер немного больше, нежели для H1, что отчасти противоречит нормам. Чтобы избежать таких неприятностей гораздо лучше себя уберечь. Да и совсем запрет на индексацию страниц CSS файла немного ускорит индексацию страниц web-сайта, это факт.
Еще нужно запрещать от индексации ПС разного рода скрипты, так как поисковый бот их в любом случае не умеет исполнять, а они соответственно будут затруднять для него индексацию страниц. Последним подпунктом может быть прописывание Host для проекта. То есть его главное доменное имя с WWW или без него. Опытные оптимизаторы особое внимание обращают на этот пункт, так как у меня был пример, когда вебсайт клиента продвигался, и при этом наращивалась ссылочная масса для доменного имени без WWW, также менеджеры этой компании постили по Рунету объявления, оставив адрес веб-сайта с WWW. Я в первое время радовался, что неплохие помощники попались, но очень скоро проект был зазеркален Яндексом, определяя главный хост, как web-сайт с WWW. Сами понимаете, что случилось с купленными ссылками, они просто отпали.