Особенности индексации сайтов – robots.txt, мета-тег robots и внутренние ссылки

Особенности индексации сайтов Привет, ребята. Как и обещал, сегодня пойдет речь про тонкости и особенности индексации сайтов в поисковых системах. Мысли к написанию данного поста мне навеяло развязное поведение роботов Google – наверное, многие заметили, что Гугл индексирует все, что ему только вздумается, не смотря на различные запреты, например, в robots.txt.

Но ведь все мы хотим сделать своим сайтам «красиво», чтобы количество полезных существующих (загруженных) роботом страниц равнялось количеству проиндексированных поисковиком, а количество страниц из дополнительного индекса Google (supplemental) сводилось к минимуму.

Так вот из-за «произвола» роботов и начинают, откуда ни возьмись появляться дубли страниц, вылезать различные проблемы и все такое. Ну и начал я копать и изучать подробнее.


Блокировка и удаление страниц с помощью файла robots.txt

Предлагаю начать с разговора о файле robots.txt, как о самом популярном способе запрета индексации страниц сайта.

Сразу приведу несколько выдержек из справки для вебмастеров от Google:

Файл robots.txt ограничивает доступ роботов, сканирующих Интернет для поисковых систем, к вашему сайту. Перед обращением к страницам сайта эти роботы автоматически ищут файл robots.txt, который запрещает им доступ к определенным страницам.

Файл robots.txt необходим только в том случае, если на вашем сайте есть содержание, которое не следует включать в индекс поисковых систем. Если вы хотите, чтобы поисковые системы включали в свои индексы все содержание вашего сайта, файл robots.txt (даже пустой) не требуется.

Хотя Google не сканирует и не индексирует содержание страниц, заблокированных в файле robots.txt, URL-адреса, обнаруженные на других страницах в Интернете, по-прежнему могут добавляться в индекс. В результате URL страницы, а также другие общедоступные сведения, например текст ссылок на сайт или заголовок из каталога Open Directory Project (www.dmoz.org), могут появиться в результатах поиска Google.

Вот, последняя выдержка самая интересная, из которой понятно, что Google может игнорировать директивы из файла robots.txt. И, как показывает практика, в индекс очень часто попадают адреса страниц, запрещенные в robots.txt, даже при условии отсутствия на них внешних/внутренних ссылок.

Кстати, в руководство Гугла стоило бы добавить, что не только «URL-адреса, обнаруженные на других страницах в Интернете», но и внутренние ссылки приводят к индексации запрещенных страниц, но об этом чуть позже.

На удивление, информация обо всех адресах хранится в Гугле, наверное, веками. У меня есть сайт, на котором уже лет 5 назад сменилась CMS, а вметсе с ней и все url, и старых адресов уже нигде нет, но Гугл помнит эти адреса если пошерстить доп. индекс :)

В Яндексе с этим дела получше, все страницы, закрытые через роботс, НЕ попадают в основной индекс Яндекса, однако роботом просматриваются и загружаются, это наглядно видно в панели вебмастера, где, например, можно наблюдать такое: Загружено роботом — 178046 / Страниц в поиске — 72437. Разумеется, причина такого расхождения аж в 100к страниц не полностью следствие запрещения страниц через robots.txt, здесь есть и 404 ошибки, например, и другие неполадки сайта, которые могут случаться по различным причинам.

Но это не страшно, вот выдержка из руководства для вебмастеров от Яндекса:

В разделе «Исключённые страницы» отображаются страницы, к которым обращался робот, но по тем или иным причинам принял решение не индексировать их. В том числе, это могут быть уже несуществующие страницы, если ранее они были известны роботу. Информация об причинах исключения из индекса хранится в течение некоторого времени, пока робот продолжает их проверять. После этого, если страницы по-прежнему недоступны для индексирования и на них не ведут ссылки с других страниц, информация о них автоматически удаляется из раздела «Исключённые страницы».
Наличие и количество исключенных страниц не влияет на ранжирование сайта в поиске по запросам.

По аналогии с Гуглом тут имеет место быть влияние внешних/внутренних ссылок.

Резюмируя вышесказанное:

Для Яндекса robots.txt запрещает индексацию (в данном случае под этим словом подразумеваем отображение в результатах поиска) закрытых страницы, но не запрещает их загрузку роботами. Такие страницы видны только владельцу сайта в панели вебмастера в разделе «Исключенные страницы».

Для Google robots.txt частично запрещает индексацию страниц, робот их загружает и может отображать в дополнительном индексе, закрытые страницы не отображаются в основном индексе, но все они доступны при изучении дополнительной выдачи (supplemental). Насколько это плохо или хорошо — не известно — в мануалах Гугла такой информации не нашлось. Надеюсь, что это никак не влияет на ранжирование в плохую сторону.

Рекомендую к прочтению:

Плавно переходим к следующему пункту про метатег robots.


Использование метатега robots для блокирования доступа к сайту

Данный метод запрета индексации страниц сайта встречается гораздо реже в повседневной жизни. Как следствие происходит это из-за что разработчики большинства CMS просто не обращают на это внимания/забывают/забивают. И тогда ответственность за поведение роботов на сайте полностью ложится на плечи вебмастеров, которые в свою очередь обходятся простейшим вариантом – robots.txt.

Но продвинутые вебмастера, которые в теме особенностей индексации сайтов и поведения роботов, используют метатег robots.

И снова небольшая выдержка из руководства от Google:

Чтобы полностью исключить вероятность появления контента страницы в индексе Google, даже если на нее ссылаются другие сайты, используйте метатег noindex. Если робот Googlebot начнет сканировать страницу, то обнаружит метатег noindex и не станет отображать ее в индексе.

Внушает оптимизм, не правда ли? И еще:

Обратите внимание: чтобы увидеть тег noindex, мы должны просканировать вашу страницу, поэтому существует небольшая вероятность, что поисковый робот Googlebot не увидит метатег noindex и не отреагирует на него. Кроме того, если вы заблокировали эту страницу с помощью файла robots.txt, мы также не сможем увидеть этот тег.

Следовательно, все страницы, которые мы хотим запретить к индексации, а так же исключить их из индекса, если они уже проиндексированы (насколько я понял, это касается и доп. индекса Гугла), необходимо на всех таких страницах поместить метатег <meta name="robots" content="noindex">. Что еще более важно, эти самые страницы не должны быть закрыты через robots.txt!

Немного побуду кэпом и расскажу, какие еще значения (content="…") может принимать мататег robots:

  • noindex – запрещает индексацию страницы
  • nofollow – запрещает роботу следовать по ссылкам на странице
  • index, follow – разрешает роботу индексацию страницы и переход по ссылкам на этой странице
  • all – аналогично предыдущему пункту. По большому счету, бесполезная директива, эквивалентна отсутствию самого метатега robots
  • none – запрет на индексацию и следование по ссылкам, эквивалентно сочетанию noindex,nofollow
  • noarchive – запрет поисковику выводить ссылку на кеш страницы (для Яндекса это «копия», для Google это «сохраненная копия»)

Так как в справке Яндекса нижеследующие параметры не описаны, то они, скорее всего, там и не сработают. Так что эти параметры только для Google:

  • noimageindex – запрет на индексацию изображений на странице
  • nosnippet – запрет на вывод сниппета в результатах поиска (при этом так же удаляется и сохраненная копия!)
  • noodp – запрет для Google на вывод в качестве сниппета описания из каталога DMOZ

Вроде все, осталось только сказать, что количество пробелов, положение запятой и регистр внутри content="…" здесь не играет никакой роли, но все же для красоты лучше писать как положено (с маленькой буквы, без пробелов и разделяя атрибуты запятой).

Короче говоря, чтобы полностью запретить индексацию ненужных страниц и появление их в поиске необходимо на всех этих страницах разместить метатег <meta name="robots" content="noindex,nofollow">.

Так что если вам известны все страницы (наборы страниц, категории и т.д.), которые не должны попасть в индекс и есть доступ к редактированию их содержания (конкретно, содержания внутри тега <head> </head>), то можно обойтись без запрещающих директив в файле robots.txt, но разместив на страницах метатег robots. Данный вариант, как вы понимаете, является эффективным и предпочтительным.

Однажды я задавал службе поддержки Яндекса следующий вопрос:
1. Играет ли пробел роль в коде <meta name="robots" content="noindex, nofollow"/>. То есть, есть ли разница как писать noindex, nofollow или noindex,nofollow — в первом случае после запятой идет пробел, во втором случае директивы без пробела. Важно ли это или нет?
2. И второй вопрос. Если, допустим, на странице по какой-то причине указаны два метатега robots, например, в такой последовательности:
<meta name="robots" content="all"/>
<meta name="robots" content="noindex, follow"/>
Какие правила применит робот в этом случае?

И получил следюущий ответ:
1. Пробел роли не играет.
2. Последовательность роли не играет. При наличии одновременно запрещающего и разрешающего мета-тега будет учтен разрешающий.

Рекомендую к прочтению:

Итак, у нас остался последний нераскрытый вопрос, и он о внутренних ссылках.


Влияние внутренних ссылок на индексацию сайта

Внутренние ссылки являются основной и практически единственной причиной того, что нам приходится закрывать ненужные и попавшие в индекс страницы разными метатегами и директивами robots.txt. Однако реальность такова, что ненужные роботам страницы очень даже нужны пользователям сайта, а следовательно должны быть и ссылки на эти самые страницы.

А что же делать? При любом варианте запрета индексации ссылок (rel=”nofollow”) и страниц (robots.txt, meta robots), вес сайта просто теряется, утекает на закрытые страницы.

Вариант №1. Большинство распространенных CMS имеют возможность использования специальных тегов (в DLE точно это есть, я сам этим очень активно пользуюсь) при создании шаблонов оформления, которые позволяют регулировать вывод определенной информации. Например, показывать какой-либо текст только гостям или группе пользователей с определенным id и т.д. Если таких тегов вдруг нет, то наверняка на помощь придут логические конструкции (такие конструкции есть в WordPress, а так же форумных движках IPB и vbulletin, опять же, я сам пользуюсь этими возможностями), представляющие из себя простейшие условные алгоритмы на php.

Так вот, логично было бы скрывать неважные и ненужные ссылки от гостей (обычно эту роль играют и роботы при посещении любого сайта), а так же скрывать ссылки на страницы, которые выдают сообщение о том, что вы не зарегистрированы, не имеете прав доступа и все такое. При необходимости можно специально для гостей выводить блок с информацией о том, что после регистрации у них появится больше прав и возможностей, а значит и соответствующие ссылки появятся ;)

Но бывают такие моменты, что ссылку нельзя скрыть или удалить, потому что она нужна, и нужна сразу всем – гостям, пользователям… А вот роботам не нужна. Что делать?

Вариант №2. В редких случаях (хотя последнее время все чаще и чаще) бывает необходимо, чтобы ссылки или даже целые блоки сайта были недоступны и невидны роботам, а вот людям отображались и работали в полной мере, вне зависимости от групп и привилегий. Вы уже, наверное, догадались, что я говорю про сокрытие контента при помощи JavaScript или AJAX. Как это делается технически, я не буду расписывать, это очень долго. Но есть замечательный пост Димы Dimox’а о том, как загрузить часть контента с помощью AJAX на примере WordPress (линк). В примере рассказывается про подгрузку целого сайдбара, но таким же методом можно подгрузить одну только ссылку, например. В общем, немного покопаетесь и разберетесь.

Так вот, если хочется какую-то часть контента роботам не показывать, то лучший выбор – JavaScript. А после того как провернете всю техническую часть, проверить это на работоспособность поможет замечательный плагин для FireFox под названием QuickJava. Просто с помощью плагина отключите для браузера обработку яваскрипта и перезагрузите страницу, весь динамически подгружаемый контент должен пропасть ;)
Но помните, что тут тоже надо знать меру!


И, кстати, еще парочка интересных моментов, которые необходимо знать:

Яндексу в индексации сайтов помогает Яндекс.Метрика, которая автоматически пингует в индекс все посещенные страницы, на которых установлен код Метрики. Но эту функцию можно отключить при получении кода счетчика, установив соответсвующую галочку.

Возможно как то в индексации замешаны Яндекс.Бар и сборка браузера Хром от Яндекса, но в этом я не уверен.

Но вот для Гугла есть информация, что роль поискового робота выполняет сам браузер Google Chrome. Такие уж они хитрецы.

Так что, как видим, скрыть информацию от роботов почти невозможно, если не предпринимать специальные меры.


Итоги — или что сделать, чтобы стало все круто?

Наконец-то я могу подвести итог сегодняшнего огромного поста, и он будет кратким.

Чтобы улучшить качество индексации сайта, необходимо:

  • Скрыть от гостей (к ним относятся и роботы) ссылки, которые им не нужны или не предназначены.
  • Ссылки, которые нельзя удалить или спрятать от живых посетителей, стоит скрыть и выводить через JavaScript.
  • Если ничего из перечисленного невозможно или не получается, то хотя бы необходимо закрыть ссылки на ненужные страницы атрибутом rel=”nofollow”. Хоть польза от этого и сомнительная, но все же…
  • Страницы, которые не должны быть проиндексированы и не должны попасть в индекс поисковых систем, стоит запрещать при помощи метатега robots и параметра noindex: <meta name="robots" content="noindex">
  • Страницы, содержащие тег robots не должны быть запрещены к индексации через robots.txt

Что даст нам весь этот «улучшайзинг»:

  • Во-первых, чистота индекса сайта, что в наше время очень редко и почти не встречается.
  • Во-вторых, быстрота индексации/переиндексации сайта увеличится за счет того, что робот не будет загружать страницы, которые закрыты для него.
  • В-третьих, сохранится какая-то часть статического веса сайта, которая раньше утекала по ссылкам на закрытые страницы, а это может положительно отразится на ранжировании сайта.
  • В-четвертых, это просто круто и говорит об уровне профессионализма вебмастера.

Фуф, два дня (а точнее — две ночи) писал этот пост и никак не мог дописать, но я это сделал! Потому жду ваших отзывов и комментариев.

Если у кого-то есть практический опыт по теме, обязательно поделитесь им со мной и другими читателями, это будет очень интересно и полезно.

Всем спасибо за внимание и до скорой встречи!

С уважением, Александр Алаев
 
Ерунда и баянЪ!Зачет! Плюсую!
+33
 
Оптимизация сайта

Профессиональный технический аудит и оптимизация вашего сайта.
Тот самый необходимый «фундамент» для успешного продвижения.

от 10 000 руб.
Продвижение сайта

Комплексный подход к решению поставленных задач, будь то достижение заветных позиций в ТОП 10 или увеличение трафика на сайт. В стоимость уже включены полный технический аудит и оптимизация сайта.

от 15 000 руб.
Консультация

У вас недостаточно знаний?
Нужен ответ на ряд вопросов?
Хотите узнать мнение эксперта?
Вы задаете вопрос — я на него отвечаю!

1 500 руб./час
 
Получай новости блога АлаичЪ'а на e-mail:
 
Другие посты из категории SEO:
Что нового на форуме:
  1. Den (1 комм.)

    Огромная благодарность, Александр, за отличный пост!!!

    А как Вы относитесь к запрету индексации страниц через указанные параметры UGL в Google Webmaster Tools в частности для Гугла? Насколько они в приоритете по сравнению с robots.txt, meta robots? Проводили ли Вы эксперименты с этими параметрами, может есть какие-то полезные наблюдения?

    Ответить
    • АлаичЪ

      Я этим инструментом пользуюсь, но исключительно чтобы указать, что все эти параметры индексировать не стоит. То есть у меня для всех сайтов стоит запрет для всех параметров, потому что действительно все эти параметры ненужные.

      Насколько это в приоритете — не знаю, целенаправленно не изучал. Но могу точно сказать, что совместное использование различных способов (robots.txt, meta robots, запрет в панели вебмастера) мешает само себе. В первую очередь, все портит robots.txt, следовательно, роботы его смотрят в первую очередь.

      Есть стопроцентное наблюдение — даже не смотря на запрет параметров в панели вебмастера (а плюс к этому rel="canonical" на целевой странице) url с параметром в адресе попадает в доп выдачу, так как возможно на него есть ссылки, а url запрещен в robots.txt.

      Короче говоря, чтобы что-то работало, нельзя эти адреса закрывать в robots.txt

      Ответить
  2. Сергей (3 комм.)

    Прочитал и несколько не пожалел. Узнал во первых многое для себя, а именно, как закрыть от индексации заказные статьи.

    Респект автору за его затраченное на прекрасную статью время.

    Ответить
  3. Kocmoc (77 комм.)

    На счёт индексации ссылок в скриптах проводил эксперимент Devaka тут http://devaka.ru/articles/complex-javascript-for-google, который показал, что от робота google сложно что-то скрыть.

    Так же последний его гостевой пост с рабочим методом скрытия в скрипте http://devaka.ru/articles/hide-links-from-google

    Как всё не предсказуемо, ситуация ровно наоборот : ) Открыл новый сайтик для людей с качественным дизайном и контентом, но уже 3 месяца его упорно не хочет индексировать Яндекс. Хоть убей, не хочет и всё, в техпотдержку писал, вроде начал индексировать, потом выкинул все страницы, проиндексировал заново 5 и на этом всё встало, робот заходит, но индексировать не хочет и всё, даже не знаю что делать.

    Так что у кого какие проблемы : )

    Ответить
    • Andrey (2 комм.)

      Тема раскрыта, спасибо автору за отличный пост.

      Космос попробуй сделать вывод похожих новостей на этом сайте, или внутреннюю перелинковку, мне это помогло — Яша прошел все страницы, и они влетели в индекс

      Ответить
    • АлаичЪ

      Да, верно, от Гугла что-то скрыть крайне сложно. Ко всему этому их роботы научились и формы отправлять, представляешь!

      Тот вариант, что я упомянул интересен тем, что подгружает на страницу содержание другой страницы, которая может и индексироваться, но ее содержимое не будет принадлежать первой странице. Ну короче, ты понял, я надеюсь ;)

      У кого-то проблемы усмирить роботов, а у тебя наоборот... Вариант самый правильный — писать в поддержку, они, как ни странно, помогают!

      Ответить
  4. fishing-pro (1 комм.)

    У меня на сайте есть стриницы, которые по факту являются пустыми и не имеют значения для поисковых систем. То есть в роботсе можно прописать что бы закрыть эти от индексации?

    Ответить
  5. Юрий (1 комм.)

    Я у себя на сайте закрываю роботом тхт все страницы, которые не нужны для индексации и получается так, что в индексе дублей нет. Насчет внутренних ссылок, у меня блог на DLE, и там есть функция, при помощи которой можно закрыть все внешние ссылки, это позволяет закрыть ссылки от поисковых роботов, но люди по ним могут переходить.

    Что касается информации, которую дает Яндекс Вебмастер, то если перейти по этим цифрам, то на странице поиска будет намного меньше загруженных и проиндексированных страниц, а чем это вызвано не понятно.

    Ответить
    • АлаичЪ

      > функция при помощи которой можно закрыть все внешние ссылки, это позволяет закрыть ссылки от поисковых роботов, но люди по ним могут переходить

      Это называется rel="nofollow", и это не закрывает ссылку от роботов, а только дает указание не ходить по ссылке, но это вовсе не говорит о том, что робот по ней не пойдет. Ну и самое печально — вес страницы все равно утекает, есть этот атрибут у ссылки или нет.

      > Что касается информации, которую дает Яндекс Вебмастер, то если перейти по этим цифрам, то на странице поиска, будет намного меньше загруженных и проиндексированных страниц, а чем это вызвано не понятно.

      Пост мой прочитайте, тогда все будет понятно =)

      Ответить
      • Денис (34 комм.)

        "Это называется rel="nofollow" — функция при помощи которой можно закрыть все внешние ссылки я так понимаю это закрыть их в leech, если я правильно понял. И если я правильно понял, ссылки в leech не индексируются сайтом как внешние. На сколько это полезно?

        Ответить
  6. Простой (6 комм.)

    Я так и не понимаю — как же правильно составить этот файл? Многие пишут и все по разному.

    Ответить
    • АлаичЪ

      Какой "этот файл"? Если речь о robots.txt, то он составляется индивидуально для каждого сайта для наилучших результатов.

      Ответить
      • Простой (6 комм.)

        именно robots.txt все пишут почему-то по разному их типа правильный вариант))

        Ответить
        • АлаичЪ

          Нет правильного или неправильного файла robots.txt, могут быть директивы прописаны некорректно и только.

          Все зависит от ваших целей, только вы знаете, что надо закрывать, а что не надо.

          Так что могут быть только советы или рекомендации, но понятий "правильно" или "не правильно" не существует.

          Ответить
    • Kocmoc (77 комм.)

      Если вы не сильно шарите в программировании, то можете просто действовать следующим образом.

      Выбираете сайты хороших сеошных блогеров и изучаете их роботс, в строке введите путь, как пример http://alaev.inf/robots.txt и изучайте. Это будет наглядный пример для вас, что вообще есть и как правильно это оформлено.

      Важно! Ваш роботс должен быть индивидуальным для вашего сайта. Все подсмотреенные примеры вы можете проверить на яндекс вебмастере, загрузите в него роботс, а потом вводите в поле добавить url адресс страницы сайта, которую бы вы хотели проверить на доступность или недоступность роботу, если зелёниньким горит, то робот может индексировать эту страницу, если красным, то нет.

      Так путём перебора вы составите прекрасный роботс без особых знаний.

      Уделите этому файлу должное время, если вы допустите ошибку в нём, то можете отгрести немалых проблем от поисковых систем!!! Следите, чтобы не было дублей страниц!

      Ответить
      • Александр (1 комм.)

        Спасибо за такую подсказку, и такое легкое решение по роботсу, а то разные мнения в инете задолбали

        Ответить
  7. seobikk (6 комм.)

    Спасибо за очень интересный и нужный пост.

    Я недавно на одной странице спрятал часть текста под яваскрипт. То есть текст сразу был не виден, но при нажатии на кнопочку "Подробнее" он раскрывался. Так вот этот спрятанный текст успешно был проиндексирован не только Гуглом, но и Яндексом.

    Поэтому наши любимые поисковики уже спокойно научились индексировать яваскрипты)

    Ответить
    • АлаичЪ

      Так мне кажется ты совсем не то сделал, что думаешь. Одно дело когда текст на странице не видно потому что он скрыт в css? а яваскрипт только меняет стиль display:none на display:block, и совсем другое дело, когда текст подгружается при клике из другого файла. Так что ты еще раз проверь.

      Вот как то так...

      Ответить
      • seobikk (6 комм.)

        а фиг его знает)) Может и не так)) Но если отключаю яваскрипты, то текст не открывается)

        Ответить
        • АлаичЪ

          Разумеется он не будет открываться, JS не сможет изменить видимость ;)

          В первую очередь проверь исходный код страницы, есть ли там тот самый текст. Я почему-то уверен, что он есть!

          Ответить
  8. oroom (2 комм.)

    Любопытно, но я пока не встречал сайтов, у которых индексируются страницы закрытые в robots. Замечал, что Google склонен находить глубока запрятанные страницы, на которые и ссылку-то поди найди, но думал, что robots помогает 100%. Можно пример такой страницы посмотреть?

    Ответить
    • АлаичЪ

      Ну-ну =)

      Далеко ходить не надо, возьмем твой сайт и увидим там кое что: http://s1.ipicture.ru/uploads/20120201/1Jw3U0Wo.png

      Ответить
  9. Alexandr (1 комм.)

    Автор данного ресурса – талантливейший человек. И хотя основное время он тратит не на любимое занятие, но уверен, что работам его могли бы позавидовать многие профи. Огромный респект таким людям!

    Ответить
  10. Сергей (2 комм.)

    Привет всем подскажите как составить robots.txt или где найти рекомендации по его настройке.

    Ответить
    • АлаичЪ

      Читать надо внимательнее. Я вообще-то в посте даже давал ссылку на мануал Гугла и Яндекса по robots.txt

      Ответить
  11. Владимир (1 комм.)

    Я тоже намаялся с индексацией блога Гуглом. Куча дублей, robots просто игнорирует. Перешёл на плагин WordPress Platinum SEO Pack и за счёт удобства добавления тегов намного улучшил состояние блога. Также теги noarchive и nosnippet тоже добавили плюся в индексации. В Yahoo блог лучше стал индексироваться. А конкретный результат начало приносить только добавление тегов noindex и nofollow в файла темы ...(php). Например, добавив в файл wp-includes/comment-template.php тег rel='nofollow' в нужное место, напрочь отбиваешь у Гугла желание индексировать и помещать в дополнительный индекс ссылки с окончаниями древовидных комментариев на WordPress. Конечно, вариантов спрятать что-то именно от Гугла много, но на практике большинство из них малорезультативны, так как он может найти запрещённую вами ссылку на стороннем ресурсе и опять же добавить её в индекс. Ладно если в основной, а если нет?

    Ответить
  12. vottovar (1 комм.)

    Всегда добавлял индивидуально к ссылкам noindex и nofollow и никаких дублей нету.

    Ответить
  13. Вадим (1 комм.)

    Здравствуйте!

    А как запретить дубль index.php. В гугл вебмастере пишет вы закрыли важную страницу!

    Ответить
    • АлаичЪ

      Пропишите в своем .htaccess в корне следующие строки после RewriteEngine On

      RewriteCond %{THE_REQUEST} ^[A-Z]{3,9}\ /index\.php\ HTTP/
      RewriteRule ^index\.php$ / [R=301,L]

      И не закрывайте в robots.txt доступ к index.php. После этого дубль сам пропадет навсегда.

      Ответить
      • Сергей (4 комм.)

        Скажите, а актуально ли это правило для сайтов на движке джумла 1.5. И где конкретно прописывать эти строки? У меня, например, в файле .htaccess, RewriteEngine On прописан следующим образом:

        ## Can be commented out if causes errors, see notes above.

        Options +FollowSymLinks## mod_rewrite in use RewriteEngine On########## Begin — Rewrite rules to block out some common exploits##

        В каком месте писать код? Сразу после слов RewriteEngine On, или после решеток, перед Begin — Rewrite.

        И ещё вопрос, это актуально только для Google или для Яндекса тоже?

        Ответить
        • АлаичЪ

          Должно получиться что-то в духе:

          ## Can be commented out if causes errors, see notes above.
          Options +FollowSymLinks
          ## mod_rewrite in use
          RewriteEngine On
          ## Begin — Rewrite rules to block out some common exploits
          RewriteCond %{THE_REQUEST} ^[A-Z]{3,9}\ /index\.php\ HTTP/
          RewriteRule ^index\.php$ / [R=301,L]

          Актуально и для Google и для Яндекса. И вообще для любых поисковиков и не только.

          Ответить
      • Сергей (4 комм.)

        "И не закрывайте в robots.txt доступ к index.php. После этого дубль сам пропадет навсегда"

        А что такого произойдёт если закрыть index.php через директиву disalow в robot.txt? Я например закрыл, и яндекс отсеял все ненужные дубли страниц с index.php, оставил только нужные. Но правда google вебмастер тоже пишет, что вы закрыли важную страницу. Но эта страница как раз дубль главной. Так что я думаю всё в порядке. Или всё-таки я ошибаюсь?

        Ответить
        • АлаичЪ

          Ничего не произойдет. Просто Google будет считать что эта страница все же существует, но закрыта от индексации. Если от индексации не закрывать, то робот перейдет на эту страницу, его редиректит на главное зеркало, и тогда он поймет что это одно и то же, и склеит эти страницы и забудет про существование index.php. Соответственно сообщение об ошибке пропадет.

          Понятно?

          Ответить
          • Сергей (4 комм.)

            Понятно. Спасибо за полезную информацию! Тогда отменю запрет. Скажите, а это касается всех страниц с index.php? Т.е. после склейки, не нужно снова закрывать index.php в робот.тхт?

            Ответить
            • АлаичЪ

              Нет, ничего закрывать не надо.

              Но, заметьте, это касается только случая site.ru/index.php, на варианты site.ru/category/index.php это не распространяется.

              Ответить
              • Сергей (4 комм.)

                Хорошо. Просто у меня очень много дублей вида: site.ru/index.php?option=com_content&task=view&id=8&Itemid. А дублей вида site.ru/category/index.php вроде и нет такого. Вообщем, как я понял если даже и полностью запретить index.php в робот.тхт, ничего страшного не произойдет, даже в том случае если гугл пишет "заблокирована важная страница".

                Ответить
                • АлаичЪ

                  Судя по url'ам у вас Joomla, у нее всегда были проблемы с кучей дублей и это печально.

                  Страшного ничего не будет. Просто лично мне не дают покоя ошибки в панели вебмастера, если для вас это не критично, то можно вообще не париться :)

                  Ответить
  14. Kocmoc (77 комм.)

    Ребят такой вопрос, у кого-нибудь был опыт по вывода сайта из под АГС за дубли контента? Хотелось бы узнать через какое время сайт возвращается в индекс после исправления ошибок?

    Заранее благодарен за ответ!

    Ответить
    • АлаичЪ

      Надо писать в службу поддержки, не иначе ;) Объяснить проблему и что было сделано для ее решения. Обязательно ответят.

      У меня был опыт вывода нескольких сайтов из бана, решил именно письмом в поддержку.

      Ответить
  15. Дмитрий (44 комм.)

    А каким образом с помощью noindex можно запретить индексирование служебных страниц в DLE? К примеру, страницы профилей, страницы навигации и т.д. На запреты в robots.txt Google не реагирует.

    Ответить
    • АлаичЪ

      Об этом я напишу в 3-й части руководства по оптимизации DLE.

      Ответить
      • Дмитрий (44 комм.)

        Жду с нетерпением!

        Ответить
    • tarin (5 комм.)

      Правильно автор пишет, не всегда тегом <noindex>...</noindex> для робота означает НЕ ИНДЕКСИРОВАТЬ !

      В ДЛЕ, чтбы было наверняка рекомендую использовать теги [not-group=5]...[/not-group] — это значит невидима для гостей, а роботы Яндекса и Гугла относятся к гостям или такой [group=1,2,3,4]...[/group] — видима толтко для этих групп.

      Ответить
  16. Антон (1 комм.)

    Про закрытие дублей через robots.txt и закрытий внешних ссылок — это отличные советы.

    Но я вот столкнулся на WordPress с проблемой. Если делать стартовую страницу статичной, то реальная страница блога с последними записями по тэгу title полностью дублирует стартовую страницу. Это тоже очень плохо, хотя сам контент вроде как не дублируется. В итоге я решил открыть категории по robots.txt и закрыть страницу с последними постами. Фиг знает отработало или нет. Я это дело записал и на блоге выложил http://runetbiz.com/promo/kak-pravilno-nastroit-robotstxt-dlya-bloga-wordpress.htm В теории идея просто отличная, на практике тяжело сказать. Страницы категорий в индексе, но проблема в том. что я таки пару категорий закрывал и недавно нашел закрытую категорию в индексе. Белиберда. Яндекс не слушается или я robots.txt неправильно написал. Может кто советом помочь?

    Ответить
    • АлаичЪ

      У меня так же, главная страница сайта — статичная, а записи блога выводятся на другой странице. Никакого дублирования нет, просто надо правильно настроить сам движок и плагин All In One Seo.

      А ваш robots.txt (судя по написанному в вашем посте) просто ужасен — куча лишней лабуды, которую можно и не прописывать и при этом поведение роботов не изменится.

      Я считаю так — качество сайта можно легко оценить по robots.txt, чем меньше там всего написано, тем лучше. Следуя выводам моего поста — метатег noindex предпочтительнее, вот этим тегом и надо закрывать страницы от индексации.

      Ответить
  17. Дмитрий (44 комм.)

    Александр, через сколько времени примерно появится третья часть руководства по оптимизации DLE?

    Ответить
    • АлаичЪ

      Ох, хороший вопрос. Все пытаюсь собраться с мыслями, насобирать на полноценный пост.

      Так что пока не могу сориентировать по срокам. Но идеи классные, стоит ждать ;)

      Ответить
  18. tarin (5 комм.)

    Жду так же продолжения по оптимизации

    Автору спасибо за полезные статьи, некоторые вещи есть которые мне пригодились, о которых знала, но как-то не применяла.

    Сейчас все рекомендации учтены на 2 сайтах (1 сделан с нуля, второй 6 месяцев в индексе) о результатах если будет интересно отпишусь через месяц

    И еще возможно не по теме. Есть сайт и сделав анализ нашла на других ресурсах оставленные ссылки на страницы которых у меня нет. В гугле "Инструменты для вебмастера" выдает как "Не найдено ‎(NNN)‎" на эти страницы и есть список сайт где проставлены эти ссылки. Ну страницы допустим можно закрыть в robotx или через вебмастер подать заявление на исключение, а как удалить ссылки с сайтов ссылающиеся на эти страницы. Ведь если есть ссылка с посторенего ресурса, то ее тоже надо удалить иначе она так и будет висеть в ошибках.

    Ответить
    • АлаичЪ

      Обязательно отписывайтесь о результатах, это очень важно для меня.

      Лучше поступить так — со страниц, которые не существуют, но на них стоит внешняя ссылка, сделать редирект на главную страницу сайта. И ошибок не будет и вес дополнительный на главную.

      Ответить
  19. umbra (2 комм.)

    Спасибо за пост!

    Можно еще раз уточнить? Если закрыл ветку node/add/ в робот.тхт, она не должна уже отображаться в разделе структура сайта в яндекс.вебмастере?

    А если все-таки отображается, это значит, что где-то яндекс видит на такие страницы ссылки? Но в индексе эти странице уже не участвуют?

    Ответить
    • АлаичЪ

      Не правильно, даже если страницы или разделы закрыты в robots.txt то они будут отображаться в структуре, так как робот их в любом случае загружает, но не индексирует, но имеет ввиду, что эти страницы существуют. Пропасть страницы из раздела структуры могут только в том случае, если на них не будет никаких внутренних ссылок.

      Примерно понятно?

      Ответить
      • umbra (2 комм.)

        Понятно, спасибо! Значит все нормально, ведь "Наличие и количество исключенных страниц не влияет на ранжирование сайта в поиске по запросам." Теперь спокойна.

        Ответить
  20. Евгений (2 комм.)

    Почему то раньше Яша хорошо индексировал сайт, а в последнее время из 846 проиндексированных страниц, в поиске 131. И хотя каждый день добавляется материал, количество не прибавляется(( С robots.txt вроде всё в порядке. Скажите, длина description может влиять на индексацию? Больше не знаю на что и грешить...

    Ответить
    • АлаичЪ

      Тут надо смотреть сайт, проверять метатеги, не запрещено ли где-то индексирование при помощи <meta name="robots" content="noindex">. Надо проверять нет ли полного/частичного дублирования контента и т.д.

      Причин может быть много, в том числе и не зависящих от вас.

      Ответить
      • Евгений (2 комм.)

        В "noindex" только ещё неопубликованный материал. Из-за этого же проблем не должно быть?

        Ответить
        • АлаичЪ

          Нет, это никак не может быть связано. Для неопубликованных материалов вообще будет выдаваться 404 ошибка всем, кто не имеет прав администратора.

          Ответить
  21. Axel (63 комм.)

    Отличная статья. Пользуюсь метатегами уже давно. Точнее с тех пор, как бывшая администрация сайта dlepro опубликовала свой модуль MetaRobots.

    На своем новом сайте пользуюсь вашим методом из новой статьи по оптимизации DLE.

    Спасибо :)

    Ответить
    • Axel (63 комм.)

      Посмотрел свои страницы с модулем MetaRobots и немного не доволен им. Там всем страницам, что не закрыты от индекации, модуль задает значение all. Модуль не позволяет скрывать страницы профилей, и соотвественно такие страницы автоматически получают параметр all. В общем не очень хорошо все получается.

      Сейчас на всех сайтах использую метот, приведенный в этой статье! Спасибо, АлаичЪ!

      Ответить
  22. Ольга (1 комм.)

    Подскажите, если Яндекс в панели мастеров пишет 3 600 000 загруженных страниц и из них в индексе только 100 тыс. это нормально?

    У нас стоит тег noindex на определенные ссылки, но он как я понимаю запрещает индексацию конкрентой ссылки, а не страницы http://www.oknamedia.ru/spage-recall/id-2903/section-detail.html

    Может посоветуете что-либо?

    Ответить
    • АлаичЪ

      Такая большая разница между загруженными и проиндексированными страницами — не есть хорошо. Я бы порекомендовал убрать внутренние ссылки на страницы, которые запрещены к индексации, тогда постепенно такая большая разница будет уменьшаться.

      Так же рекомендую запрещать страницы от индексации не через robots.txt, а как раз через метатег robots.

      Ответить
  23. Татьяна (3 комм.)

    Подскажите, пожалуйста, а как закрыть от индексации страницы "postcard", "download". Дело в том, что когда захожу в картинку, внизу есть 3 кнопки "eCard", "Download", "Download", соответственно, у меня проиндексировалось множество страниц "Отправить электронную открытку", нашла также несколько проиндексированных "Download", удаляла их вручную через панель вебмастеров.

    Заранее большое спасибо за помощь!

    Ответить
    • АлаичЪ

      Прописать в robots.txt такие директивы:

      Disallow: /postcard

      Disallow: /download

      Ответить
      • Татьяна (3 комм.)

        Спасибо большое за ответ.

        В robots.txt уже прописана директива Disallow: /postcard*, но гугл, как ни странно, продолжает снова и снова индексировать подобные страницы, может, я как то директиву неверно прописала (нужна ли звездочка, сомневаюсь)?

        Либо, может, нужно прописать в robots.txt директиву Disallow: /eCard* (т.е. как название самой кнопки)?

        Извините, пожалуйста, за глупые вопросы, я только осваиваюсь с настройкой.

        Ответить
        • АлаичЪ

          Звездочка на конце означает любой символ/символы, в данном случае они ни на что не влияет.

          Если у вас на эти страницы стоит ссылка, то, разумеется, Google будет индексировать эти страницы, в данном случае страницы будут индексироваться, но в основной выдаче показываться не будут (по крайней мере, не должны).

          Варианта всего два:

          — Удалить ссылки вовсе

          — Закрыть ссылки тегом rel="nofollow"

          Ответить
  24. crazy (3 комм.)

    Мне сильно кажется, что гуглу абсолютно наплевать на какие либо запреты индексации. Если зайти в Гугл инструменты для веб мастеров, то можно увидеть множество ссылок на свой ресурс от сайтов, где ссылки закрыты.

    Ответить
    • АлаичЪ

      Как бы там ни было, страницы, закрытые метатегом robots точно не индексируются и не попадают даже в доп. выдачу.

      Ответить
  25. Татьяна (3 комм.)

    Я тоже подозреваю, что Гуглу все равно что закрыто в robots.txt, что не закрыто. В индекс попадает все подряд, и даже после чистки страниц через панель вебмастеров, остальные подобные станицы также влетают в индекс.

    Метатегом, к сожалению, нет возможности закрыть индексацию таких страниц, как postcard, download и пр. Движок использую 4images, и получается, что в корневом каталоге есть файлы postcard, download, но с расширением php. если же залезть в используемый шаблон, то там есть такие файлы postcard, как например postcard_create.html, postcard_preview.html, postcard_send.html. но в данных документах отсутствуют разделы "head" и "body".

    Может кто-то знает, что можно сделать в этой ситуации... Буду очень благодарна.

    Ответить
    • АлаичЪ

      Как я и говорил, robots.txt не закрывает ничего, это даже обсуждать не имеет смысла.

      А на счет вашей ситуации, никто не подскажет, на словах это невозможно, надо смотреть код, движок или что у вас там...

      Ответить
  26. Юрий (1 комм.)

    Подскажите пожалуйста, как удалить мета-тег noindex, я просто очень плохо разбираюсь в этом деле! Спасибо!

    Ответить
    • АлаичЪ

      Возьмите да удалите! Откуда я знаю, как его удалить, если даже понятия не имею, что у вас за CMS и CMS ли вообще...

      Ответить
  27. Дмитрий (1 комм.)

    Здравствуйте!

    Я не такой специалист по роботам как Вы, но как мне кажется спрятать от робота или от другого нежелательного посетителя некую страницу можно с помощью "рефера", который возвращает html-заголовок запроса. Т.е. сравнив с базой и вернуть код ошибки, перенаправить или еще что нибудь?

    Но вопрос остался: как же влияют на индексирование внутренние ссылки, а две и более на один ресурс? И нужно-ли оставлять на главной странице только одну ссылку на внутреннюю страницу или повторные ссылки целесообразно баннить?

    Ответить
    • АлаичЪ

      Не понял про реферер. Зачем нам возвращать ошибку или иной, отличный от 200 ответ сервера? Тогда поисковики будут считать это ошибкой, а нам этого совсем не надо.

      Повторные (читай как одинаковые) ссылки на одну и ту же страницу/сайт не имеют смысла, так как будет учитываться только первая ссылка. Целенаправленно я с этим не экспериментировал, но знающие люди, которым я склонен доверять, говорят что это так.

      Ответить
  28. Leonardo (2 комм.)

    Есть один сайт у которого более 150 внутренних ссылок на странице, я его добавил в GGL и там частенько приходят заявки с таким требованием:

    Внутренних ссылок не более: 100

    Подскажите как на DLE сделать меньше внутренних ссылок?

    Ответить
    • АлаичЪ

      Удалить внутренние ссылки =)

      Ответить
  29. HD Android (1 комм.)

    Я вот создал сайт, прошло уже больше месяца а в индексе поисковиков почему-то даже пока и не собирается появляться. Странно как-то. Гугл обычно мои прошлые сайты за сутки в индекс загонял. Единственное, что в коде недавно заметил строку <meta name="robots" content="noindex">, теперь поставил <meta name="robots" content="all">, но результатов пока к сожалению нет, чтож буду ждать пока что.

    Ответить
  30. X-only (13 комм.)

    Если бы не прочитал, даже б и не знал что столько тонкостей в этом роботе) Спасибо

    Ответить
  31. Станислав (2 комм.)

    Так а что лучше использовать content="noindex,nofollow" или content="none" ???

    Ответить
  32. Axel (63 комм.)

    У меня к какждой новости есть ссылка на файл, загруженный в аттач. В панеле яндекса показывается большое количество загруженных ссылок типа engine/download.php? (как вы поняли, движек DLE). Скажите, каким образом можно закрыть аттач? Не думаю, что nofollow тут идеально подойдет. Хотелось бы все это дело спрятать под JavaScript. Как сделать это? Может ли кто-то в этом помочь?

    Ответить
  33. Надежда (1 комм.)

    Здравствуйте.

    Анализируя свой сайт на cy-pr.com вижу, что в Гугле в индексе около 400 страниц, из них только 26 % не под фильтром. В принципе у меня на сайте учитывая все статьи, что я публиковала и найдется только около 120 страниц (то есть эти же 26%). Остальные что гугл находит — это просто дубли.

    В robots.txt вот что закрыто от индекса:

    Disallow: /cgi-bin

    Disallow: /wp-admin

    Disallow: /wp-includes

    Disallow: /wp-content/plugins

    Disallow: /wp-content/cache

    Disallow: /wp-content/themes

    Disallow: /trackback

    Disallow: */trackback

    Disallow: */*/trackback

    Disallow: */*/feed/*/

    Disallow: */feed

    Disallow: /*?*

    Кроме того в плагине All in One SEO закрыла от индексации рубрики, архивы и метки.

    Подскажите что не так? Почему все равно куча дублей? Или как вы писали Гугл все равно будет все индексировать и мне с этим ничего не делать? Плохо ли для моего сайта, этот показатель — что только 26% не под фильтром. Можно как-то убрать эти дубли, чтобы данный показатель увеличить или не стоит заморачиваться.

    Спасибо заранее за Ваш ответ.

    PS Дополнение к моему комменту:

    Просмотрела какие все же страницы там продублированы.

    Так это в основном такого плана:

    mamusja.ru/category/...

    mamusja.ru/page/4...

    Ответить
    • АлаичЪ

      Если страницы закрыты в robots.txt, то они все равно находятся Гуглом и попадают в дополнительную выдачу (как вы выражаетесь, под фильтр). Поэтому и надо закрывать страницы метатегом, тогда они не будут показываться Гуглом.

      А еще рекомендую вот этот пост прочитать — http://alaev.info/blog/post/4143

      Ответить
  34. Константин (2 комм.)

    Здравствуйте, у меня вот такой вопрос: Приобрел домен второго уровня и перестали индексироваться новые статьи, когда до смены домена статья попадала в индекс минут за 5, теперь же висят сутками... Вы не подскажете в чем причина? Заранее благодарен за ответ.

    Ответить
    • АлаичЪ

      Новый домен — это новый сайт. Надеюсь вы 301-редирект со старого домена на новый сделали? Если да, то надо просто немного подождать, пока поисковики "привыкнут" к новому домену.

      Ответить
      • Константин (2 комм.)

        Здравствуйте, спасибо большое за ответ, но я к Вам с новым вопросом. Не подскажите как — что проставить в настройках днс после делегирования блога на яндексе, уже не первый день бьюсь и не чего не получается... Вот здесь скрин http://s3.uploads.ru/UpSGQ.png, может что подскажете, что добавить, что убавить и т.д и т.п. И еще, надо ли что прописывать в днс у регистратора где куплен домен. Буду очень благодарен, если Вы поможете решить мою проблему. Уже столько форумов перелопатил, блогов, и не получается нечего...

        Ответить
        • АлаичЪ

          К сожалению, не подскажу. Но я уверен — ответ есть в разделах помощи Яндекса, если и там нет, то он быстро отвечают на письма с вопросами.

          Ответить
  35. Евгений (5 комм.)

    Доброго времени суток, Алаичъ... Всё очень круто и интересно. Все ваши рекомендации были применены на своём сайте, за что я Вам очень благодарен. Но недавно в панели вебмастера Гугл обнаружил два дубля главной страницы. Эти дубли выглядели так: http://site.ru/&blablabla. Проверил на вашем блоге, после первого слеша поставил эту козявку "&" и появился дубль главной. Что интересно, эта козявка должна стоять после первого слеша, в остальных случаях — 404 (норм). Есть ли решение этой проблемы? Спасибо...

    Ответить
    • АлаичЪ

      Во-первых, мой блог не на DLE, а на WordPress построен :) Кстати, о какой CMS вообще речь?

      Во-вторых, не надо на моем блоге "экспериментировать".

      В-третьих, я готовлю очередной пост, который будет полностью посвящен вопросам редиректов.

      Такие вот дела...

      Ответить
  36. Xnokie (10 комм.)

    А как запретить индексацию определенных участков страниц? К примеру мне надо скрыть <script type="text/javascript" src="{THEME}/js/socializ_3.js"></script>

    И

    <script type="text/javascript">

    // Добавить в Избранное

    function add_favorite (a) {

    title=document.title;

    url=document.location;

    try {

    // Internet Explorer

    window.external.AddFavorite (url, title);

    }

    catch (e) {

    try {

    // Mozilla

    window.sidebar.addPanel (title, url, "");

    }

    catch (e) {

    // Opera

    if (typeof (opera)=="object") {

    a.rel="sidebar";

    a.title=title;

    a.url=url;

    return true;

    }

    else {

    // Unknown

    alert ('Ваш браузер не поддерживает автоматическое добавление закладок. Нажмите Ctrl-D чтобы добавить страницу в закладки.');

    }

    }

    }

    return false;

    }

    </script>

    <a class="button-green" style="float:right;" href="#" onclick="return add_favorite (this);">В закладки</a>

    <li><a href="http://vk.com/club4328xxxx" target="_blank">ВКонтакте</a></li>

    И вот этот скрипт в фул стори

    <center><script type="text/javascript">socializ (encodeURIComponent (location.href),encodeURIComponent ('{title}'))</script></center>

    У меня обычный роботс:

    User-agent: *

    Disallow: /engine/

    Host: site.ru

    Sitemap: http://site.ru/sitemap.xml

    Ответить
    • АлаичЪ

      Чем же тебе скрипты помешали? Не надо до маразма доходить...

      Ответить
  37. Xnokie (10 комм.)

    Хорошо, а как тогда обычные ссылки скрыть...?

    Ответить
    • АлаичЪ

      Об этом в посте написано — http://alaev.info/blog/post/4042

      Ответить
  38. Emin (2 комм.)

    Напишите пожалуйста подробнее, и еще покажите пример куда нужно вложить код

    Ответить
  39. Алексей (3 комм.)

    Очень откровенно, но остались вопросы.

    Получается что я должен удалить записи из robots.txt и добавить на страницу тэги и это только для гугла. Но для яндекса получится что эти страницы открыты к индексации, ведт с роботса мы записи уберём?

    Ответить
    • АлаичЪ

      Метатеги одинаково понимают и Яндекс, и Google, и все другие поисковики, так что никаких проблем не возникнет.

      Ответить
  40. Дмитрий (44 комм.)

    А можно ли через мета-тег robots запретить индексацию админ. панели и страниц для печати? Знаю, что последние множно запретить в панели управления, но в исходном коде потом никак не отображается, что они запрещены.

    Ответить
    • АлаичЪ

      Учимся читать внимательно и до конца.

      Ответить
  41. Валерий (2 комм.)

    АлаичЪ,здравствуйте я новенький в seo, и может задам нубский вопрос,но всё же задам)

    <meta name="robots" content="noindex,nofollow">

    Насколько я понял это действие запрещает роботу индексировать страницу и следовать по ссылкам на этой же странице.А как же быть с перелинковкой??

    <meta name="robots" content="noindex"> rel="nofollow

    Робот не индексирует страницу но переходит по ссылкам и "вес" утекает (ссылки не для перелинковки) даже если использовать rel="nofollow

    Так что использовать то?

    Ответить
    • АлаичЪ

      А причем тут перелинковка? Надо линковать страницы, которые открыты для индексации, а не те, которые закрыты :)

      Ответить
  42. Антон (3 комм.)

    Нашел странный минус при использвонии этого мета-тега... Ни одна программа, которыми я пользуюсь для проверки битых ссылок, расчета весов страниц и т.д... просто не понимает этот мета-тег))

    Т.е. если директива была прописана в роботсе, то все ок, а вот с мета тегом — нет.

    Ответить
    • АлаичЪ

      Неправильными программами пользуешься значит :) PageWeight прекрасно метатег понимает и такие страницы исключает при показе результатов сканирования. И вообще, приличные программы позволяют локально задать robots.txt или настроить список исключений.

      Короче, это нифига не минус — это особенность :)

      Ответить
      • Антон (3 комм.)

        PageWeight — одна из них, вот общаюсь на эту тему с саппортом как раз))) Обещают исправить))

        Ответить
        • АлаичЪ

          Странно, PW Desktop имела проблемы с этим только в самых первых версиях...

          Ответить
  43. Владислав (2 комм.)

    АлаичЪ, спасибо Вам большое за эту и другие статьи. Уже сбился со счета, сколько раз задавая ПС какой-то вопрос попадал именно к Вам :)

    Сейчас у меня, наверное, уже девятый раунд битвы с "соплями" Гугли. Несмотря на все предыдущие попытки этот поганец сообщает о более, чем тысяче статей, из которых содержательный контент порядка 120 (большая часть из которых в ТОПе по целевым запросам). Хочется надеяться, что ни на что особо это не влияет, но лучше перебдеть!

    Прошу прощения, что много текста. Просто перечитал много, уже каша в голове. Пожалуйста, поправьте, если что неверно понял.

    1. директивы robots.txt Гуглу – глубоко фиолетовы. Он их просто игнорирует. При этом, если запрет индексации чего-то прописан в роботсе, то это вредит использованию прочих инструментов запрета индексации.

    2. запрет индексации архивов всех видов (авторы, даты, категории, теги) – лучше всего делается добавлением в functions.php темы оформления кода из статьи http://alaev.info/blog/post/4143

    3. feed-ы закрываются по рецепту из коментов к той же статье директивой is_feed ()

    4. дубли по ссылкам "Ответить" в древовидных комментариях закрываются в в Панели Вебмастеров Гугла: Конфигурация/Параметры УРЛ. Там на все переменные смело можно выбирать "Никаие URL". Важно: убрать запрет на подобные УРЛы из роботса. Пример: у меня давно запрещено сканирование с параметром "replytocom", также есть директива в роботсе Disallow: */?replytocom. При этом в выдаче находятся ссылки типа имя_сайта.ру/название_статьи/?replytocom=360 Причина этого в наличии псевдо-запрещающей директивы в роботсе.

    Но кроме вышеуказанных "соплей" с поразительной настойчивостью плодятся ссылки вроде имя_сайта.ру /wp-login.php?redirect_to=/название_статьи/ — они создаются при выходе/выходе зарегистрированных пользователей. А также имя_сайта.ру/название_статьи/comment-page-1/ Запрет их индексации в роботсте, естественно, результатов не дает. Каким рецептом стоит воспользоваться для этого случая?

    Ответить
    • АлаичЪ

      1. Гуглу не совсем все равно на robots.txt, но это запрещает индексировать(кешировать) содержимое страницы, но не url, следовательно этот url можно найти. Запрещать желательно только каким-то одним способом.

      2. Да, именно так.

      3. Может быть, но я их не закрываю и не уверен, что это делать вообще надо.

      4. Да. А я в свое время для борьбы с такими ссылками просто удалил ссылки из "Ответить", можно увидеть в исходном коде, что там нет href, а только onclick остался.

      5. Стоит прописать для wp-login.php метатег роботс вручную путем правки файла дистрибутива. Наверное так.

      Ответить
      • Владислав (2 комм.)

        Спасибо за ответ. Продолжу свою "борьбу с сопливостью" :)

        Ответить
  44. Стас (1 комм.)

    Да елки палки как так — роботы индексируют только вруб статьи до тега море а дальше нет — почему??????

    Ответить
  45. Casper (1 комм.)

    Привет! Наверное глупый вопрос задам, ну все же... Достаточно ли указать мета-тег только в index.php что бы не индексировалась папка admin или нужно прописать во всех файлах которые находятся в папке? Заранее благодарю

    Ответить
    • АлаичЪ

      Метатегом нельзя закрыть от индексации папку, метатеги только для страниц предназначены. Так что необходимо прописывать метатег для всех файлов. Но тут все зависит от структуры движка и того, как формируются страницы.

      Ответить
  46. Valorous (15 комм.)

    Александр, здравствуйте. Спасибо за пост. А я столкнулся с такой проблемой, где-то пол года назад на сайте http://www.makisalon.ru/ решил скрыть пустые страницы и страницы-дубли. В итоге на эти страницы прописал <META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">. В итоге на данный момент Яндекс выкинул из индекса более 1000 страниц. А у Гугла заблокированных урлов — 0. В чем может быть проблема?

    Ответить
    • АлаичЪ

      А кто сказал, что есть какая-то проблема? Какая проблема? Если в индексе есть все то, что необходимо, а то, что закрыли в индексе не находится — никаких проблем.

      Ответить
      • Valorous (15 комм.)

        То что закрыл, в индексе не находится только у яндекса, а гугл почему-то не выкинул из индекса страницы с noindex, nofollow, в этом проблема.

        Ответить
        • АлаичЪ

          Возможно они при этом еще закрыты в robots.txt? И эти страницы прямо в выдаче есть, а в сниппете что написано?

          Ответить
          • Valorous (15 комм.)

            В robots.txt ничего не закрыто, там только путь к sitemap.xml. В sitemap в свою очередь прописаны нужные для индексации страницы

            "User-agent: *

            Sitemap: http://www.makisalon.ru/sitemap.xml"

            Да, эти страницы есть в выдаче, в сниппете написан фрагмент текста.

            Ответить
  47. регина (1 комм.)

    Здравствуйте! По каким то причинам с лета уменьшилоь число страниц в поиске яндекс. Причем теги находятся в исключенных страницах — Документ запрещен в файле robots.txt

    Хотя в robots.txt я их не указывала http://apelcinchik.ru/robots.txt

    Никак не могу понять в чем дело. Вы не можете знать в чем дело?

    Ответить
  48. Shef-Povar (1 комм.)

    У меня в файле robots.txt закрыты от индексации категории (рубрики в моем случае) это нормально или лучше открыть к индексации их?

    Ответить
    • АлаичЪ

      Откуда мне знать, нормально или нет. Вы же их с какой-то целью закрывали, вот и надо понять — с какой?

      Ответить
  49. Александр (7 комм.)

    Здравствуйте. У меня перестали видится внутренние и внешние ссылки. Анализирую сайт на разных ресурсах — ссылки 0. Подскажите где искать причину. Спасибо

    Ответить
  50. Юрий (2 комм.)

    Здравствуйте. Читал много и везде. результат каша в голове. Прошу ответить на конкретный вопрос.

    Что писать в роботс что удалить только одну страницу

    http://газтехника56.рф/index.php/component/content/category/14-sample-data-articles

    Спасибо

    Ответить
    • Юрий (2 комм.)

      Если я пропишу

      User-agent: *

      Disallow: /index.php/component/content/category/14-sample-data-articles

      Это правильно?

      Ответить
      • АлаичЪ

        Это правильно. Для проверки есть полезный инструмент — http://webmaster.yandex.ru/robots.xml

        Ответить
  51. Роман (2 комм.)

    Алаич, подскажи как закрыть облако тегов от индексации при помощи данного мета тега?

    Ответить
    • АлаичЪ

      Речь о ДЛЕ? Тогда модуль DonBot вам в помощь.

      Ответить
  52. Алексей (2 комм.)

    Добрый день АлаичЪ!

    В первую очередь спасибо Вам за Ваш сайт. Вы пишите по существу, понятно и интересно! Жаль только, что в последнее время редко пишите... У меня есть несколько специфических вопросов по теме данной статьи. Уверен — Вы сможете помочь!

    1. Есть сайт с платным доступом. И достаточно много на всех страницах сайта ссылок на 1 страницу, на которой оформляется подписка. Т.е. вес со всех страниц так или иначе уходит на эту страницу с оформлением подписки. Как сделать по хитрому, чтобы этот вес потом возвращался на остальные страницы сайта? Сама страницы для индексации в поиске не требуется по сути. Поставить мета тег noindex? Или же оставить ее в индексе, но по максимуму с нее разместить ссылок на другие внутренние страницы сайта?

    2. Сайт adult тематики. Программисты сделали предупреждение о возрастном ограничении в виде отдельной страницы, повесив ее на site.com/index.php. При первичном заходе пользователя на ГЛАВНУЮ страницу сайта выходит site.com/index.php — страница с предупреждением о возрастном ограничении, и когда пользователь соглашается, происходит редирект непосредственно на страницу site.com (где уже основной материал сайта). Короче получились 2 разные страницы из одной главной. И все бы ничего, но Google склеил эти 2 страницы и выбрал за основную site.com/index.php — как итог важный материал с основной главной страницы сайта не индексируется и не апдейтится(((

    Подскажите, как грамотнее поступить в данном случае? Поставить 301 редирект с site.com/index.php на site.com, но я так понимаю site.com/index.php не будет вообще открываться и схема предупреждения перестанет работать? Прописать через rel=“canonical” основную страницу или вообще отказаться от страницы предупреждения на основе site.com/index.php, чтобы не вводить google в заблуждение?

    Ответить
    • АлаичЪ

      1. Я думаю, ничего особенного делать не требуется. Не стоит волноваться на этот счет.

      2. Правильнее было бы просто показывать модальное окно с предупреждением, ведь, по большому счету, это лишь формальность, верно?

      В случившейся ситуации я бы поставил rel=“canonical”, указывающий на site.com.

      Ответить
      • Алексей (2 комм.)

        1. Не волноваться — это ладно... Но Вы же сами пишите про большое значение веса страниц для Google с точки зрения вывода их в поиск. А так получается, что есть страница, которая тащит на себя вес в большом количестве со всех остальных... Поэтому и возникла мысль, как этим весом распорядиться по уму.

        2. Поставлю rel=“canonical” — спасибо!

        АлаичЪ, какое Ваше отношение вообще к закратияю страниц от индексации? Это скорее делать или не делать? На каждом сайте есть масса таких, казалось бы, не нужных для поиска страниц: обратной связи, логина, terms of use, страниц с выдачей поиска и т.д. Как с ними поступать?

        Ответить
        • АлаичЪ

          Если страница не нужна, значит стоит закрыть ее от индексации и по возможности не ссылаться на нее. Просто чтобы при изучении индекса данные страницы не мешались, но если их не много, то игра не стоит свеч. У вас магазин и на нем в сумме 10к страниц товаров, из них 10 страниц служебных, их наличие или отсутствие никак не скажется ни на чем. Такие вопросы нельзя разбирать теоретически, надо всего смотреть реальный пример и уже его обсуждать.

          Ответить
Оставь комментарий или спроси через Twitter →

· Малоинформативные комментарии или комментарии, не содержащие вопрос, удаляются.
· В поле URL оставляйте ссылку только на свой сайт/блог. Эта ссылка для админа, посетители ее не увидят.
· Любой html-код отображается в виде текста, любые ссылки неактивны.
· Для спаммеров - БЛОГ НЕ DOFOLLOW!!!