Привет, друзья. Мне прилетела очень интересная задача – продвижение новостного сайта. Речь, как вы уже догадались, о сайте IRK.ru – главный сайт города Иркутска. (Главный, первый, крупнейший – это по моему личному мнению, так как говорить такое без ссылки на авторитетные исследования нельзя).
Обычно мы не работаем с информационными сайтами, но тут сошлись звезды: я сам из Иркутска, а поработать с таким сайтом – честь; просьба старого товарища; на сайте много ошибок и мне интересно в этом разобраться; хочу проверить насколько важна техническая оптимизация для новостного сайта – своего рода вызов!
Вам предстоит лонгрид с рассуждениями о жизни новостного сайта, анализа спроса, мнения посетителей и даже рекомендаций для редакции издания. И конечно, поговорим про техническую составляющую, ошибки, индексацию и вообще SEO для новостных сайтов!
Поехали.
Что значит продвижение новостного сайта?
Основное отличие новостного портала от привычных нам сайтов услуг, интернет-магазинов и даже инфосайтов в том, что у новостников фактически нет семантического ядра, так как нет страниц с постоянным интересом, а весь трафик событийный, связанный с происшествиями, личностями, местами, имеющий выраженный пик в день события. Хотя в нашем конкретном случае есть редкие исключения – разделы со стабильно высоким трафиком: афиша, погода, гид по городу и т.п.
У Ирк.ру немалая часть трафика идет из новостных агрегаторов, Яндекс.Дзена и Google Discover. А вот органический трафик в основном брендовый:
Состав трафика за последний год:
- 50% – органика (в основном брендовые запросы),
- 17% – Яндекс.Дзен и Google Discover,
- 13% – прямые заходы (говорят об авторитетности издания),
- 13% – переходы по ссылкам (говорят о цитируемости и, опять же, авторитетности).
Таким образом при работе с новостными сайтами важны:
- Сформированная редакция – необходим достаточный штат, чтобы выпускать большое количество новостей, разумеется, качественных в техническом и смысловом плане,
- Скорость реакции – надо стараться быть первоисточником,
- Цитируемость – вытекает из предыдущего пункта. Если вы первоисточник – будут ссылаться на вас,
- Авторитет издания – достигается за счет цитируемости, что есть следствие доверия, а как основа – достоверная информация и факты.
Как видите, каждый пункт следует из предыдущего, и в итоге все сводится к редакции.
Давайте посмотрим, что говорят о сайте Ирк.ру люди, живые пользователи сайта:
Для каждого сайта в панели вебмастера Яндекса есть отзывы (Вебмастер – Качество сайта – Отзывы), туда попадают отзывы непосредственно на сайт и подтягиваются отзывы об организации из Яндекс Справочника.
Негатив:
- Раньше был неплохой местный сайт. А теперь это болото с непонятными «Ыкспэртами» и тупыми ботами в комментариях
- Хороший ресурс, но некоторые материалы, иногда очень похожи на проплаченые. И я не имею ввиду рекламу.
- Новости, афиша, погода и т.д. Качество текстов иногда просто убивает
- Новости тормозят с выходом. Редакторы недоучки, вечно с ошибками пишут, смысл фраз иногда не понятный.
- Не совсем грамотные журналисты. Иногда заглядываю.
- Много рекламы, много заказных статей. Пропагандисты. Не объективны
- во многом- тупой копирайт...зачастую еще и безграмотный
- В новостях часто встречаются ошибки и опечатки. Некоторые новости кажутся заказными.
- Не всегда актуальная и своевременная информация, много пропаганды, часто встречаются грамматические ошибки
Позитив (и конструктив):
- Лучший сайт Иркутска. Всегда пользуюсь тут киноафишей!)
- Нормальный сайт. Где можно посмотреть новости и события города
- Удобный новостной портал, хорошая афиша в которой можно посмотреть все концерты, спектакли и т.д. на несколько месяцев вперед и помоему даже билеты купить можно.
- Свежие новости, афиша и мероприятия, концерты в Иркутске. С ирк.ру вы ни чего не пропустите.
- Региональный портал со всем полагающимися ему вещами — неплохая и оперативная подборка новостей региона, прогноз погоды, афиша, туристические места и прочим другим
- Хороший новостной сайт- новости ,погода,досуг, тревел,аналитика...пользуюсь часто...Над чем поработать — более тщательный выбор гостей для интервью и прямых линий, иногда появляются неоднозначные, спорные персоны, расширить обзор культурных событий в городе, улучшить качество фоторепортажей,подумать об организации обратной связи с читателями, кроме существующей через порой неадекватные комментарии к статьям...вообщем есть над чем ещё работать... Удачи.
- Информации много, но найти что — либо сложновато. Очень много рекламы. Но самый огромный минус--это интернет тролли, которые возомнили себя экспертами во всем.
Я выбрал некоторые комментарии посетителей, которые посчитал важными, так как они касаются непосредственно тех пунктов, что я перечислил выше (редакция, скорость, цитируемость, авторитет).
Людей, которые хотят написать что-то плохое, всегда больше. Но в негативном отклике важно услышать конструктивные нотки. В нашем случае, очевидно, есть проблемы с редакцией: качество текстов, грамматические ошибки, недостаточная осведомленность. Несколько раз отмечали скорость – не всегда события освещаются оперативно.
Есть люди, которые утверждают о том, что есть проплаченные публикации (не рекламного характера), какая-то пропаганда и подобные вещи, связанные с политикой. Сказать от себя лично (желательно еще и анонимно) легко, а жить в мире, где все связано, запутанно и зависимо друг от друга, особенно если ты крупный известный игрок – не легко. Я бы сказал – невозможно. Единственный известный сайт, который публикует то, что он хочет – Викиликс, но вы прекрасно знаете, чего это стоит организации и главному редактору Джулиану Ассанжу. Так что сюда я не лезу и считаю данный вопрос закрытым. Идеальной информации, которая нравится всем, – не бывает!
Из позитивных откликов можно выделить те проекты или разделы, которые надо поддерживать, развивать и улучшать: киноафиша, концерты, события, туристические места, достопримечательности города, аналитика, интервью с интересными людьми, фоторепортажи. Это нравится людям, они хотят такой контент. А еще это монетизируется (продажа билетов в кино через Рамблер Кассу). Людей все больше интересует визуальный контент, а на сайте я не нашел ссылку на YouTube (хотя я постарался и нашел канал tvoyirkutsk, но он выглядит колхозно, и не понятно официальный он или нет), я бы развивал это направление.
Это было большое вступление и размышления на тему, что же важно для развития новостного сайта. Но у нас есть другой интересный вопрос – а причем же здесь SEO, и зачем новостному сайту нужен seo-специалист?
SEO-оптимизация новостного сайта
Естественно, привычные seo-стратегии тут не нужны и работать не будут. Задача специалиста – оптимальное взаимодействие сайта с агрегаторами, быстрая индексация сайта поисковыми системами и, возможно, написание инструкций для редакторов, чтобы сайт хорошо выдавался по тем самым событийным запросам.
Чем же меня заинтересовал иркутский новостной сайт irk.ru?
Скажу честно – технической составляющей. На сайте просто капец сколько технических проблем. Это скриншот из программы ComparseR:
Именно это меня всегда привлекало в сайтах – полный треш внутри. И моя задача на данном этапе – сделать так, чтобы красного было минимум, а значит придется написать большую инструкцию по доработкам сайта для программистов.
Я сказал «этап», потому что постоянная работа seo-специалиста вряд ли потребуется, но есть ряд задач, которые надо решить. Первый этап – технический аудит – сегодняшний пост посвящен как раз ему. Следующий этап – коммерческий аудит отдельных проектов портала (та же афиша, обзор ресторанов и т.д.) – о нем мы поговорим в следующий раз.
Оптимизация и индексация
Анализ технического состояния сайта я всегда начинаю с парсинга сайта компарсером и изучения панели вебмастера.
По данным Яндекса, у сайта 488к различных страниц, из них качественных (но это не точно) 358к:
Но при обходе парсером уже на двадцатипятитысячной (как оно правильно пишется?) странице мне выпало сообщение, что программа достигла глубины 10 (кликов от главной внутрь сайта). Это говорит о том, что у нас проблема с навигацией и перелинковкой, ведь сайт в 20 раз больше, но многие страницы невозможно (сложно) найти, переходя только по ссылкам внутри сайта.
Статистика обхода говорит о том, что поисковые роботы сканируют в среднем по 10 000 страниц в день:
Такой у нас краулинговый бюджет, и это немало. Но на что он тратится?
Под графиками в таблице у нас такая ерунда:
А значит краулинговый бюджет тратится на бесполезные страницы бесконечных сортировок и еще черт знает чего. Все это надо исключать – избавляться и от страниц, и от ссылок, ведущих на них.
Если посмотреть в отчет «Страницы в поиске», мы увидим, что страницы болтаются туда-сюда – попадают в индекс, а потом вылетают.
Вот основные причины такого поведения:
Дополнительную проблему создали изменения структуры сайта, которые происходили без должного руководства сеошником. Как это обычно бывает: удалили раздел и забыли про него или поменяли маски url’ов и редиректы не настроили. А Ирк.ру пережил много изменений.
Вот тут и начинается наша техническая работа.
Технический аудит сайта
На сайте есть десятки тысяч страниц с кодом ответа сервера 400 BadRequest и это url вида https://www.irk.ru/comments/list/249/1334/?sort=asc, проблема заключается в параметре /?sort=asc в конце.
На всех страницах сайта есть модуль комментариев, а в этом модуле есть возможность их сортировки:
Каждая вкладка имеет свой url с параметром ?sort=, но при клике перезагрузки страницы и перехода на url с сортировкой не происходит. Все работает через AJAX, а значит и саму активную ссылку href="…"
нужно убрать. А то бедные поисковые роботы переходят по ссылке и получают ошибку. При этом ссылка ведет даже не на саму публикацию с новым параметром, а на модуль комментариев.
При дальнейшем анализе кода оказалось, что весь модуль комментариев подгружается динамически, а в коде страницы он представлен только блоком:
<!--comments--> <section class="comments j-comments-container" id="comments" data-link="/comments/list/199/27096/?sort=asc" data-sort="asc"> <a href="/comments/list/199/27096/?sort=asc" class="comments__loading j-comments-loader"> Загрузить комментарии </a> </section> <!--comments--> |
Поэтому краулер находил только параметры ?sort=asc, а ?sort=desc и ?sort=top не находил. Таким образом решений тут несколько:
- Желательное: выводить и кешировать содержимое модуля комментариев статично в html, а не динамически, так поисковые роботы смогут индексировать доп. контент к новостям. При этом написанное мной выше про удаления ссылок на сортировки актуально.
- Простое и быстрое: избавиться от конструкции
<a href="… " class="comments__loading j-comments-loader">Загрузить комментарии</a>
полностью, либо заменить ее на текст«Для отображения комментариев включите поддержку JavaScript»
(ниже я расскажу и покажу, что количество пользователей с отключенным JS близко к нулю и никому хуже от такого решения не станет).
Тысячи 404 ошибок связаны с:
- Прошедшими событиями (фильмы, кино, спорт, выставки, вечеринки). Пример:
https://www.irk.ru/afisha/cinema/20181019/43567/, https://www.irk.ru/afisha/exhibitions/20140106/23667/, https://www.irk.ru/afisha/sport/20110722/14580/ и т.д.
Я вижу тут парочку более элегантных решений, чем выдавать дефолтную 404 страницу (она предлагает вернуться только на главную):
- Первое: оставить 404 ошибку, но кастомизировать ее в зависимости от того раздела, где случилась ошибка. Например, если это 404 страница в разделе /afisha/cinema/, сообщать: извините, фильм, который вы ищете больше не показывают в кино, но есть и другие классные фильмы, а ниже карусель с актуальными фильмами (постер, название, ссылка не рецензию и комментарии). Количество отказов снизится, а счастье пользователя повысится.
- Второе решение: сделать 301-редирект на родительскую категорию по аналогии с предыдущим пунктом – если ошибка возникла в разделе кино, редиректить на основную категорию, на примере представленных ссылок это будут следующие родительские разделы:
https://www.irk.ru/afisha/cinema/ https://www.irk.ru/afisha/exhibitions/ https://www.irk.ru/afisha/sport/
- Второе с половиной решение: можно предыдущий пункт упростить, не категоризируя события (кино, спорт и т.д.), а все ошибки из афиши редиректить на главную страницу афиши — https://www.irk.ru/afisha/.
- Закрытыми заведениями (кафешки, клубы, рестораны). Примеры url:
https://www.irk.ru/obed/bar/establishment/23679/ https://www.irk.ru/obed/cafe/establishment/16565/ https://www.irk.ru/obed/catering/cafe/18325/
Делаем по аналогии: 301-редирект на родительскую категорию /obed/. - Несуществующими новостями и их «отростками» (возможно, теги, подкатегории). Примеры url:
https://www.irk.ru/news/20090928/barto/ https://www.irk.ru/news/articles/20130708/avenger/ https://www.irk.ru/news/duty/ https://www.irk.ru/news/persons/1/ https://www.irk.ru/news/subject/58/
Я бы делал 301-редирект на родительскую категорию /news/ для всех 404 ошибок. - https://www.irk.ru/wiki/ — наверное, на сайте был вики-раздел, но его удалили. Делаем 301-редирект со всех адресов /news/ на главную.
На сайте когда-то был форум, теперь его нет, а все страницы, связанные с ним, отдают код 410 Gone. Пример: https://www.irk.ru/forum/relax/bandy/64667/1189961/
410 Gone — необычный вариант и его используют намного реже, чем 404 Not Found.
А если мы перейдем по ссылке, увидим такую страницу:
И это примерно то, что я предлагал сделать в предыдущем пункте про киноафишу, когда людям, попавшим на несуществующую страницу, предлагается альтернатива вместо возврата на главную страницу.
Так как форум удален уже достаточно давно, что про него все и думать забыли, и чтобы не плодить ошибки, я бы их заменил на 301-редирект на главную страницу сайта.
Еще аналогичные умершие разделы:
https://www.irk.ru/job/ https://www.irk.ru/map/ https://www.irk.ru/pay/ https://www.irk.ru/sms/ https://www.irk.ru/tv/
Когда переделывали структуру адресов страниц, использовали 302-редиректы вместо 301, как это положено. 302-редирект – значит «временный», то есть страницы с редиректами не выпадут из индекса и будут мешать. Примеры:
https://www.irk.ru/afisha/20120802/17287/ -> https://www.irk.ru/afisha/cinema/20120802/17287/
https://www.irk.ru/guide/16891/ -> https://www.irk.ru/obed/restaurant/establishment/16891/
Все 302 редиректы надо заменить на 301.
Я обнаружил какие-то старые спецпроекты:
- https://www.irk.ru/bandy2014/ — минисайт, посвящённый ЧМ 2014 по бенди (хоккей на льду),
- https://www.irk.ru/2014/ — минисайт к НГ 2014,
Возможно это не все, и есть еще какие-то подразделы, пусть это определят в техническом отделе издания. Я бы не стал исправлять все кривые ссылки, ведущие на эти минисайты, и ошибки внутри них, а просто закрыл их от индексации.
Желательно применив на всех страницах <meta name="robots" content="noindex,nofollow">
, но как более простой вариант, добавив в robots.txt директивы Disallow: /2014
и Disallow: /bandy2014
На них нет трафика, так что можно не переживать, что случится беда, когда эти страницы выпадут из индекса.
Множественные дубликаты страниц, связанные с пустым параметром. Примеры:
https://www.irk.ru/afisha/articles/20190718/relax/ https://www.irk.ru/afisha/articles/20190718/relax/? https://www.irk.ru/news/flash/5446/ https://www.irk.ru/news/flash/5446/? https://www.irk.ru/obed/articles/20140114/fastfood/ https://www.irk.ru/obed/articles/20140114/fastfood/?
Знак вопроса обозначит начало перечисления GET-параметров в url-адресе, но в данном случае есть только вопрос, а параметров нет, потому что это ошибка. Но при этом поисковые роботы считают эти url разными страницами.
Причина – кривые ссылки в перелинковке. У каждой новости на сайте есть блок «Горячие обсуждения», куда выводятся публикации с наибольшим количеством комментариев, и ссылка там не только в заголовке, но и в строке с количеством отзывов.
Ссылка на новость — https://www.irk.ru/news/20200311/president/, а ссылка на комментарии к ней https://www.irk.ru/news/20200311/president/?#comments.
Видите, там есть якорь #comments, который должен перекидывать посетителя сразу к блоку обсуждения, но там стоит лишний вопрос, так что ссылка должна выглядеть так: https://www.irk.ru/news/20200311/president/#comments
Поисковые роботы не индексируют якоря ссылок, и знак решетки # для них не создает уникальный url, в отличие от знака вопроса.
Аналогичная история в блоке пользовательских новостей, например, на странице https://www.irk.ru/news/flash/?page=118
Отмеченные ссылки на комментарии идут с лишним знаком вопроса: https://www.irk.ru/news/flash/4522/?#comments
Для ссылок, где комментарии отсутствуют, вида https://www.irk.ru/news/flash/4516/?comments=1#comments
надо аналогично изменить конструкцию на https://www.irk.ru/news/flash/4516/#comments
, так как параметр ?comments=1 ничего фактически не меняет.
Страницы гида по событиям имеют три дубликата. Возьмем для примера выставку https://www.irk.ru/guide/23662/, где по умолчанию выводится описание события, но есть вкладка комментариев, которая имеет ссылку https://www.irk.ru/guide/23662/?comments=1
, а с нее можно вернуться к описанию по ссылке https://www.irk.ru/guide/23662/?review=1
, таким образом у нас три разных url к одному событию.
Надо сделать так, чтобы был только один базовый адрес https://www.irk.ru/guide/23662/ и весь контент грузился (содержался в html коде) на этой странице, а вкладки нужно переключать без перезагрузки страницы (обычные табы).
Чтобы из индекса адреса дубликатов пропали, надо сделать 301-редирект с url с параметрами /guide/23662/?comments=1 на url без параметров /guide/23662/
Это можно сделать следующим правилом в .htaccess
RewriteCond %{QUERY_STRING} ^comments= [NC,OR] RewriteCond %{QUERY_STRING} ^review= [NC] RewriteRule /guide/([0-9]{1,6}+)/ /guide/$1? [R=301,L] |
Но я оставлю выбор способов и методов на выбор программного отдела (я бы использовал в данном случае php-редирект по более строгим правилам соответствия).
На всякий случай оставлю тут ссылку на инструкцию по 301-редиректам.
Видя проблемы с дублированием и параметрами, я предлагаю реализовать на сайте вывод атрибута link rel=“canonical”, который поможет устранить непредвиденные дубликаты страниц.
Выводиться в каноникале должны строго абсолютные адреса страниц и не содержать в себе параметров. Например, на странице https://www.irk.ru/guide/23662/?comments=1 в коде должен присутствовать код:
<link rel="canonical" href="https://www.irk.ru/guide/23662/" />
Предлагаю попутно ознакомиться с теорией про атрибут link rel=“canonical” в моем блоге.
На сайте есть страницы пагинации, они реализованы через параметры:
https://www.irk.ru/news/blogs/?page=1& https://www.irk.ru/news/blogs/?page=10& https://www.irk.ru/news/blogs/?page=11&
Для этих страниц тоже можно и нужно внедрить атрибут link rel=“canonical”, который будет указывать на главную страницу категории, в нашем примере:
<link rel="canonical" href="https://www.irk.ru/news/blogs/" />
Если страницы пагинации и какие-то старые новости от этого перестанут быть легкодоступны для поисковых роботов, страшного не случится, ведь, как мы помним, старые новости трафика нам не приносят. Но как правило, каноникал не препятствует обходу неканонических страниц роботами.
А есть наоборот нужные нам разделы, где все страницы и элементы листинга должны индексироваться, но пагинации нет.
Возьмем раздел «Обед», где представлены разные заведения города https://www.irk.ru/obed/bar/:
Внизу листинга есть ссылка для динамической подгрузки элементов списка:
Но беда в том, что поисковые роботы не смогут этого подгрузить, а потому будут видеть только те элементы, которые выводятся на первой странице. Следовательно, в этом разделе и других каталогах на сайте, где используется такая система надо переделать постраничную навигацию под классику: «Страницы 1, 2, 3 …» Чтобы были у каждой страницы свой уникальный url, доступный роботу для индексации и обхода.
Это касается и всех подразделов внутри проекта «Обеды».
Еще разделы, где не хватает обычной постраничной навигации:
- Статьи — https://www.irk.ru/news/articles/
- Туризм — https://www.irk.ru/tourism/club/
- Афиша — https://www.irk.ru/afisha/
Нашел раздел, где постраничная пагинация есть — https://www.irk.ru/tests/ — если кому-то не нравится внешний вид такой навигации, есть альтернативное решение, которое не портит внешний вид и позволяет страницам индексироваться. Делаем постраничку, а потом div-контейнеру прописываем display:none;
— пользователи ничего не видят, а поисковики переходят по ссылкам. Все счастливы :)
Страницы заведений больше других нуждаются в индексируемом UGC (User Generated Content – контент, созданный пользователями) – то есть в отзывах. Например, https://www.irk.ru/obed/restaurant/establishment/23884/ — если перейти на вкладку «Отзывы», мы увидим активное обсуждение. А поисковик не увидит. Но такой индексируемый контент позволил бы карточкам заведений ранжироваться гораздо лучше и по дополнительным кластерам запросов.
Если сейчас title у нас такой: Антрекот в «Модном Квартале»
Мы могли бы его дополнить: Антрекот в «Модном Квартале»: отзывы, фото и меню заведения
Но если комментарии не будут индексироваться, то поисковик не поймет, что на странице есть отзывы, следовательно, и ранжировать страницу не будет.
В разделе «Туризм» некоторые объявления могут дублироваться в разных категориях. Например:
https://www.irk.ru/tourism/yp/bases/10483/ https://www.irk.ru/tourism/yp/hotels/10483/ https://www.irk.ru/tourism/yp/firms/10483/
Это одна и так же карточка, доступная по разным url. Надо придумать, как исключить такое дублирование. Как вариант – сделать link rel="canonical" так, чтобы он указывал на какой-то один основной адрес.
Некоторые события могут быть доступны по разным датам в афише. Например:
https://www.irk.ru/afisha/exhibitions/20200316/49397/ https://www.irk.ru/afisha/exhibitions/20200317/49397/ https://www.irk.ru/afisha/exhibitions/20200322/49397/ https://www.irk.ru/afisha/exhibitions/20200323/49397/
Все это одна и та же выставка «Выставка «Горизонт иллюзий» в Галерее Виктора Бронштейна» под разными датами. Как тут решить дублирование – не знаю.
Дубликаты title заголовков
- На сайте есть раздел анонсов https://www.irk.ru/afisha/announces/ который имеет подкатегории кино, вечеринки, конценты и т.д. с отдельными адресами:
https://www.irk.ru/afisha/announces/cinema/ https://www.irk.ru/afisha/announces/night/ и т.д.
И на всех этих страницах одинаковый title «Анонсы | Афиша Иркутска на IRK.ru».
Для основной категории такой заголовок можно оставить, а для подкатегорий уникализировать «Анонсы кино …», «Анонсы вечеринок …» и т.д. А можно и более творчески подойти к вопросу и сделать «Скоро в кино …», «Предстоящие вечеринки …» - В разделе новостей https://www.irk.ru/news/, у которого есть подкатегории
https://www.irk.ru/news/crime/ https://www.irk.ru/news/finance/ и т.д.
Одинаковый title «Новости Иркутска: экономика, спорт, медицина, культура, происшествия» — его надо уникализировать в зависимости от подкатегории. - Все страницы пагинации на сайте дублируют заголовок первой страницы категории. Несмотря на то, что мы будем прописывать атрибут link rel=“canonical” для всех страниц пагинации и это избавит нас от проблем с дублированием title, все равно я считаю нужным делать приставку в title с номером страницы. Например, для страницы https://www.irk.ru/obed/sweet/?page=44 заголовок вместо «Кондитерские и пекарни | Обед на Irk.ru: рестораны, кафе, бары Иркутска» должен стать следующим «Кондитерские и пекарни – страница 44 | Обед на Irk.ru: рестораны, кафе, бары Иркутска».
- На странице новостей https://www.irk.ru/news/ внизу есть календарь для просмотра архива новостей: Из этого календаря есть активные ссылки на категории по дате:
https://www.irk.ru/news/20200302/ https://www.irk.ru/news/20200303/ и т.д.
И у всех одинаковый title: «Новости Иркутска: экономика, спорт, медицина, культура, происшествия», а должен быть «Новости Иркутска за 3 марта 2020: экономика, спорт, медицина, культура, происшествия». То есть надо для уникализации подставлять дату в формате d B Y (это аргументы php-функции date, программисты поймут).
Не отходя далеко от вопроса, затрону H1: на страницах архива надо выводить вверху страницы заголовок «Новости Иркутска за 3 марта 2020», чтобы не только роботы, но и люди понимали, куда они попали. - В «Обеде» блок фильтров ведет на страницы, все они имеют одинаковый title с родительской категорией: Надо придумать и заполнить уникальный title для каждой страницы.
- Так бывает, что некоторые новости или публикации на сайте называются одинаково. За ними гоняться не имеет смысла, да и в масштабах большого сайта это не критично. Поэтому часть проблем оставляем в покое и смиряемся…
Отсутствует H1 заголовок
- На главной станице афиши https://www.irk.ru/afisha/ и во всех подразделах отсутствует H1 тег. Его стоит добавить, это будет и плюс к ранжированию, и для пользователей будет быстрее понятно, куда они попали, ведь подчеркивание ссылки в меню менее заметно, чем заголовок.
Как выглядит сейчас: Как это могло бы быть:
- Во всех подкатегориях афиши, разумеется, тоже должен быть H1 и он должен быть уникальным.
- А разделе гида по городу https://www.irk.ru/guide/ надо сделать H1 заголовок и делать его уникальным в зависимости от выбранной слева подкатегории.
Оптимизация краулингового бюджета
Сижу голову ломаю, а я правильно просклонял слово «краулинговый», не подскажете?
Для оптимальной индексации сайта надо избавляться от всех лишних ссылок, куда могут тыкаться роботы.
На сайте чтобы отвечать в комментариях необходима регистрация/вход. И под каждой публикацией есть две соответствующие ссылки:
При попытке регистрации нас перебрасывает на url вида https://www.irk.ru/auth/register/?next=/news/photo/20120315/mts/ с формой регистрации.
В robots.txt есть директива Disallow: /auth
, но роботы все равно будут ломиться по ссылкам.
А при нажатии на «Войти» нам показывается элегантная форма входа:
Я предлагаю сделать регистрацию аналогичным всплывающим окном, а не отдельной страницей, так будет удобнее.
А еще у меня есть ряд замечаний:
- Кнопки соц.сетей в форме входа не заметны, я только с третьего раза их увидел, а при регистрации их видно хорошо – наверное, потому что они цветные, как все мы привыкли. Так что я бы их заменил.
- При регистрации просят «E-mail», а при входе «Телефон или E-mail», надо к чему-то общему прийти в обоих формах.
Так вот я начал с того, что на страницах есть ссылки на регистрацию и вход. И так как они будут вызывать всплывающее окно, можно будет избавиться от ссылок href="…"
, а окно вызывать через JS.
Тут небольшое отступление на счет «а как же бедные пользователи с отключенным JS?!?!?». Да никак! Их не существует. Хоть кто-то из вас отключает js в браузере для целей отличных от тестирования каких-то технических нюансов? А люди, далекие от разработки вообще не в курсе про «яваскрипт» и то, как его отключить.
Взглянем правде в глаза на примере подопытного сайта:
У 99,9% пользователей (это 30,3 млн.) JS включен, а оставшиеся люди (40 тыс.) – это наверняка роботы. Так что не бомбите, пожалуйста.
В киноафише куча внутренних ссылок, которые есть, но никуда не ведут:
Выглядят ссылки следующим образом:
<a data-metrika-goal="cinema_buy_click_step2" title="Купить билет" class="timk j-afisha-kassy-rambler-link j-metrika-goal" href="javascript:ticketManager.richSession(53857405)"><time>08:25</time></a>
То есть без JS все равно конструкция работать не будет. И встает вопрос, зачем тут вообще ссылка?
Предлагаю изменить href
на onclick
, при этом все продолжит работать, а ссылка пропадет:
<a data-metrika-goal="cinema_buy_click_step2" title="Купить билет" class="timk j-afisha-kassy-rambler-link j-metrika-goal" onclick="javascript:ticketManager.richSession(53857405)"><time>08:25</time></a>
На сайте есть раздел народных новостей https://www.irk.ru/news/flash/, в который попадает в основном мусор, учитывая, что достаточно употребить хештег #irkru в Твиттере, чтобы твое сообщение появилось и на сайте irk.ru.
В разделе создается множество дублей страниц, лишних ссылок и прочего, что отвлекает на себя поисковых роботов и тратит краулинговый бюджет. Сами страницы при этом не имеют ценности и вылетают из индекса как недостаточно качественные.
Данный раздел и его внутренние страницы не являются точками входа для посетителей с поисковых систем, так что безболезненно весь раздел можно запретить для индексации:
- Желательно при помощи метатега
<meta name="robots" content="noindex,nofollow">
на всех внутренних станицах. - Альтернатива – добавить в файл robots.txt директиву
Disallow: /news/flash/
Вещь, которая относится не только сюда, я бы даже сказал, что она относится в большей степени к пользовательским факторам – скорость загрузки. И она действительно не очень, особенно на мобильных:
Сайт отрисовывается примерно за 2-3 секунды при стабильном интернете. Но на мобильных устройствах он не всегда быстрый и не всегда стабильный, что добавляет еще сколько-то времени.
А важно это еще потому, что почти 70% пользователей заходят на сайт с мобильных устройств:
Значит они читают новости по пути на работу или с работы, например, или на перерывах на обед.
Надо позаботиться об этих людях.
Еще низкая скорость очень заметна при парсинге сайта краулером – посчитайте, сколько времени я потратил на то, чтобы спарсить 43к страниц, отдающих 200 OK ответ сервера. Почти 12 часов я его парсил, два дня потратил (это исходя из расчета 1 страница = 1 секунда, на деле же все еще медленнее, даже при работе в несколько потоков)! И поисковые роботы испытывают те же проблемы. Вполне вероятно, что если бы сайт работал быстрее, роботы обходили бы в сутки не 10-15к страниц, а больше.
Аудит – разовая, но итерационная работа
Данный аудит не затрагивает все возможные известные и неизвестные мне проблемы. Это происходит из-за того, что на сайте сейчас огромное множество ошибок и найти их все сразу не получится, потому вносить правки надо постепенно – итерациями.
Решим глобальные проблемы, а дальше будем копать более мелкие проблемы, поэтому я отдаю аудит в текущем виде, а после сообщения от программистов, что все реализовано, я буду проверять корректность этих правок, а также искать новые проблемы.
Я не буду такими же итерациями дополнять и этот пост на блоге, во-первых, он и так уже огромный, а во-вторых, это просто не имеет смысла.
Моей главной задачей было дать вам пищу для размышлений, вектор действий, области, где могут скрываться проблемы.
Я попробовал приблизительно предсказать возможный результат предстоящей работы и в компарсере регулярными выражениями исключил все url, связанные с параметрами, техническими ошибками и т.д. Картина стала более оптимистичной!
Можете сравнить этот скриншот с тем, что размещен в начале поста.
Но задачу с перелинковкой надо все же решать. Просканировав 14к страниц, парсер уткнулся в глубину 10. А по-хорошему, весь сайт должен быть доступен в пределах этой глубины, чтобы качественно индексироваться:
Будем параллельно работать и над этой задачей.
Рекомендации для редакторов
Я решил собрать в данном разделе свои рекомендации, пожелания и предложения к руководству издания, редакторам и другим важным людям. Также озвучил свои идеи по дальнейшему развитию сайта и дистрибуции контента.
- Необходимо ставить в публикациях относительные внутренние ссылки. Например, вместо
https://www.irk.ru/news/20200309/ill/
использовать/news/20200309/ill/
.
Тогда при любых изменениях адреса сайта, поддомена или протокола проблем не будет.
Сейчас на сайте ссылки ставятся во всех возможных вариациях: http://www.irk.ru/, http:// irk.ru/, https://irk.ru/ и https://www.irk.ru/ — верный из них только последний. И чтобы не было таких проблем, надо ставить относительные ссылки.
Как вариант решения можно сделать поиск по таблице в БД, содержащей текст новости по маскеhref="(.*)irk.ru/(.*)"
и заменить наhref="/$2"
. Это довольно опасная операция, потому тестировать ее надо обязательно на тестовом зеркале сайта. - Изучить советы со стороны поисковых систем:
- Яндекс.Новости — https://yandex.ru/support/news/
- Google Новости — https://support.google.com/news/publisher-center/?hl=ru#topic=9603441
- Я бы обсудил бесконечную ленту новостей (пример можно посмотреть на сайте rbc.ru – заходим в любую новость и крутим вниз), чтобы читатель мог читать одну новость за другой, не совершая лишних движений. Это технический момент (реализация технологии), а обсудить тут надо по какому алгоритму подставлять новости в ленту.
- На многих новостных сайтах выводятся курсы валют, котировки и т.д. Люди все равно ходят посмотреть «че там доллар сёдня стоит», так можно показывать это у себя – еще один повод посетить сайт.
- Завести telegram-канал куда транслировать ссылки на новости. Это капец как удобно, да и популярность такого формата получения новостей растет с каждым днем. Никому не нужны эти «новости на e-mail», это устарело. Если не верите, можно сравнить рост количества подписок на почту и подписчиков в будущем канале.
Однако мне не известна ситуация с тем, что телега запрещена официально, и не возникнет ли у редакции проблем с властями из-за этого. Но у ria.ru, news.rambler.ru, lenta.ru и др. есть телеграмм-каналы и ссылки на них, значит проблем быть не должно. - Можно попробовать поработать с push-уведомлениями. Я их ненавижу, и я такой не один, но существуют сервисы, которые это монетизируют, а значит есть и спрос на эту технологию.
Я хотел написать намного больше пунктов, но потом подумал, ведь это лишь какие-то мои догадки, и они могут не совпадать с «политикой партии», то есть взглядом руководства. Поэтому просто порекомендую сотрудникам портала походить по самым популярным в нашей стране новостным сайтам, посмотреть, что и как они делают, какие у них есть спецпроекты, как они реализованы, что используется для привлечения и вовлечения аудитории. Я походил и нашел много чего интересного, а я как раз обычный посетитель сайта, значит…
Значит можно попросить посетителей сайта высказать свое мнение, предложить новые идеи и предложения. Даже если выскажется только каждый тысячный посетитель, будет целых 600 откликов за месяц!
Пожалуй, я все сказал на данный момент. Надеюсь, что и вам, друзья, теперь есть о чем подумать, даже если у вас нет новостного сайта.
Да, чуть не забыл, подобный публичный разбор сайта доступен всем (почти) желающим – подробности тут.
Спасибо за внимание. Пишите комментарии, задавайте вопросы.
До связи!
Кто будет внедрять рекомендации?
Технический отдел портала. Он там есть, да :)
Спасибо, весьма подробно
Реально ли получать траф новостей если писать 5-10 новостей в неделю (в отрасли больше нет)
Не знаю. А есть конкуренты какие-то работающие в этой же нише? Они что-то делают, получают трафик из новостей?
PS Я так полагаю, что раз отрасль такая непопулярная, то и трафика там много быть не может...
Статья как всегда объемная) и интересная. Интересные мысли были высказаны. Кстати, помимо канонических страниц я прописываю мета роботс яндекс ноиндекс в хэдере с того момента как яндекс начал часто игнорировать каноникалы. Что думаешь, Александр?
Спасибо за интересные статьи!
А что тут думать, действительно есть неоднократные случаи, когда Яндекс игнорировал каноникалы. Если бы речь была не про новостной сайт, я бы не стал закрывать постраничку, а уникализировал title и все разрешил для индексации.
Я об этом писал недавно даже: Пагинация и SEO.
Интересный материал, спасибо! Жду продолжения :)
Если оно будет :)
Как всегда очень интересный и понятный материал. Александр, а какой процент трафика именно с Я.Новостей и Гугл Новостей? У меня просто тоже новостной сайт, но с Google News ничтожный процент трафика.
Правильнее, наверное, говорить про Google Discover (тут количество визитов исчисляется миллионами в год) нежели про непосредственно news.google.com (который попадает в отчет по переходам с сайтов, тут всего пару десятков тысяч в год, что в общем трафике не составляет даже 1%).
Ну так себе, ничего нового. Провели тех аудит, нашли кучу ошибок и составили ТЗ для разработчиков. Кто работал с крупными сайтами СМИ и так это все знают) Ожидал увидеть более подробно о том как генерировать контент чтобы он больше привлекал трафика из поиска, как поддерживать свежесть, как делать лонгриды и прочее и прочее
Техническая оптимизация и корректность работы всего сайта — удел тех. отдела, программистов, сеошников.
Генерация контента, написание лонгридов и т.д. — удел редакции. Хотя согласен, что некие рекомендации должны исходить и от seo-специалиста. Но это уже за пределами данной публикации. Думаю, что мы рассмотрим это во второй части, если и когда она будет.
Александр, а также, что делать с не актуальными новостями?
Ничего, пусть болтаются где-то в анналах сайта.
Алекс, вот вам самый идеальный пример реализации пагинации + "показать еще" для поисковой оптимизации https://sport.tut.by/rubric/football/
пожалуйста
Ну вот, как раз то, о чем я и писал!
Спасибо за пример!
На мой взгляд, пагинация с последовательной шаговой URL адресацией для поисковых роботов переоценена.
Зачем плодить бесконечные последовательности добавочных урлов при пагинации новостных сайтов, если целевые URL-ы для конечных новостей можно и нужно генерировать в XML карте сайта?
XML карта никак не отменяет ссылочные связи внутри сайта.
Про отмену ссылочного речи вроде бы не шло. Тут встаёт другой вопрос — так ли важны ссылочные связи со страниц пагинации (ведь кол-во уровней вложенности может быть бесконечно много), тогда как гораздо более актуально использовать анкорное ссылочное, используя, например, сквозные анонсы, тематические новостные подборки, новостные теги.
Приветствую всех. А что думаете по поводу "Содержания в статьи" ссылочное. Вот как этот модуль например делает:
https://sandev.pro/web/129-avtomaticheskoe-sozdanie-soderzhaniya-stati-dlya-dle.html.
Не будет ли это для инфо сайта считаться переоптимизацией какой?
Не будет переоптимизацией. Я сам для некоторых статей делают такое оглавление (вручную).
Не знаю вот совпадение или нет, от яндекса прилетела метка (Малополезный контент, некорректная реклама, спам и т.д), которую никак не мог убрать (писал в ТП и т.п). После того, как убрал данный модуль (он был установлен пол года где-то), метку сняли автоматически, вот и закрались мысли в нем ли дело.
Если навигация действительно полезна для пользователей, этого бы не случилось. Так что склонен думать, что это совпадение.
Александр отличный гайд! ?
Спасибо за разбор, добротно, но действительно не полно. Справедливости ради, надо сказать — как правило, ничем путным подобным анализы для таких масштабных сайтов не заканчиваются. По совокупности (особенно, что касается ручной уникализации title и description), ввиду огромное объёма, всё это так и остаётся, а новые правила в формировании URL-ов могут создавать новые аномалии в адресации, уже новые ошибочные адреса и дубли. Также нередко возникает необходимость ручных редиректов и вот тут начинается ад, потому что страниц десятки и сотни тысяч.
Все эти этапные внедрения и модернизации необходимо тестировать на отдельном тестовом поддомене и, увы, в 9 случаев из 10 всё вяло спускаются на тормоза, потому как заказчик ожидает решения SEO вопросов за какие-то умеренные деньги и в разумные сроки, а перечень правом провисает неподъёмной глыбой и процесс растягивается как правило на долгие месяцы и нередко годы.
Приходится довольствоваться полумерами, тогда как изначально проектировать структуру сайта, правила адресации и т.д. и т.п. нужно с учётом рекомендаций SEO специалиста.
Добрый день, прекрасная статья! С нетерпением жду второй части)