ComparseR — новый софт для изучения и проверки индексации сайта от АлаичЪ'а!

ComparseR - программа для изучения индексации сайта Привет, друзья! Сегодня я наконец-то готов представить вам свой новый софт для проверки и изучения индексации сайта. Взглянул на дату и оказалось, что с момент старта разработки прошло почти 3 месяца. А мне казалось, что про краудфандинг я писал совсем недавно. Планировал успеть все за месяц, но сначала увольнение с работы, организацией свой веб-студии, конференция и т.д. и т.п. Правда и с программой в этот раз я провозился долго, захотелось сразу все учесть вплоть до мелких подробностей, при том, что полностью рабочий образец был готов уже через 2 недели после старта.

Ну да ладно, не об этом сейчас речь!

Итак, новая программа называется ComparseR! Это название получилось из слияния двух слов Comparison и Parser, т.е. сравнение и парсер. В этом и есть вся суть программы: мы парсим сайт, парсим его проиндексированные страницы в выдаче и сравниваем эти данные между собой.

Все просто, но получилось очень круто, даже сам не ожидал. Сейчас все расскажу и покажу.

Друзья, рекомендую прочитать все, что написано ниже, пусть много, но зато все по делу: что умеет программа, как это работает и мои рекомендации. Но для лентяев просто оставлю тут ссылку на промо-сайт, там есть вся основная инфа и короткое описание.

Описание и основные возможности ComparseR

Главное окно программы выглядит примерно вот так:

Основное окно программы ComparseR

На данном скриншоте отображена основная рабочая область программы, где видны результаты обхода сайта краулером. Те, кто пользовался программами типа Xenu Sleuth, Netpeak Spider, Page-Weight, ScreamingFrog быстро разберутся, что к чему.

При обходе сайта, программа собирает следующие данные:

  • Код ответа сервера – чтобы определить 404 ошибки, внутренние редиректы и другие ошибки.
  • URL страницы – ну, тут все понятно.
  • Title страницы – очень важный параметр, всегда можно будет посмотреть, например, где дубликаты, а где title и вообще отсутствует.
  • Rel canonical – если на странице присутствует meta-тег canonical, программа сохранит его содержимое. Кстати, у меня есть большой пост про link rel=canonical, рекомендую прочитать.
  • Глубина парсинга – так я условно назвал количество кликов от главной до исследуемой страницы. Чтобы добраться до определенной страницы необходимо совершить 3 перехода по ссылкам от главной страницы, это значит эта страница будет иметь глубину 3.
  • Meta robots – если на странице будет найден метатег robots, программа сохранит его содержимое. Напомню, что и о мета роботсе я тоже писал большую полезную статью.
  • Файл robots.txt – здесь может быть только 2 значения Allow и Disallow в зависимости от настроек вашего файла robots.txt. Полезно для изучения закрытых от индексации частей сайта.
  • Источник – это адрес страницы, с которой был совершен переход (найдена активная ссылка) на исследуемую страницу.
  • Тип контента – полезно для просмотра и поиска не html содержимого сайта (архивы, файлы и т.д.)

Я посчитал, что этой информации достаточно для изучения индексации сайта. Но в то же время нет никаких ограничений в том, чтобы добавить какой-то новый параметр или характеристику страницы. Я с радостью выслушаю предложения и пожелания от всех пользователей программы.

Благодаря тому, что при обходе сайта программа не хранит все ссылочные связи всех страниц, как это делают другие программы, а только связку «текущий url – url источник» удалось добиться высокой скорости парсинга, низкого потребления памяти и возможности парсить сайты размером в миллионы страниц. Последнее напрямую зависит от объема оперативной памяти на вашем компе, по моим прикидкам, стандартный компьютер с 8 GB RAM сможет потянуть проект размеров в 2-3 миллиона строк. А вам слабо? :) Ради эксперимента я максимум собирал 700к страниц, а потом надоело, и я решил не мучать комп и остановил парсинг.

Для желающих есть возможность отправить в программу свой список страниц для обхода или же указать для проверки sitemap.xml.

Ниже основной рабочей области расположен лог программы, где фиксируются все важные события и ошибки, если они возникают. Пользователи программы FastTrust с этой штукой уже знакомы.

Справа от рабочей области есть окно со статистикой. Пожалуй, это самая ценная вещь! Программа классифицирует и группирует собранные данные. Например, программа может показать только страницы 404, или страницы по определенному типу контента, только индексируемые или не индексируемые страницы, страницы с одинаковым title или где title отсутствует вообще. Подобные отчеты доступны и для страниц, собранных из выдачи поиска.

А вот то, ради чего вообще вся программа затевалась изначально! После парсинга сайта и выдачи поисковиков можно будет посмотреть отчеты: страницы, которые были найдены на сайте, но отсутствуют в поиске и наоборот, страницы, которые нашлись в выдаче, но не были найдены при обходе сайта. Такие отчеты доступны отдельно для Яндекса и Гугла.

Благодаря этим отчетам вы сможете узнать, какие страницы вашего сайта индексируются, а какие нет. Но это банально, да ведь? Гораздо интереснее узнать, что есть в индексе такого, чего нет на сайте! Интересно же? Например:

  • Самый типичный случай – сменили структуру сайта или вообще создали новый сайт, а редиректы со старых адресов не прописали. Очень часто такое случается, когда в процессе не задействован оптимизатор, а разработчики и думать не знали про редиректы. Старые урлы сайта останутся в выдаче, и в лучшем случае будут выдавать 404 ошибку, а в худшем будут отдавать ответ 200 и создавать дубли!
  • Ненужные адреса страниц могут попасть в выдачу, даже если на них нет ссылок внутри сайта. Есть масса способов поисковику узнать о наличии страницы на сайте – браузер (Яндекс.Браузер пингует адреса в Яндекс, Chrome пингует в Google), дополнение/расширение/плагин (Яндекс.Бар пингует адреса в Яндекс), счетчик (Яндекс.Метрика, если не отключить соответствующую опцию, будет отправлять адреса на индексацию). Помните же историю с индексацией SMS-сообщений абонентов Мегафона Яндексом http://www.rb.ru/article/yandeks-raskryl-lichnuyu-perepisku-abonentov-megafona/6737357.html. Может быть и у вас есть страницы, не предназначенные для индексации, но уже попавшие в индекс?
  • Очень часто к адресам страниц «прилипают» параметры. Они могут генерироваться соцсетями, когда вы размещаете там ссылки на свой сайт. Для учета статистики рекламных кампаний ссылки стоит размечать при помощи UTM_ меток, это тоже параметры и они могут индексироваться. Если не использовать rel=canonical или не запретить в robots.txt индексацию параметров, то могут индексироваться полные дубли страниц, тем самым понижая основную страницу. Узнать это можно только изучив страницы в индексе.

На самом деле, подобных распространенных примеров можно привести еще штук 10, но это уже предмет отдельного разговора.
Давайте отдельно рассмотрим парсинг поисковых систем.

Парсинг выдачи поисковых систем Яндекс и Google

Когда вы переключитесь на вкладку «Яндекс» и нажмете кнопку «Запустить», перед вами появится окно с настройками парсинга:

Настройка парсера выдачи Яндекс в программе ComparseR

Рассмотрим чуть подробнее:

  • Адрес сайта – тут все понятно, можете указывать в любом виде, с www или без www, с http:// или без, это не важно. Программа сама все поймет и начнет сканировать сайт.
  • Источник – крутая фишка! Для Яндекса можно получать данные из трех источинков. Поисковая выдача – обычный парсинг выдачи с запросом типа site:alaev.info, самый универсальный метод. Яндекс XML – парсинг выдачи через XML, быстро, эффективно, без капчи, нужен только доступ в xml.yandex.ru и наличие доступных лимитов. Яндекс Вебмастера – так же быстро и без капчи, но только парсить вы можете сайты, подтвержденные в вашем аккаунте, данные для доступа к которому вы можете указать в настройках.
  • Метод парсинга – как вы знаете, из поисковой выдачи можно собрать не более 1000 результатов по любому запросу. Для сайтов у которых страниц мало, нет никакой головной боли, а вот для больших сайтов возникает вопрос – что же делать? Действовать методом перебора. Для этого сначала надо спарсить краулером сам сайт, построить его структуру (вкладка «Структура» — «Построить дерево») и опираясь на эту структуру парсить сайт по частям. Метод интересный и сложный, имеет много особенностей, но это тема отдельного разговора, я этому посвящу специальный раздел на промо-сайте. Главное, что метод перебора позволяет в большинстве случаев обойти ограничение в 1000 результатов и собрать из выдачи бОльшее количество страниц.
  • Таймаут – задержка между запросами к поисковой выдаче. Для парсинга выдачи нужно ставить большие задержки, для парсинга XML можно ставить минимальные задержки, так же как и для парсинга Вебмастера, т.к. там нет капчи. Для облегчения участи, разумеется, предусмотрена поддержка сервисов антикапчи.
  • Ограничение количества результатов – вдруг кому-то покажется, что парсить надо не все, а только часть, или кто-то решит оказывать услуги по парсингу выдачи за деньги с оплатой за результат :) …я не знаю.
  • Сортировка выдачи – есть два варианта: по релевантности, когда показывается стандартная выдача, и по дате, когда свежепроиндексированные документы отображаются вначале. Кому-нибудь эта настройка будет полезной.
  • Регион поиска (код региона) – если вы не знаете код региона, можете начать вводить, программа автоматом определит город и подставит код, а можете сразу указать код сами.
  • Проверять дату сохраненной копии – да, программа может парсить дату сохраненки, что очень полезно, например, для того, чтобы понять, как часто переиндексируются страницы вашего сайта.
  • Учитывать правила регулярных выражений – с вашего разрешения, про регулярки я расскажу чуть дальше.
  • Проверка кода ответа сервера – при парсинге страниц из выдачи программа может одновременно пинговать эти адреса и смотреть, какой ответ отдает сервер. Очень полезно, чтобы узнать, нет ли несуществующих страниц в выдаче или каких-то проблем с сайтом.

Набор настроек зависит от выбранного источника данных (выдача, xml или вебмастер), где настройка неприменима, то она и не отображается, чтобы никого не вводить в заблуждение.


Схожими настройками обладает и парсер Google:

Настройка парсера выдачи Google в программе ComparseR

Основные отличия в том, что у Google только один источник данных – поисковая выдача. Так же в Гугле нет сортировки результатов по релевантности или дате, нет указания региона поиска (а нужна ли она?).

Зато в Google есть одна особенная настройка – «Показать скрытые результаты». Это supplemental index, в простонародье «сопли». Если эту галку установить, то в запрос добавится параметр &filter=0 и будут парситься не только страницы, находящиеся в основной выдаче, но вообще все известные Гуглу страницы сайта. Один из примеров использования данной опции: можно просканировать сайт, спарсить выдачу Гугла без показа скрытых результатов, а потом сравнить – сразу будет видно, какие страницы вашего сайта не попадают в выдачу и не ранжируются. При помощи отчета, показывающего страницы, найденные на сайте и отсутствующие в основной выдаче Google, станет понятно, над какими страницами на сайте надо поработать и придать им большей значимости. Если в этом списке окажутся важные страницы, значит это тревожный сигнал!

И есть еще одна, к сожалению, неприятная отличительная особенность Гугла от Яндекса – запрос к сохраненной копии для проверки даты кеша является равнозначным запросу к выдаче, то есть запрашивает капчу при любой подозрительной активности. Так что данную опцию стоит использовать с осторожностью, в отличие от Яндекса, где можно парсить «сохраненки» нонстопом.

Ну вот, программу вам показал, про парсинг поисковиков рассказал. Разве что до сих пор не показал настройки парсера сайта. Секундочку…

Возможности и настройки парсинга сайта

Вот так вот выглядит диалоговое окно настроек перед парсингом сайта:

Настройка краулера сайта в программе ComparseR

Все довольно стандартно, так что пробегусь по основным важным моментам:

  • Адрес сайта – понятно, количество потоков – понятно… Максимальное количество потоков в программе – 50, это более чем достаточно. Мои эксперименты показали, что такое количество потоков адекватно держит только один сайт – это vk.com :) На контакте можно упражняться с настройками программы сколько угодно, ничего не блокируется и работает быстрее, чем вы глазом моргнете. Для обычного рядового сайта хватит 5 потоков за глаза, а то и уменьшить придется, ну, в общем, все в ваших руках.
  • Следовать правилам мета robots и robots.txt – если галки установлены, то программа подобно поисковому роботу будет следовать правилам, и не будет индексировать страницы, запрещенные правилами. Если же данные галки сняты, то программа все страницы добавит в таблицу, но в соответствующих ячейках сделает соответствующие пометки о том, запрещена ли страница к индексации или нет.
  • Проверка изображений – кому-то может понадобиться такая штуковина, но я ее обычно отключаю, чтобы не занимать зря поток и память. Чем эта штука может быть полена – например, поиск на сайте битых картинок.
  • Учитывать атрибут rel=canonical – опять же об индексации, если галка стоит, то программа, заходя на страницу и видя там каноникал, отличный от адреса текущей страницы, не станет ее индексировать и заносить в таблицу, а перейдёт по каноническому адресу и проиндексирует только его.
  • Настройка, которая показалась мне интересной, это переход по ссылкам с атрибутом rel=nofollow. Поговаривают, что поисковик не должен переходить по ссылкам с nofollow, вы согласны? Тогда и программе можно запретить это делать, просто сняв галку.

И снова мы подошли к разговору о регулярных выражениях, откладывать больше некуда, давайте и про них я, наконец, расскажу.

Использование регулярных выражений

Есть в главном верхнем меню такой пункт «RegExp» — это оно, сокращение от Regular Expressions или Регулярные Выражения. Опция для более продвинутых пользователей, хотя пользоваться ей до безобразия просто, справится и школьник. Но не суть.

Есть два вариант использования регулярок: можно прописать правила исключения или правила включения (уж не смог я подобрать другого понятного антонима к слову «исключение»). Если вы пропишете правила исключения, то все url’ы сайта, подпадающие под правила не будут заноситься в таблицу и будут исключены. Например, вам не нужно сканировать какую-то категорию или раздел сайта, или определенные служебные урлы мешаются, тогда исключения – это то, что вам надо!

Включения – это прямая противоположность, вы задаете правила и согласно этим правилам в таблицу попадают только удовлетворяющие адреса страниц.

Дотошный юзер спросит, «Ха-ха, а чё будет если одновременно использовать и то и другое? А?». Ну как че! Этот момент, конечно же, был рассмотрен нами при проектировании. Если вы укажете одинаковые правила для включения и исключения, то программа будет работать впустую, т.к. программа сначала будет искать и собирать только адреса согласно разрешающей маске, а потом сразу же отбрасывать их, потому что они попадают под исключение. То есть по шагам это работает так – сначала ищем разрешающие совпадения, потом смотрим на исключающие. Так что одновременно использовать правила имеет смысл, когда вы хотите разрешить для проверки какой-то конкретный раздел сайта, но уже внутри этого раздела исключить какие-то его части – вот так будет правильно!

Еще одна важная вещь, которая была учтена при написании алгоритмов исключения адресов – это обход краулером запрещенных страниц. Все известные мне программы для сканирования сайтов действуют так: если url попадает под запрещающую маску, то он даже не попадает в очередь, а просто отбрасывается. У нас иначе, исключающее правило лишь отменяет запись адреса в таблицу, но не отменяет сканирование самой страницы и проверку ссылок на ней. Таким образом, сайт при любом раскладе будет просканирован целиком и полностью, но просто не все адреса будут записаны. Это очень и очень важно, если вы понимаете, о чем я!

Вот вроде и все об основных функциях программы.


Хотя напоследок я припас один секретик – в программе есть функция пакетного удаления url-адресов из индекса Яндекса! Для этой цели в панели вебмастера Яндекса есть специальный инструмент. Им можно пользоваться и вручную, только поштучно вбивать пусть даже 50 урлов задача не для слабонервных. Зато с ComparseR – только составил список, ctrl+c, ctrl+v, ок – все готово за три клика для любого количества адресов!

А можно попробовать, сколько стоит, как купить?

Конечно, у программы есть промо-сайт — parser.alaev.info — да-да, выдерживаю единый стиль в цветах и оформлении!

Стоимость одной копии программы составляет 2000 р. Правила и процедура покупки подробно описана на специальной странице. В этот раз я решил продавать по одной лицензии для активации одного компьютера, но и стоимость так же снизил.

And one more thing...
Та самая крылатая фраза, которую говорил Стив Джобс, когда в финале своего выступления хотел преподнести аудитории сюрприз. У меня тоже есть для вас сюрприз – ЭТО ДЕМО-ВЕРСИЯ!

Ну все, друзья, более я вас не задерживаю. Спасибо вам за внимание!
Надеюсь, я вас порадовал моей новой разработкой. Жду от вас вопросов, интересных предложений и других комментариев.
До связи!

Александр «АлаичЪ» Алаев
Александр «АлаичЪ» Алаев

Вот уже 18 лет я профессионально занимаюсь созданием и продвижением сайтов и 13 лет с удовольствием пишу в любимый блог. Создал заслужившие доверие в seo-сообществе программы FastTrust и ComparseR и известный сервис для проверки траста сайтов CheckTrust.ru.

В 2014 основал веб-студию «АлаичЪ и Ко» в Краснодаре: 1 место в рейтинге агентств интернет-маркетинга (Рейтинг Рунета), 2 место в рейтинге SEO-компаний (CMSmagazine), 12 место в рейтинге известность бренда SEO-компаний в России (SeoNews).

Выступаю на профильных конференциях (All In Top, SEO Conference, SEMPRO, Baltic Digital Days). Веду канал в telegram про seo и бизнес. SEO-специалист года 2019 и 2020 (Sape).

Профессиональный технический аудит и рекомендации по оптимизации вашего сайта.
Тот самый необходимый «фундамент» для успешного продвижения.

30 000 руб.

Комплексный подход к решению поставленных задач: достижение топ-10 и увеличение трафика на сайт. В стоимость уже включены полный технический аудит и оптимизация сайта.

45 000 руб.

У вас недостаточно знаний и нужны ответы на вопросы?
Интересует мнение эксперта или надо проверить подрядчика?
Вы задаете вопрос — я отвечаю!

10 000 руб./час

Проведу подробное исследование вашего сайта и основных конкурентов, опубликую материал на блоге для обсуждения и коллективного поиска новых идей.

70 000 руб.

Я начал запись своего обучающего курса по seo-продвижению.

В каждом видео я разбираю какую-то одну важную тему, и делаю это последовательно, в порядке, подходящем для изучения с нуля. Видео выкладываются раз в неделю – по средам. Я думаю, весь курс будет состоять из 50-70 роликов, так до конца еще далеко, а значит самое время подписаться и начать изучение вместе со мной.

В блоке слева всегда будет выводиться самое свежее видео курса. Ссылки: на мой канал, на плейлист обучения.

Комментарии: 125 Написать комментарий
  1. labfavna:

    спасибо! аналогов нет я так понимаю.

    • АлаичЪ:

      Да, аналогов я не видел, не знаю таковых. Если найдете что-то подобное, дайте знать :)

  2. Грац с релизом! :) Был бета тестером FastTrust и ComparseR — буду и еще других от АлачЪ'а и Ко ^_^

    • АлаичЪ:

      Спасибо! Уверен, это не последняя моя программа, так что еще обязательно что-нибудь потестим :)

  3. Саша, добавь в парсер инфу по количеству на странице тегов h1-h6, а то ни в одном паблик парсере этого нет. В НетПике только h1, в лягушке h1-h2. Для проверки индексации оно не критично, ясное дело, но при проведении аудитов может быть ползено.

    • АлаичЪ:

      Просто количество тегов H1-H6 на страницах?

      • Раз уж софтина все равно получает контент [условно] всех страниц, то можно прикрутить некий "seo анализатор контента". Вроде автоматического определения фокус-слова для страницы, присутствия ее в title/description/keywords/h1-h6/тексте страницы; вывода некоего значения общего соответствия конента страницы фокус-слову, в процентах.

        • АлаичЪ:

          Это уже что-то из другой оперы. Иногда глазами-то сложно определить то, о чем вы говорите, а уж как-то автоматически — это еще менее точно, чем гадание на кофейной гуще :)

  4. Иван:

    Для Гугла стоит добавить возможность выбора регионального домена: google.ru, google.com.ua и другие. В них выдача разная, для жителей всех стран кроме России — это очень нужно.

    • АлаичЪ:

      Да, это есть в планах, добавим обязательно. Так же как и добавим парсинг yandex.ua, например.

  5. Михаил:

    Не совсем понятно зачем платить 2000 рублей при бесплатных Xenu Sleuth и пр.

  6. Иван:

    Добрый день. Вопрос следующего типа. Находит ли программа поддомены. У меня проблемма, что в выдачу попадают не мусорные урл, а целые сайты-дубли на поддоменах...из-за кривых рук программиста. Возможно ли найти поддомены? Спасибо.

    • АлаичЪ:

      Пока целенаправленно домены исключаются. Но сделаем настройку парсинга при которой домены не будут исключаться из выдачи!

  7. АлаичЪ:

    Спешу сообщить, что обновили и перезалили дистрибутив демо-версии! Теперь работает.

    Еще раз прошу прощения за такой нелепый косяк!

  8. Макс:

    Подскажи, как получить список страниц, которых нет в индексе яши или гугла? Какая должна быть последовательность действий?

    Сначало crawl потом поисковоик, а потом в сайдбаре обновить данные и смотреть уже в строке не в индексе?

    При crawl или парсинге поисковика, система спрашивает стереть ли данные — и соотвественно чистится везде, или я что-то не так понял7

    • АлаичЪ:

      Парсим сайт, парсим поиск — можно парсить одновременно параллельно сайт, Яндекс и Google. При первом запуске стереть данные не просит. Не забывай переключать вкладки "Краулер", "Яндекс", "Google".

      После этого в сайдбаре обновляешь статистику и смотришь отчеты.

  9. Супер, FastTrust очень экономит время и деньги. Надо будет и этой прогой обзавестись :)

  10. Alex:

    Бро ну наконец-то! ))) Красивая иконка ура! )))

  11. Поздравляю!

    Очередная полезная программа.

    Надеюсь это только начало и дальше перерастёт в сервис!

    Саш, либо я что-то не понял, либо демка не имеет ограничений. я уже отметку в 2000+ страниц прошёл.

    • АлаичЪ:

      Спасибо!

      Так же надеюсь на сервис в будущем :)

      PS Для парсинга своего списка страниц или sitemap.xml ограничений нет, однако, скорее всего, они появятся в будущих релизах так же.

  12. Артём:

    А для тех кто участвовал в краудфандинге? Когда будет разослан софт в обратном письме, после того как выслали свои HID?

  13. flexpk:

    Можно поподробнее об отчёте "Страницы, найденные в Яндексе, но не обнаруженные на сайте"?

    Не совсем понятно предназначение этой информации. Это просто лишние страницы в индексе, которые следует закрыть от индексации?

    Кстати, в демке некоторые страницы анализируемого сайта из этого отчёта нормально открываются.

    • АлаичЪ:

      Это страницы, которые не удалось найти при обходе сайта. Вариантов такого поведения несколько:

      1. Это страницы попавшие в индекс по ошибке или в результате какой-то ошибки, которая была поправлена, но ее последствия остались.

      2. Страницы оставшиеся от какой-то старой структуры или старого сайта.

      3. Вдруг у вас на домене кто-то дорвей замутил, а вы не в курсе? )

      Вариантов вообще дофига!

      Чаще всего найденные в отчете страницы подлежат удалению. Главное понять, почему они есть в выдаче, а на сайте не находятся.

  14. flexpk:

    Было бы замечательно, если на вкладке Структура было отмечено количество и/или доля проиндексированных страниц по каждому разделу.

    Очень полезная прога. Респект!

  15. flexpk:

    И экспорт Структуры тоже бы не помешал :)

    • АлаичЪ:

      В каком виде это должно экспотироваться? Прям вот так же, как оно выглядит в программе, только перенести в таблицу Экселя?

      • flexpk:

        В идеале, как в программе — с развёртыванием разделов. Но, не понятно пока, как это можно реализовать в экселе.

        • Артём:

          Я думаю в экселе будет геморно. Может сделать в таком случае, на базе HTML. Там легко и просто, можно сделать вывод информации в новом окне по нажатию на интересующую нам ссылку.

          (На словах конечно просто, но я не программист, возможно сама реализацию будет сложно)

          Но это всё моё мнение, вдруг послужит толчком к идее.

          • АлаичЪ:

            Записал, обсужу с разработчиками. Они точно скажут, как и что можно реализовать, а что нет.

  16. alex13:

    Проверка индексации методом ввода урлов из списка в Яндекс по одному есть/планируется?

    • АлаичЪ:

      Можно точнее? Хочется видеть форму, куда указываешь URL'ы жмешь кнопку проверить и они начинают пинговаться, так? Или как-то иначе?

      • alex13:

        Примерно так, да.

        Загружаешь список в программу и урлы проверяются по очереди простым вводом урла в Яндексе. Есть на первом месте — значит страница в индексе. Это более точный метод, чем site:, если верить сеошникам викимарта.

        • АлаичЪ:

          Поштучно то надо оператором url: проверять.

          Ладно, сделаем такую возможность.

  17. Sergey:

    Привет!

    А на Mac OS под VMWare заведется?

    Возможна ли смена HDID? Дело в том, что иногда, VMWare меняет ID системы, что крайне неприятно. И если с кейколлектор эта проблема решается автозаменой HDID, то как быть с этой программой?

    • АлаичЪ:

      Заведется или нет, стоит поюзать демку. Но FastTrust под виртуалкой нормально идет, так что и эта программа пойдет.

      Смотря какие ID система меняет. Если что, договоримся о замене. Автозамены у нас пока нет.

  18. Артём:

    Такой вопрос, сейчас решил протестировать ДЕМО версию. На сайте где-то 500 новостей. Следовательно, должно быть 500 ссылок. Но так как я использую демо версию, 300 это потолок. А в чём тогда может быть причина, почему всего только 244 страницы в результате оказалось а не 300.

    Это не претензия, а интерес.

    • АлаичЪ:

      Мне тоже интересно. Это парсинг сайта именно? Не выдачи? А можно адрес в студию?

      • Артём:

        Да, это именно парсинг самого сайта. Я вам в ВК урл скину.

        • АлаичЪ:

          Интересная особенность. Я выяснил, если включить в проверку изображения (галка "Проверять изображения"), то будет ровно 300.

          • Артём:

            Так а смысл с изображениями, когда должно быть 300 к примеру ссылок?)

            Мне вот просто интересно, в полной версии в моём случае тоже будет 244 показывать)

            • АлаичЪ:

              В полной версии нет никаких ограничений, хоть 5 млн спарсит, хоть 10, если комп потянет!

  19. Артём:

    Было бы круто, сделать мини поиск (по парсингу) в программе.

    К примеру, чтобы не искать нужную страницу (в ручную, скролить), чтобы посмотреть её анализ, просто ввести часть или полностью её название, после чего выводится результат.

    К примеру как в кейколлектре.

    • АлаичЪ:

      Да, сейчас это есть, но надо более очевидным сделать возможность. Пока что просто жми правой кнопкой на заголовок столбца любого, там пункт "Show search panel".

  20. Иван:

    Добрый день. "После парсинга сайта и выдачи поисковиков можно будет посмотреть отчеты: страницы, которые были найдены на сайте, но отсутствуют в поиске и наоборот, страницы, которые нашлись в выдаче, но не были найдены при обходе сайта. Такие отчеты доступны отдельно для Яндекса и Гугла."

    Я немного не понял, мне нужно самому определить, что есть на сайте, а чего нет в поиске? Или это как-то визуально видно. Для 1000 страниц проверять и сравнивать, это сильно.

    • Артём:

      Отвечу за создателя.

      Сейчас проверил, да, пока нельзя создать отдельный отчёт — (к примеру, сохранить отчёт отсутствующих страниц в поиске) сохраняет весь проект...

      Было бы славно чтобы можно было сохранять)

      Программа показывает какие страницы есть в поиске, но нету на сайте и есть на сайте и нету в поиске. (Вы просто нажимаете на нужный раздел в статистике программы и получаете список.

      Советую вам скачать демку и протестить — так сразу всё поймете =)

      • АлаичЪ:

        Да, Артем все правильно сказал. Но есть одно но :) В обновлении 1.0.2 есть возможность экспорта данных, отображенных прямо сейчас на экране, соответственно, вы можете экспортировать данные по любому фильтру или отчету!

  21. Попробовал собрать страницы сайта методом Яндекс.Вебмастер — вернул 1000 штук.

    Через XML.Яндекс (сначала минимум запросов, потом обычный) картина такая:

    19:29:42 — Парсинг Яндекс завершен!

    19:29:41 — Ошибка выдачи Яндекс: Запрошен слишком далекий документ.

    19:29:41 — Парсинг Яндекс (*****.ru/*)

    19:29:41 — Парсинг Яндекс запущен...

    19:28:50 — Парсинг Яндекс завершен!

    19:28:49 — Ошибка выдачи Яндекс: Запрошен слишком далекий документ.

    19:28:41 — Парсинг Яндекс (Нашлось 8 тыс. ответов)

    19:28:40 — Парсинг Яндекс (*****.ru/*)

    19:28:40 — Парсинг Яндекс запущен...

    18:59:22 — Парсинг Яндекс завершен!

    Страниц на сайте — около 9 тысяч, собраных краулером. Я.Вебмастер показыват страниц в поиске: 8004.

    • А после попробовал простой метод (до 1000 страниц), ответ тот же:

      19:35:15 — Парсинг Яндекс завершен!

      19:35:14 — Ошибка выдачи Яндекс: Запрошен слишком далекий документ.

      19:35:14 — Парсинг Яндекс запущен...

      • И под конец — парсинг выдачи Я. Ввел капчу руками раз 10:

        20:14:21 — Парсинг Яндекс завершен!

        20:09:22 — Парсинг Яндекс (8 тыс. ответов)

        20:09:20 — Парсинг Яндекс (*****.ru/download*)

        Но ничего не собрал.

  22. А будет ли программа работать в линукс под wine?

    • АлаичЪ:

      Как на счет взять и проверить демку?

      Вообще, думаю, что под вайном не заведется. Хотя, может, вайн с тех пор, когда я его юзал в последний раз (в 2009) сильно улучшился, но не уверен в этом.

  23. Артём:

    А как часто планируете обновлять софт?

    • АлаичЪ:

      На первых порах, конечно, да. А так по мере выявления багов и предложения нововведений со стороны пользователей.

  24. Запустил демку, потестил на своем сайте — вместо тайтлов знаки вопроса, наверное с кодировкой траблы, как ее указать?

  25. Алексей:

    Сначала запускаю парсинг во вкладке краулер, потом яндекс.

    На вкладке яндекс и гугл кол-во страниц одинаковое (хотя в пс страниц в разы больше, чем показывает программа)

    Там по идеи должны показаться страницы, которые остались от старого сайта, но я их не вижу.

    Может я просто логику работы не понял, прошу помощи.

    • АлаичЪ:

      Из описания ничего не понятно. Если пошагово распишете, что и как делали на конкретном примере, тогда я смогу объяснить что и почему происходит.

  26. Алексей:

    Сейчас просканировал alaev.info, сначала краулером — там собрал 300 страниц.

    Потом пошел на вкладку яндекс, указал alaev.info — а мне добавляется туда страницы из моего первого проекта (создавал новый проект, я вообще хз как туда попали страницы)

  27. Такую вот ошибку выдало :(

    version 1.0.1

    UnhandledException

    Duplicated primary key.

    ...

    • АлаичЪ:

      Сейчас актуальная версия 1.0.3. А вообще мне надо знать обстоятельства, при которых ошибка случилась.

  28. Бла бла бла! Тестируем!

  29. Тестируем еще раз!

  30. Олег:

    Вчера оплатил, отписал на почту. В ответ — тишина. Дайте обратную связь.

  31. Олег:

    При сканировании сайта с указанием User Agent YandexBot, на выходе я должен получить количество загруженных страниц примерное равное количеству загруженных страниц по панели Вебмастера? Проверил на 2-х сайта, софт сканирует в разы меньше того, что я вижу по панели Вебмастера. Почему так?

    Поясню. В панельке ЯВ есть данные: количество загруженных страниц( для примера возьмем 100), количество исключенных страниц(для примера 50), страниц в поиске — 20. Вычитая из загруженных страниц исключенные мы получим сколько страниц в идеале должно быть в индексе. В нашем примере, их должно быть 50, но в индексе 20 (почему 20, а не 50 вопрос другой). Разве ComparseR не должен на выходе показать мне все урлы, со статусом 200ок, равное количеству «идеальному» в индексе по панельке? На практике этого не увидел.

    • АлаичЪ:

      Ничего подобного. Это просто выбор User Agent, и это говорит программе о том, что надо следовать правилам в robots.txt, которые прописаны для Яндекса (User-Agent: Yandex). И не более того.

  32. flexpk:

    Я придумал, как можно экспортировать структуру сайта — есть 2 варианта, оба через Эксель:

    1. По-умолчанию скрывать страницы с уровнем вложенности более одного. Эксель умеет скрывать строки и столбцы. При необходимости пользователь их можно раскрыть.

    2. Распределять страницы по столбцам в зависимости от вложенности страниц сайта.

    Мне кажется второй удобней. Буду признателен, если будет такая возможность.

  33. Заценим сие чудо.

  34. Дмитрий:

    Подскажи, пожалуйста, есть ли возможность как-то это исправить? KIS2015 удалил экзешник, назвав его PDM:Trojan.Win32.Bazon.a

  35. Дмитрий:

    Переустановил) KIS успешно еще раз завалил экзэшник в папке, куда он установился)

    • АлаичЪ:

      Удали идиотский антивирус, делов-то. В конце-концов, добавь в исключения.

  36. Дмитрий:

    Добрый время. Спасибо за софт.

    Вопрос:

    1. Сайт крупный (более 10 000) страниц. Прогнал краулером, хочу спарсить индекс гугла методом перебора (как я понимаю который работает по сформированной структуре). Начинает перебирать по разделам (работает антигейт). Происходит ошибка распознания капчи, парсинг останавливается и преходиться начинать все заново, в итоге из-за ошибки капчи не могу спарсить данным способом. Пробывал регулярками в "Совпадения" указывать определенные разделы (пример — site.ru/razdel/podrazel/.*), но парсер их игнорирует (в настройках галку включал). КАК БЫТЬ ? (если имеет значение сайт в зоне .by)

    2. В чем отличия между "метод перебора", и "метод перебора минимум запросов" ??

    3. Парсинг гугла по умолчанию как я понял идет на поиск в основном индексе? (/&)

    4. Пересканирование отдельных урлов влечет за собой неожиданно повторный обход сайта по каждой глубине, что занимает уйму времени. Как быть?

    5. Когда ждать подробной документации по настройкам?

  37. Дмитрий:

    И еще есть вопрос, работает ли такая логика:

    Запускаем парсинг сайта в одной ПС 1 метод

    Запускаем парсинг сайта в одной ПС 2 метод (предлагает перезаписать данные — отвечаем нет)

    Запускаем парсинг сайта в одной ПС 3 метод (предлагает перезаписать данные — отвечаем нет)

    Будет ли в таком случае собираться наиболее полная информация о данных в индексе в исследуемой ПС и не будут ли данные каким-то образом теряться с прошлых проверок?

    И осуществляется ли проверка дубли URL в списке при повторных запусках другими методами?

    • АлаичЪ:

      Совершенно верно. Я сам так делаю. Парсинг одной методикой, парсинг другой методикой, потом еще меняешь (для Яндекса) сортировку (по релевантности/по дате), потом еще парсишь из панели вебмастера. Ну, логика понятна. Это как раз и даст наиболее полную картину.

  38. Зашел на ваш блог от Борисова. Отлично, что есть такие люди в интернете, как вы! Пройдусь, почитаю информацию, она не будет лишней.

  39. Дмитрий:

    Привет! А скидок не намечается, хотя бы для пользователей "Фаста"?

  40. Евгений:

    Привет! Может я не до конца разобрался с софтиной, но некорректно определяется наличие страницы в Яндексе и на сайте. Открываю вкладку "Найдено в Яндексе, но не обнаружено на сайте", а на деле оказывается что на сайте страница есть. Для Гугла такая же беда.

    Предлагаю внедрить поддержку прокси, чтоб можно было парсить выдачу Гугла для больших сайтов (ну и Яндекса тоже).

    • АлаичЪ:

      Это значит, что при обходе сайта эти страницы не были найдены. На них просто нет нигде ссылок.

      В этом и дело, что страницы на сайте может быть и есть, но найти их невозможно пользователю — и это проблема сайта.

  41. Сергей:

    Привет!

    Сделайте генератор html карты сайта на основе собранных ссылок.

  42. Данила.:

    Это очень интересный инструмент, но не хватает очень важно инструкции. Допустим мы собрали пачку URLов, которых нет в индексе Яндекса. А как узнать причину? Почему именно эти URLы не проиндексированы? Хотя ссылки на них стоят и времени прошло достаточно. Почему Яндекс посчитал их недостойными индекса? Без этого смысла в программе не вижу т.к. все остальное делают другие программы, которые были указаны вначале статьи + netpeak spider и прочее.

    • АлаичЪ:

      >> Почему Яндекс посчитал их недостойными индекса?

      Подсказать, где ключи от квартиры, где деньги лежат? :)

      • Данила.:

        А в чем тогда смысл программы? Вычленить непроиндексированные страницы и всё? Я так полагаю, это всего лишь этап на пути к улучшению сайта и его полной индексации.

        • Данила.:

          Просто для сайтов с сотнями страниц такой инструмент не нужен. Можно все вручную легко проверить. Такой инструмент нужен для сайтов с десятками и сотнями тысяч страниц. Вот на примере своего форума могу показать подобный алгоритм. У него несколько сот тысяч страниц. Я собираю их список через Netpeak Spider. далее загоняю в плагин Wink'а для сапы (он работает автономно) и проверяю на проиндексированность. Далее списки отправляю в Excel и работаю уже там. Согласен, что программа упростит это, но опять же покупать ее только ради упрощения бессмысленно. Нужен инструмент (мануал и т.д.) который бы позволил дальше работать, вычленять причину непроиндексированности больших групп страниц и устранять эту причину. Либо я просто не понимаю философию программы и прошу ее прояснить.

  43. Евгений:

    Можно добавить возможность работы через несколько прокси, т.к. если Яндекс парсится вполне сносно, то Гугл после 300-500 пропарсенных страниц блокирует доступ.

    Можно добавить инструмент для нахождения страниц в дополнительном индексе Гугла. В принципе он есть — но так нужно парсить Гугл два раза.

    Недавно пробежался товарищу по сайту. Софт нашел много страниц которых якобы нет в Яндексе. При ручной проверке оказалось что в Яндексе они проиндексированы.

  44. Сергей:

    Почему то проверка страниц идёт не через XML а через обычный поиск

  45. Дмитрий:

    Александр, добрый вечер! Написал Вам по поводу смены HID. Ответьте, пожалуйста, на почту.

  46. Petr:

    Здравствуйте!

    Было бы неплохо включить сбор внешних ссылок.

    • Антон:

      Поддерживаю. информация по внешним ссылкам была бы очень кстати. Например, внешняя ссылка — страница источник.

  47. Алаичъ, а собирать исходящие ссылки с сайта программа не может? Не нашел в функционале.

  48. Andrew:

    Проверка в при включенных настройках Я.Вебмастера идёт через сканирование выдачи? Почему так?

    • АлаичЪ:

      Так не может быть, что-то сделали не так значит.

      • Andrew:

        joxi.ru/EA4pV5YhaBelAb

        joxi.ru/Vm6bVWYh7PeMmZ

        У меня вот уже недели две такое несовпадение. Раньше было всё в порядке. В чём может быть причина?

        При парсинге из Вебмастера должно ли отображаться в строке состоянии вот такое: joxi.ru/1A59V6YTQ3qnAE?

        Доступы в аккаунт Вебмастера в настройках программы верные.

      • Andrew:

        Для парсинга через Вебмастер нужно заполнять все поля в этой форме?

        parser.alaev.info/data/up...r_settings_1.png

      • Andrew:

        В вебмастере у меня 5809 страниц:

        при парсинге Вебмстера Простым методом (до 1000 стр) в строке состояния была указана цифра 5809, но в итоге было показано 890 стр;

        при парсинге Методом структуры — показано 7683 стр;

        при парсинге Методом перебора — показано 5094 стр.

        Как мне получить 5809 страниц в программе? Я не понимаю)

  49. Andrew:

    Аккаунт Я.Вебмастера был заблокировал за парсинг сайта через компарсер. Настройки не менял, такое в первый раз. Александр, такого раньше не замечали?

    • АлаичЪ:

      У меня было однажды. За совсем бесчеловечный парсинг наказали :)

      Надо писать Платонам с покаянием и обещанием более так не делать, в течение 2-3 дней разблокируют.

      Как вариант — делегировать права на сайт на левый аккаунт и парсить там, если заблокируют — не жалко.

  50. Антон:

    Здравствуйте.

    В обновлении 1.0.48 была представлена следующая возможность:

    "Добавлена возможность ручной проверки индексации страниц в Яндексе с использованием сервиса Яндекс.XML"

    Не могли бы Вы мне объяснить, как пользоваться данным функционалом.

    Например, могу ли я проверить любой список имеющихся страниц? Это должны быть страницы одного сайта или в списке могут быть любые страницы разных сайтов?

    Или эта функция применяется для страниц сайта. которые получены в процессе парсинга?

    • АлаичЪ:

      Меню — Настройки — Яндекс — Использовать XML...

      После этого выбираем нужные страницы, правой кнопкой тыкаем — Проверить индексацию...

  51. Игорь:

    Пробовал разные сайты на разных настройках (кроме xml). Парсит страницы в индексе Яндекса в кол-ве не более 900-1300 страниц. Как быть?

  52. Andrew:

    В программе есть строка в разделе ошибок "URL и rel="canonical" не совпадает". Почему это является ошибкой и почему они должны совпадать? Вроде как логично, что они должны быть разными, для этого их и указываем, чтобы вести на другую страницу, а не на эту же. Какой смысл вешать каноникал сам на себя?

    Или я просто не понял как реализована функция проверки этой ошибки в программе. Объясните плиз.

    • АлаичЪ:

      Это не ошибка, а предупреждение. Вдруг там ошибка при настройке. Каноникал для страниц на всякий случай надо ставить сам на себя, чтобы разные непредвиденные обстоятельства (например, параметры) не наплодили дублей.

  53. Так я так понял, что парсинг из yandex.ua и google.com.ua еще не возможен?

    Планируете добавить или нет?

  54. Дмитрий:

    Google не хочет парсить, антикапча не помогает —

    Ошибка: The remote server returned an error: (403) Forbidden.

    Трассировка: at System.Net.HttpWebRequest.GetResponse ()

    at Project.MainWindow.EchYSu8HDHmUHtQmQh (Object )

    at Project.MainWindow.vcYAE69D9 () in G:\Freelance\free-lance.ru\ComparseR\Project\Google.cs:line 588

  55. Кирилл:

    Пробую парсить сайт dveri-super.com краулером — ни в лоб, ни через sitemap, ни через задание списка страниц вручную — никак не удаётся получить список страниц сайта. В чём может быть проблема?

    • АлаичЪ:

      Очень странный сайт, там в верхнем меню ссылки не ссылки, сами посмотрите. Что-то с ним очень не то. А обращение к sitemap.xml блокируется сервером. Что это за движок или платформа?