главная > блог > SEO: Критерии качества текста для Яндекса

Качество по Яндексу или Почему Яндекс не индексирует статью?

В данном обзоре рассматривается такая причина неиндексации страницы Яндексом, как "некачественный контент": методы и инструменты определения качественности текста; приводятся найденные формальные пороговые значения, при которых текст может быть признан некачественным. Сразу конкретные значения:

advego.ru text.ru advego.ru advego.ru audit.te-st.ru audit.te-st.ru
ошибки glvrd.ru вода % вода % тош.класс. тош.академ. индекс Флеш фог
нормальный текст нет >7.5 <70% <15% <6 <9 от 30
до 50
от 8
до 9
сомнительный текст есть <7.5 >70% >15% >6 >9 меньше 30 больше 50 меньше 8
больше 9

Может быть несколько прични, почему размещенная на сайте статья отсутствует в индексе Яндекса:

1. Есть технические проблемы с доступностью статьи и робот Яндекса не может на неё попасть.
Решение: это к вебмастеру, пусть проверяет.

2. Статья технически доступна, но робот не посещает ее страницу, поскольку есть другие, более значимые для посещения робота страницы в рамках лимита сайта на посещения робота. Т.е. у робота "руки не доходят".
Решение: ставим прямую ссылку на статью с "важной" (часто посещаемой роботом) страницы.
Не забываем использовать sitemap.xml

3. Робот посетил страницу статьи, но в индексе она не появилась. Яндексу статья не интересна.
Или статья появилась в индексе, но потом её выкинули. Вот этот пункт разберем подробнее.

Яндекс стремиться обеспечивать пользователям доступ только к качественному контенту.
Как оценить качество текста? Для этого есть уже традиционные алгоритмы и готовые сервисы.
О них, и параметрах для оценки своего текста рассказывается ниже.

Традиционно сеошники делают акцент на то, что Яндекс не любит неуникальный контент.
Соответственно, биржи статей, типа миралинкса, проверяют статьи на уникальность.
Достаточно ли уникальности статьи, чтобы Яндекс посчитал ее достойной индексации?

Что еще проверяет Яндекс, для выявления недостойного контента?
Яндексоиды описывают это здесь, здесь и здесь :

1. Первое место - уникальность контента. Предположим, уникальность проверена - сервисы сказали ОК, статья признана "уникальной".

2. Проверка грамотности текста, отсутвие орфографических, грамматических, синтаксических ошибок. Из правил Яндекса: "текст должен быть написан грамотно и аккуратно оформлен. Для проверки орфографии на сайте может пригодиться специальный инструмент, доступный в Яндекс.Вебмастере".
(!) Наличие ошибок в тексте - риск, что текст не будет проиндексирован.
Оставили ошибки в тексте, не поставили запятую - получите "минус" к качеству текста.

3. Яндекс хочет видеть осмысленные тексты.
Из выступления: "нужно на машинном уровне научиться определять степень «бредовости» текста. Идея решения состоит в исследовании корреляций соседних слов в исходном документе".
(!) Наличие неестественности соседства слов может быть следствием не только автогенерации текста, то и корявого написания статьи малограмотным копирайтером.

4. Полезность контента.
Из правил: "алгоритм анализирует контент на проиндексированных страницах и оценивает, является ли он полезным и удобным для посетителей сайта".
(!) Т.е. контент анализируется ПОСЛЕ индексации, и проиндексированная статья может быть выкинута из индекса.
(!) Самое время и место Яндексу анализировать поведенческие показатели статьи: переходы по ссылке, время на странице. Плохие поведенческие факторы у статьи - выкидываем из нидекса.

5. "Реальная полезность" ссылки в статье.
Из правил: "сайты, ставящие внешние ссылки исключительно для обмана поисковых систем и «накачивания» релевантности и не являющиеся рекомендацией автора посетить ресурс".
(!) Проверка тематической близости сайта донора - текста статьи - сайта реципиента.
Нет тематической близости (пересечение словарей по относительно редким тематическим словам?) - получите "минус" к статье.
(!) Проверяем сам сайт-реципиент. А стоит ли его рекомендовать?
(!) Нет реальных переходов по ссылке и интереса к сайту реципиенту? Получите "минус".

Набрала статья "минусов" - и не будет ее в индексе.

Итак, прежде чем размещать статью на своем сайте надо проверяем ее "достоинства":

1. Проверяем грамотность автора статьи: грамматику, орфографию, знаки препинания.

tech.yandex.ru/speller/ - спелчекер от Янедкса: простенько и очень похоже на проверку грамотности в старом ворде. Подсветка по ходу проверки.

webmaster.yandex.ru/spellcheck.xml - проверка орфографии по урл в Яндекс вебмастере.

www.orfogrammka.ru - проверяет: орфографию, грамматику, пунктуацию, стилистику, опечатки, орфоэпию (!) и букву "ё". Возвращает количество ошибок в тексте.

languagetool.org/ru/ - только подсветка ошибок

2. Оцениваем формальное качество текста

Тут есть классические алгоритмы (и реализованные на них сервисы), которые вполне прилично выявляют корявонаписанные на коленке "статьи для продвижения". Маловероятно, что в Яндексе не исползуют эти алгоритмы.

ru.readability.io - отличный севрис, возвращающий значение читабельности текста и уровня образования, необходимого для его прочтения.

rockrhapsody.ru - на ту же тему, показатели Флеша и Фога.

audit.te-st.ru - и ещё раз Флеш и Фог.

3. Оцениваем неформальное качество текста

glvrd.ru - шикарный сервис для редакторов, оценивает стилистику, дает свою оценку тексту по 10-ти бальной шкале.

4. Оцениваем тематическую близость текстов

...

5. Комплексные сервисы:

advego.ru/text/ (магазин статей) - проверяет: орфографию, уникальность, "тошноту" текста, "воду".
Возвращает значение количества ошибок в тексте, "классическую" и "академическую" тошноту, воду.

www.text.ru/spelling - проверяет: орфографию (показывает количество найденных ошибок), а так же дает свое мнение по двум интересным параметрам текста: "заспамленность" и "вода" в тексте.
Вполне логично, что Яндекс, тоже выявляет "заспамленность" и "воду".
Возвращает значения: количество ошибок в тексте, заспамленность и воду.

Теперь, для оценки качества своего или размещаемого текста, нам нужны пороговые значения конкретных показателей. В результате небольшого сравнительного исследования текстов заведомо качественных статей брендовых СМИ и заказных сеошных статей получены следующие пороговые значения:

advego.ru text.ru advego.ru advego.ru audit.te-st.ru audit.te-st.ru
ошибки glvrd.ru вода % вода % тош.класс. тош.академ. индекс Флеш фог
нормальный текст нет >7.5 <70% <15% <6 <9 от 30
до 50
от 8
до 9
сомнительный текст есть <7.5 >70% >15% >6 >9 меньше 30 больше 50 меньше 8
больше 9

Наиболее четко выявляются качественные и некачественные статьи по следующим сочетаниям:
- оценка Главреда;
- индексы Флеша и "фога" (причем некачественный сеошный текст может быть написан как слишком сложным языком, так и слишком простым);
- "вода" в оценке text.ru;
- наличие граматических, синтаксических, пунктуационных ошибок.

Отдельно стоит сказать про грамматические ошибки: среди указанных сервисов не найдено ни одного, который бы давал надежное количественное значение ошибок в тексте. Все они относят к ошибкам незнакомые им (но уже общепринятые) слова, переведенные слова, узкие термины.
Наиболее продвинутый сервис orfogrammka.ru относил к наполненным ошибками тексты с образцовых информационных порталов.
Визуально, наиболее легко оказалось выделить некачественные тексты по наличию ошибок в пунктуации.

Сервисов, которые бы позволяли определять тематическую близость сайта - донора, текста и сайта реципиента я не нашел. Так же не встретилось сервиса, который бы оценивал качество текста по наличию в нем пар слов, по методике опубликованной Яндексом.

Надеюсь, данный обзор был вам полезен.

БЛОГ ПО ВЕБ-РАЗРАБОТКЕ И SEO

• SEO: мои лекции в курсе Политеха
• SEO: как я стал асессором Яндекса
• SeoTools.ru: мой бесплатный курс для начинающих
• UX и UI ошибки в примерах
• UI и супер-адаптивная верстка
• Контент: Турку - Стокгольм
• SEO: мой анализатор логов вместо Аналитикса и Метрики
• Маркетинг: делаем персональный оффер до лида
• Стратегия: Про достижение целей и планирование
• SEO: Атака ботов поведенческими
• UI: физиология зрения и проектирование сайта
• Контент: Тайна улыбки Джоконды
• SEO: Конверсии поисковых запросов в лиды
• SEO: Как бруазеры следят за пользователями
• UX: учет быстродействие браузера при приемке сайта
• SEO: Критерии качества текста для Яндекса
• SEO: поведенческие факторы Яндекса
• SEO: Закладки вместо ссылок
• Выступление: Ярмарка недвижимости 2016
• SEO: Истинное постраничное ранжирование Яндекса
• Реклама: эффективность разных баннеров
• Маркетинг: Продающий вебинар
• Проекты: Загородный портал СПб 2008
• UX: Google повторил мои сервис "тропинки" в 2011
• UX: Яндекс повторил мой сервис "тропинки" в 2009
• Выступление: СПИК 2008, Санкт-Петербург
• Выступление: КИБ 2008, Москва
• Выступление: "User Expirience 2007", Москва
• UX: анализ User Experience - карты тропинок по сайту 2007
• SEO: Текстоптимайзер 2006
• Проекты: статья в Деловом Петербурге
• Проекты: CMS WebDirector 2005
• SEO: Оценка рисков поискового продвижения
• SEO: Нелинейная выдача на Яндексе 2006
• Контент: Город на Неве
• Контент: Лисий нос - Кронштадт
• Хобби: Фотография
• Контент: Поддельный 'Дом Романовых'
• Контент: Ладожская Атлантида
• Статья (рассылка Ашманова): SEO пантеон: Слово, Ссылка... Тема.
• UX: Улучшаю Яндекс - ищем по запросу в рамках темы
• Статья: Оптимизация текста по методу Остапа Бендера.
• Статья (рассылка Ашманова): Четвертый фактор. Новое в оценке видимости сайта на поисковых системах
• Статья (рассылка Ашманова): Тайные стратегии оптимизаторов
• Веб-разработка: проблема отношений заказчика и студии
• Маркетинг: Удаляем конкурентов из Яндекса 2005
• UX: Поведение - смотрим глазами посетителя
• SEO: Тематические рейтинги сайтов по видимости 2003
• Статья: Критерии для постановки задачи и оценки результатов продвижения
• SEO: сервис и скрипт проверки текста на уникальность
• Контент: Фукусима-1 и АЭС в Сосновом Бору
• SEO: мои инструменты для поисковой оптимизации 2000
• Программирование: JS/TrojanDownloader.Agent.NRL
• Программирование: Определитель местоположения телефона
• Дизайн: логотипы с 1991
• Дизайн: полиграфия 1995-2005
• Компьютерный стереоскоп 1994
• 3D: Корабельный навигационный мостик 1994