главная > блог > SEO: сервис и скрипт проверки текста на уникальность

Сервис и скрипт проверки текста на уникальность

бесплатный сервис здесь: copysearch.c-laboratory.ru
скачать скрипт: copysearch.zip

Исключение копий из выдачи, по видимому, сейчас является для Яндекса более важной задачей, чем повышение релевантности. Действительно, создание контента своего сайта путем воровства или упрощенного переписывания чужого - массовая болезнь, особенно при создании сео-сайтов под продажу рекламы или размещение ссылок.

На что может ориентироваться Яндекс при выявлении копий? Сразу приходит мысль о методе шинглов, который Илья Сегалович с любовью упоминул в статье "Как работают поисковые системы".

Однако, представляется, что для выявления полных копий или поверхностных ре-райтов под SEO-задачи (сводимых, чаще всего, к перестановке местами предложений и компиляции из нескольких текстов), метод шинглов будет излишне ресурсоёмок.

Поэтому я решил взять из текста страницы случайным образом десяток длинных предложений и поискать их поиском по фразе Гуглем (поиск по фразе у Яндекса совсем никуда не годен).

По результатам поиска оценивается уникальность текста.
Коэффициент уникальности изменяется от 0 до 1.
Коэффициент уникальности вычисляется по формуле: K = 1 / (S/P), где:
P - количество предложений исходного текста найденных в гугле.
S - сумма всех найденных в гугле предложений.
Таким образом, если каждое из выбранных предложений найдено только по одному разу - текст абсолютно уникален и его коэффициент уникальности равен 1.
Чем чаще отдельные предложения текста найдены в других текстах - тем ниже будет его коэффициент уникальности.

Пример 1:
В исходном тексте найдено 10 предложений длина которых более 50 символов.
Для всех предложений найдено только по 1 копии.

Вычисляем коэффициент уникальности:
P = 10;
S = 10 * 1 = 10;
K = 1 / ( 10 / 10 ) = 1

Пример 2:
В исходном тексте найдено 7 предложений длина которых более 50 символов.
Для первого предложения в гугле найдено 6 копий. Для второго предложения копий не найдено (гугль не знает такой цитаты). Для остальных предложений по 2 копии.

Вычисляем коэффициент уникальности:
P = 7 - 1 = 6;
S = 6 + 0 + 2 + 2 + 2 + 2 + 2 = 16;
K = 1 / ( 11 / 6 ) = 0,38

БЛОГ ПО ВЕБ-РАЗРАБОТКЕ И SEO

• SEO: мои лекции в курсе Политеха
• SEO: как я стал асессором Яндекса
• SeoTools.ru: мой бесплатный курс для начинающих
• UX и UI ошибки в примерах
• UI и супер-адаптивная верстка
• Контент: Турку - Стокгольм
• SEO: мой анализатор логов вместо Аналитикса и Метрики
• Маркетинг: делаем персональный оффер до лида
• Стратегия: Про достижение целей и планирование
• SEO: Атака ботов поведенческими
• UI: физиология зрения и проектирование сайта
• Контент: Тайна улыбки Джоконды
• SEO: Конверсии поисковых запросов в лиды
• SEO: Как бруазеры следят за пользователями
• UX: учет быстродействие браузера при приемке сайта
• SEO: Критерии качества текста для Яндекса
• SEO: поведенческие факторы Яндекса
• SEO: Закладки вместо ссылок
• Выступление: Ярмарка недвижимости 2016
• SEO: Истинное постраничное ранжирование Яндекса
• Реклама: эффективность разных баннеров
• Маркетинг: Продающий вебинар
• Проекты: Загородный портал СПб 2008
• UX: Google повторил мои сервис "тропинки" в 2011
• UX: Яндекс повторил мой сервис "тропинки" в 2009
• Выступление: СПИК 2008, Санкт-Петербург
• Выступление: КИБ 2008, Москва
• Выступление: "User Expirience 2007", Москва
• UX: анализ User Experience - карты тропинок по сайту 2007
• SEO: Текстоптимайзер 2006
• Проекты: статья в Деловом Петербурге
• Проекты: CMS WebDirector 2005
• SEO: Оценка рисков поискового продвижения
• SEO: Нелинейная выдача на Яндексе 2006
• Контент: Город на Неве
• Контент: Лисий нос - Кронштадт
• Хобби: Фотография
• Контент: Поддельный 'Дом Романовых'
• Контент: Ладожская Атлантида
• Статья (рассылка Ашманова): SEO пантеон: Слово, Ссылка... Тема.
• UX: Улучшаю Яндекс - ищем по запросу в рамках темы
• Статья: Оптимизация текста по методу Остапа Бендера.
• Статья (рассылка Ашманова): Четвертый фактор. Новое в оценке видимости сайта на поисковых системах
• Статья (рассылка Ашманова): Тайные стратегии оптимизаторов
• Веб-разработка: проблема отношений заказчика и студии
• Маркетинг: Удаляем конкурентов из Яндекса 2005
• UX: Поведение - смотрим глазами посетителя
• SEO: Тематические рейтинги сайтов по видимости 2003
• Статья: Критерии для постановки задачи и оценки результатов продвижения
• SEO: сервис и скрипт проверки текста на уникальность
• Контент: Фукусима-1 и АЭС в Сосновом Бору
• SEO: мои инструменты для поисковой оптимизации 2000
• Программирование: JS/TrojanDownloader.Agent.NRL
• Программирование: Определитель местоположения телефона
• Дизайн: логотипы с 1991
• Дизайн: полиграфия 1995-2005
• Компьютерный стереоскоп 1994
• 3D: Корабельный навигационный мостик 1994