Что такое SEO Information Fingerprint и как рассчитать повторяемость страниц сайта?

воспроизвестиПрослушать статью

Что такое SEO Information Fingerprint?Что такое SEO Information Fingerprint? На пути к SEO мы часто сталкиваемся с проблемой, то есть написанием оригинальных статей. Многие думают, что абзацы, извлеченные из различных статей в Интернете, можно объединить. Таким образом можно создать совершенно новый оригинальный контент, но на самом деле иногда, то, что мы представляем себе, не так просто. Особенно с постоянным совершенствованием алгоритмов поисковых систем. У другой стороны будет много стратегий для решения этой проблемы, таких как: проверка отпечатков информации документа.

Итак, что такое информационный отпечаток SEO Information Fingerprint и как рассчитать повторяемость страниц сайта?

Ключевые слова: поисковая система, копирование веб-страницы, алгоритм, информационный отпечаток, отпечаток пальца, ключевые слова

Поисковые системы обычно оценивают дублированные веб-страницы, основываясь на идее, что для каждой веб-страницы вычисляется набор информационных отпечатков (Fingerprint). Если две веб-страницы имеют определенное количество одинаковых информационных отпечатков, содержимое двух веб-страниц считается сильно перекрывающимся, то есть содержимое двух страниц дублируется.

Многие поисковые системы используют разные методы оценки репликации контента, в основном из-за следующих двух различий:

  • Алгоритм вычисления информационного отпечатка (Fingerprint);
  • Параметр для суждения о сходстве информационных отпечатков.

Прежде чем описывать конкретный алгоритм, давайте проясним два момента:

  1. Что такое информационный отпечаток? Информационный отпечаток предназначен для извлечения определенной информации из текстовой информации на веб-странице. Эта информация может быть ключевыми словами, словами, предложениями или абзацами и их весами на веб-странице, и ее шифрования, такого как шифрование MD5, для формирования строки. Информационные отпечатки подобны отпечаткам пальцев человека, если содержание отличается, то и информационные отпечатки разные.
  2. Информация, извлекаемая алгоритмом, относится не ко всей веб-странице, а к оставшемуся тексту после фильтрации общих частей веб-сайта, таких как панель навигации, логотип, авторские права и другая информация (это называется «шумом» веб-сайта или страницы).

Алгоритм подписи сегмента

Этот алгоритм разрезает веб-страницу на N сегментов по определенным правилам, подписывает каждый сегмент и формирует информационный отпечаток каждого сегмента. Если M из этих N информационных отпечатков совпадают (m — это пороговое значение, определенное системой), они считаются дублирующимися веб-страницами.

Этот алгоритм является хорошим алгоритмом для мелкомасштабной оценки и копирования веб-страниц, но для такой крупной поисковой системы, как Google, сложность алгоритма довольно высока.

Алгоритм копирования страницы на основе ключевых слов

Поисковые системы, такие как Google, при сканировании веб-страниц будут записывать следующую информацию о веб-странице:

  1. Ключевые слова, встречающиеся на веб-странице (технология сегментации слов), и вес каждого ключевого слова (плотность ключевых слов);
  2. Извлечет метаописание или 512 байт допустимого текста для каждой веб-страницы.

Что касается второго пункта, поисковые системы разные, google например извлекает ваше метаописание, если нет 512 байтов, связанных с ключевым словом запроса.

В следующем описании алгоритма мы согласовываем несколько переменных информационного отпечатка:

Pi представляет i-ю веб-страницу;

N ключевых слов с наибольшим весом на веб-странице составляют множество Ti={t1,t2,…tn}, а соответствующие веса Wi={w1,w2,…wi}

Абстрактная информация представлена ​​Des(Pi), строка, образованная первыми n ключевыми словами, представлена ​​Con(Ti), а строка, сформированная путем сортировки n ключевых слов, представлена ​​Sort(Ti).

Приведенные выше информационные отпечатки зашифрованы с помощью функции MD5.

Существует пять типов алгоритмов копирования страниц на основе ключевых слов:

  1. MD5(Des(Pi))=MD5(Des(Pj)), что означает, что сводная информация точно такая же, а две веб-страницы i и j считаются дублирующими веб-страницами;
  2. MD5(Con(Ti))=MD5(Con(Tj)), ранжирование первых n ключевых слов и их веса у двух веб-страниц одинаковы, это считается дублирующей веб-страницей;
  3. MD5(Sort(Ti))=MD5(Sort(Tj)), первые n ключевых слов двух веб-страниц одинаковы, но веса могут быть разными, и это также считается дублирующей веб-страницей.
  4. MD5(Con(Ti))=MD5(Con(Tj)) и сумма квадрата Wi-Wj, деленная на квадрат Wi и Wj, меньше определенного порога a, то эти два значения считаются дублирование веб-страниц.
  5. MD5(Sort(Ti))=MD5(Sort(Tj)) и если сумма квадрата Wi-Wj, деленная на квадрат Wi и Wj, меньше определенного порога a, два считаются дублирование веб-страниц.

Что касается порогового значения а для 4-го и 5-го, это в основном потому, что при предыдущем условии суждения все еще будет много веб-страниц, которые будут случайно повреждены. Развитие поисковой системы корректируется в соответствии с коэффициентом распределения весов, чтобы предотвратить случайное повреждение.

Конечно, чем больше вы выберете вычислительных алгоритмов, тем точнее будет суждение, но скорость вычислений также замедлится. Поэтому необходимо учитывать баланс между скоростью вычислений и точностью дедупликации. По результатам теста Skynet наиболее подходящими являются около 10 ключевых слов.

Постскриптум

Вышеупомянутое, конечно, не может охватить все аспекты крупномасштабного копирования веб-страниц поисковыми системами, и они должны иметь некоторые вспомогательные информационные суждения об информационных отпечатков.

Спасибо, что читаешь Nicola Top

Насколько публикация полезна?

Нажмите на смайлик, чтобы оценить!

Средняя оценка 5 / 5. Количество оценок: 9

Оценок пока нет. Поставьте оценку первым.

Читайте также:

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

тринадцать − тринадцать =