Что такое SEO Information Fingerprint и как рассчитать повторяемость страниц сайта?
· Время на чтение: 4мин · Автор: · Опубликовано · ОбновленоЧто такое SEO Information Fingerprint? На пути к SEO мы часто сталкиваемся с проблемой, то есть написанием оригинальных статей. Многие думают, что абзацы, извлеченные из различных статей в Интернете, можно объединить. Таким образом можно создать совершенно новый оригинальный контент, но на самом деле иногда, то, что мы представляем себе, не так просто. Особенно с постоянным совершенствованием алгоритмов поисковых систем. У другой стороны будет много стратегий для решения этой проблемы, таких как: проверка отпечатков информации документа.
Итак, что такое информационный отпечаток SEO Information Fingerprint и как рассчитать повторяемость страниц сайта?
Содержание статьи:
- Ключевые слова: поисковая система, копирование веб-страницы, алгоритм, информационный отпечаток, отпечаток пальца, ключевые слова
- Алгоритм подписи сегмента
- Алгоритм копирования страницы на основе ключевых слов
Ключевые слова: поисковая система, копирование веб-страницы, алгоритм, информационный отпечаток, отпечаток пальца, ключевые слова
Поисковые системы обычно оценивают дублированные веб-страницы, основываясь на идее, что для каждой веб-страницы вычисляется набор информационных отпечатков (Fingerprint). Если две веб-страницы имеют определенное количество одинаковых информационных отпечатков, содержимое двух веб-страниц считается сильно перекрывающимся, то есть содержимое двух страниц дублируется.
Многие поисковые системы используют разные методы оценки репликации контента, в основном из-за следующих двух различий:
- Алгоритм вычисления информационного отпечатка (Fingerprint);
- Параметр для суждения о сходстве информационных отпечатков.
Прежде чем описывать конкретный алгоритм, давайте проясним два момента:
- Что такое информационный отпечаток? Информационный отпечаток предназначен для извлечения определенной информации из текстовой информации на веб-странице. Эта информация может быть ключевыми словами, словами, предложениями или абзацами и их весами на веб-странице, и ее шифрования, такого как шифрование MD5, для формирования строки. Информационные отпечатки подобны отпечаткам пальцев человека, если содержание отличается, то и информационные отпечатки разные.
- Информация, извлекаемая алгоритмом, относится не ко всей веб-странице, а к оставшемуся тексту после фильтрации общих частей веб-сайта, таких как панель навигации, логотип, авторские права и другая информация (это называется «шумом» веб-сайта или страницы).
Алгоритм подписи сегмента
Этот алгоритм разрезает веб-страницу на N сегментов по определенным правилам, подписывает каждый сегмент и формирует информационный отпечаток каждого сегмента. Если M из этих N информационных отпечатков совпадают (m — это пороговое значение, определенное системой), они считаются дублирующимися веб-страницами.
Этот алгоритм является хорошим алгоритмом для мелкомасштабной оценки и копирования веб-страниц, но для такой крупной поисковой системы, как Google, сложность алгоритма довольно высока.
Алгоритм копирования страницы на основе ключевых слов
Поисковые системы, такие как Google, при сканировании веб-страниц будут записывать следующую информацию о веб-странице:
- Ключевые слова, встречающиеся на веб-странице (технология сегментации слов), и вес каждого ключевого слова (плотность ключевых слов);
- Извлечет метаописание или 512 байт допустимого текста для каждой веб-страницы.
Что касается второго пункта, поисковые системы разные, google например извлекает ваше метаописание, если нет 512 байтов, связанных с ключевым словом запроса.
В следующем описании алгоритма мы согласовываем несколько переменных информационного отпечатка:
Pi представляет i-ю веб-страницу;
N ключевых слов с наибольшим весом на веб-странице составляют множество Ti={t1,t2,…tn}, а соответствующие веса Wi={w1,w2,…wi}
Абстрактная информация представлена Des(Pi), строка, образованная первыми n ключевыми словами, представлена Con(Ti), а строка, сформированная путем сортировки n ключевых слов, представлена Sort(Ti).
Приведенные выше информационные отпечатки зашифрованы с помощью функции MD5.
Существует пять типов алгоритмов копирования страниц на основе ключевых слов:
- MD5(Des(Pi))=MD5(Des(Pj)), что означает, что сводная информация точно такая же, а две веб-страницы i и j считаются дублирующими веб-страницами;
- MD5(Con(Ti))=MD5(Con(Tj)), ранжирование первых n ключевых слов и их веса у двух веб-страниц одинаковы, это считается дублирующей веб-страницей;
- MD5(Sort(Ti))=MD5(Sort(Tj)), первые n ключевых слов двух веб-страниц одинаковы, но веса могут быть разными, и это также считается дублирующей веб-страницей.
- MD5(Con(Ti))=MD5(Con(Tj)) и сумма квадрата Wi-Wj, деленная на квадрат Wi и Wj, меньше определенного порога a, то эти два значения считаются дублирование веб-страниц.
- MD5(Sort(Ti))=MD5(Sort(Tj)) и если сумма квадрата Wi-Wj, деленная на квадрат Wi и Wj, меньше определенного порога a, два считаются дублирование веб-страниц.
Что касается порогового значения а для 4-го и 5-го, это в основном потому, что при предыдущем условии суждения все еще будет много веб-страниц, которые будут случайно повреждены. Развитие поисковой системы корректируется в соответствии с коэффициентом распределения весов, чтобы предотвратить случайное повреждение.
Конечно, чем больше вы выберете вычислительных алгоритмов, тем точнее будет суждение, но скорость вычислений также замедлится. Поэтому необходимо учитывать баланс между скоростью вычислений и точностью дедупликации. По результатам теста Skynet наиболее подходящими являются около 10 ключевых слов.
Постскриптум
Вышеупомянутое, конечно, не может охватить все аспекты крупномасштабного копирования веб-страниц поисковыми системами, и они должны иметь некоторые вспомогательные информационные суждения об информационных отпечатков.
С этой статьей читают:
- На что обратить внимание при выборе услуг SEO аутсорсинга?
- 7 общих операционных SEO процессов – SEO-дизайн
Спасибо, что читаешь: SEO HELPER | NICOLA.TOP