¿Qué es la huella digital de información SEO y cómo calcular la repetibilidad de las páginas del sitio web?

Q: ¿Qué es la huella digital de información SEO?

Los motores de búsqueda suelen evaluar las páginas web duplicadas basándose en la idea de que se calcula un conjunto de huellas dactilares de información (Fingerprint) para cada página web. Si dos páginas web tienen un cierto número de huellas dactilares de información idénticas, el contenido de las dos páginas web se considera muy superpuesto, es decir, el contenido de las dos páginas está duplicado. Muchos motores de búsqueda utilizan diferentes métodos para evaluar la replicación de contenido, principalmente debido a las siguientes dos diferencias: 1. Algoritmo para calcular la huella digital de la información (Fingerprint); 2. Parámetro para juzgar la similitud de las huellas dactilares de información. Antes de describir un algoritmo específico, aclaremos dos puntos: 1. ¿Qué es una huella de información? Una huella digital de información está diseñada para extraer cierta información de la información textual en una página web. Esta información puede ser palabras clave, palabras, oraciones o párrafos y su peso en una página web, y su cifrado, como el cifrado MD5, para formar una cadena. Las huellas dactilares de información son similares a las huellas dactilares humanas, si el contenido es diferente, entonces las huellas dactilares de información son diferentes. 2. La información extraída por el algoritmo no se refiere a toda la página web, sino al texto restante después de filtrar las partes comunes del sitio web, como la barra de navegación, el logotipo, los derechos de autor y otra información (esto se denomina " ruido” del sitio web o página).

2.266

· Время на чтение: 4мин · por Nikolái Alekseev · Publicada 29.09.2022 · Actualizado 29.04.2023

Escucha este artículo

¿Qué es la huella digital de información SEO? En el camino hacia el SEO, a menudo nos enfrentamos al desafío de escribir artículos originales. Mucha gente piensa que se pueden combinar párrafos extraídos de varios artículos en Internet. De esta manera, es posible crear contenido original completamente nuevo, pero de hecho, a veces lo que imaginamos no es tan simple. Especialmente con la mejora constante de los algoritmos de los motores de búsqueda. La otra parte tendrá muchas estrategias para hacer frente a este problema, tales como: la toma de huellas dactilares de la información del documento.

Entonces, ¿qué es la huella digital de información SEO y cómo calcular la frecuencia de las páginas del sitio web?

El contenido del artículo:

Palabras clave: motor de búsqueda, copia de página web, algoritmo, huella de información, huella digital, palabras clave
Algoritmo de firma de segmento
Algoritmo para copiar una página basado en palabras clave

Palabras clave: motor de búsqueda, copia de página web, algoritmo, huella de información, huella digital, palabras clave

Los motores de búsqueda suelen clasificar las páginas web duplicadas basándose en la idea de que cada página web se calcula un conjunto de huellas dactilares de información (Huella dactilar). Si dos páginas web tienen un cierto número de huellas dactilares de información idénticas, el contenido de las dos páginas web se considera muy superpuesto, es decir, el contenido de las dos páginas está duplicado.

Muchos motores de búsqueda utilizan diferentes métodos para evaluar la replicación de contenido, principalmente debido a las siguientes dos diferencias:

Algoritmo para el cálculo de la huella dactilar de la información (Fingerprint);
Parámetro para juzgar la similitud de las huellas digitales de información.

Antes de describir un algoritmo específico, aclaremos dos puntos:

¿Qué es una huella de información? Una huella digital de información está diseñada para extraer cierta información de la información textual en una página web. Esta información puede ser palabras clave, palabras, oraciones o párrafos y su peso en una página web, y su cifrado, como el cifrado MD5, para formar una cadena. Las huellas dactilares de información son similares a las huellas dactilares humanas, si el contenido es diferente, entonces las huellas dactilares de información son diferentes.
La información extraída por el algoritmo no se refiere a toda la página web, sino al texto restante después de filtrar partes comunes del sitio web, como la barra de navegación, el logotipo, los derechos de autor y otra información (esto se denomina "ruido"). del sitio web o página).

Algoritmo de firma de segmento

Este algoritmo corta la página web en N segmentos de acuerdo con ciertas reglas, firma cada segmento y forma una huella digital de información de cada segmento. Si M de estas N huellas dactilares coinciden (m es un umbral definido por el sistema), se consideran páginas web duplicadas.

Este algoritmo es un buen algoritmo para la evaluación y copia de páginas web a pequeña escala, pero para un motor de búsqueda grande como Google, la complejidad del algoritmo es bastante alta.

Algoritmo para copiar una página basado en palabras clave

Los motores de búsqueda como Google, al rastrear páginas web, registrarán la siguiente información sobre una página web:

Las palabras clave encontradas en la página web (tecnología de segmentación de palabras) y el peso de cada palabra clave (densidad de palabras clave);
Recupera la meta descripción o 512 bytes de texto válido para cada página web.

En cuanto al segundo punto, los motores de búsqueda son diferentes, Google extrae su meta descripción, por ejemplo, si no hay 512 bytes asociados con la palabra clave de consulta.

En la siguiente descripción del algoritmo, reconciliamos varias variables de huella de información:

Pi representa la i-ésima página web;

Las N palabras clave con mayor peso en la página web forman el conjunto Ti={t1,t2,…tn}, y los pesos correspondientes Wi={w1,w2,…wi}

La información abstracta está representada por Des(Pi), la cadena formada por las primeras n palabras clave está representada por Con(Ti), y la cadena formada al ordenar las n palabras clave está representada por Sort(Ti).

Las huellas dactilares de información anteriores se cifran mediante la función MD5.

Hay cinco tipos de algoritmos de copia de página basados en palabras clave:

MD5(Des(Pi))=MD5(Des(Pj)) lo que significa que la información de resumen es exactamente la misma y dos páginas web iyj se consideran páginas web duplicadas;
MD5(Con(Ti))=MD5(Con(Tj)), la clasificación de las primeras n palabras clave y sus pesos son los mismos para las dos páginas web, esto se considera una página web duplicada;
MD5(Sort(Ti))=MD5(Sort(Tj)), las primeras n palabras clave de las dos páginas web son las mismas, pero los pesos pueden ser diferentes, y esto también se considera una página web duplicada.
MD5(Con(Ti))=MD5(Con(Tj)) y la suma del cuadrado de Wi-Wj dividido por el cuadrado de Wi y Wj es menor que cierto umbral a, entonces estos dos valores se consideran duplicados páginas web.
MD5(Ordenar(Ti))=MD5(Ordenar(Tj)) y si la suma del cuadrado de Wi-Wj dividido por el cuadrado de Wi y Wj es menor que cierto umbral a, las dos se consideran páginas web duplicadas.

En cuanto al umbral a para el 4 y el 5, esto se debe principalmente a que bajo la condición de juicio anterior, aún habrá muchas páginas web que se corromperán accidentalmente. El desarrollo del motor de búsqueda se ajusta según el factor de distribución de peso para evitar daños accidentales.

Por supuesto, cuantos más algoritmos computacionales elija, más preciso será el juicio, pero la velocidad computacional también se ralentizará. Por lo tanto, es necesario tener en cuenta el equilibrio entre la velocidad de los cálculos y la precisión de la deduplicación. Según los resultados de la prueba de Skynet, unas 10 palabras clave son las más relevantes.

PD

Lo anterior, por supuesto, no puede cubrir todos los aspectos de la copia a gran escala de páginas web por parte de los motores de búsqueda, y deben tener algunos juicios informativos auxiliares sobre las huellas dactilares informativas.

Leyendo este artículo:

Gracias por leer: AYUDANTE DE SEO | NICOLA.TOP

¿De cuánta utilidad te ha parecido este contenido?

¡Haz clic en una estrella para puntuarlo!

Promedio de puntuación 5 / 5. Recuento de votos: 311

Hasta ahora, ¡no hay votos!. Sé el primero en puntuar este contenido.

¿Qué es la huella digital de información SEO y cómo calcular la repetibilidad de las páginas del sitio web?

Palabras clave: motor de búsqueda, copia de página web, algoritmo, huella de información, huella digital, palabras clave

Algoritmo de firma de segmento

Algoritmo para copiar una página basado en palabras clave

Hay cinco tipos de algoritmos de copia de página basados en palabras clave:

PD

También te podría gustar...

Deja una respuesta Cancelar la respuesta

Interesante

¿Qué es la huella digital de información SEO y cómo calcular la repetibilidad de las páginas del sitio web?

Palabras clave: motor de búsqueda, copia de página web, algoritmo, huella de información, huella digital, palabras clave

Algoritmo de firma de segmento

Algoritmo para copiar una página basado en palabras clave

Hay cinco tipos de algoritmos de copia de página basados en palabras clave:

PD

También te podría gustar...

Detalles del diseño web corporativo

¿Cómo hacer SEO en la era de Internet móvil?

Cómo escribir un resumen para un artículo: consejos y ejemplos

Deja una respuesta Cancelar la respuesta

Interesante