Qu'est-ce que l'empreinte digitale des informations SEO et comment calculer la répétabilité des pages d'un site Web ?

imprimer · Время на чтение: 4мин · par · Publié · Mis à jour

jouerÉcoutez cet article

Qu'est-ce que l'empreinte digitale des informations SEO ?Qu'est-ce que l'empreinte digitale des informations SEO ? Sur le chemin du référencement, nous sommes souvent confrontés au défi d'écrire des articles originaux. Beaucoup de gens pensent que les paragraphes extraits de divers articles sur Internet peuvent être combinés. De cette façon, il est possible de créer un contenu original complètement nouveau, mais en fait, parfois, ce que nous imaginons n'est pas si simple. Surtout avec l'amélioration constante des algorithmes des moteurs de recherche. L'autre partie aura de nombreuses stratégies pour faire face à ce problème, telles que : la prise d'empreintes digitales des informations du document.

Alors, qu'est-ce que l'empreinte digitale des informations SEO et comment calculer la fréquence des pages du site Web ?

Le contenu de l'article :

Mots-clés : moteur de recherche, copie de pages Web, algorithme, empreinte digitale d'information, empreinte digitale, mots-clés

Les moteurs de recherche évaluent généralement les pages Web en double en se basant sur l'idée que chaque page Web un ensemble d'empreintes d'informations est calculé (Empreinte digitale). Si deux pages Web ont un certain nombre d'empreintes d'informations identiques, le contenu des deux pages Web est considéré comme se chevauchant fortement, c'est-à-dire que le contenu des deux pages est dupliqué.

De nombreux moteurs de recherche utilisent différentes méthodes pour évaluer la réplication de contenu, principalement en raison des deux différences suivantes :

  • Algorithme de calcul de l'empreinte digitale des informations (Fingerprint);
  • Paramètre permettant de juger de la similarité des empreintes digitales d'informations.

Avant de décrire un algorithme spécifique, clarifions deux points :

  1. Qu'est-ce qu'une empreinte informationnelle ? Une empreinte digitale d'informations est conçue pour extraire certaines informations d'informations textuelles sur une page Web. Ces informations peuvent être des mots-clés, des mots, des phrases ou des paragraphes et leur poids dans une page Web, et les crypter, comme le cryptage MD5, pour former une chaîne. Les empreintes digitales d'information sont similaires aux empreintes digitales humaines, si le contenu est différent, alors les empreintes digitales d'information sont différentes.
  2. Les informations extraites par l'algorithme ne font pas référence à l'intégralité de la page Web, mais au texte restant après filtrage des parties communes du site Web, telles que la barre de navigation, le logo, le droit d'auteur et d'autres informations (c'est ce qu'on appelle le "bruit" du site ou de la page).

Algorithme de signature de segment

Cet algorithme découpe la page web en N segments selon certaines règles, signe chaque segment et forme une empreinte informationnelle de chaque segment. Si M de ces N empreintes digitales correspondent (m est un seuil défini par le système), elles sont considérées comme des pages Web en double.

Cet algorithme est un bon algorithme pour l'évaluation et la copie à petite échelle de pages Web, mais pour un grand moteur de recherche comme Google, la complexité de l'algorithme est assez élevée.

Algorithme pour copier une page basée sur des mots-clés

Les moteurs de recherche tels que Google, lors de l'exploration de pages Web, enregistrent les informations suivantes sur une page Web :

  1. Les mots-clés trouvés sur la page Web (technologie de segmentation des mots) et le poids de chaque mot-clé (densité des mots-clés) ;
  2. Récupère la méta description ou 512 octets de texte valide pour chaque page Web.

Quant au deuxième point, les moteurs de recherche sont différents, google tire votre méta description par exemple s'il n'y a pas 512 octets associés au mot-clé de la requête.

Dans la description suivante de l'algorithme, nous réconcilions plusieurs variables d'empreinte informationnelle :

Pi représente la ième page Web ;

Les N mots clés ayant le poids le plus élevé sur la page Web constituent l'ensemble Ti={t1,t2,…tn}, et les poids correspondants Wi={w1,w2,…wi}

L'information abstraite est représentée par Des(Pi), la chaîne formée par les n premiers mots clés est représentée par Con(Ti) et la chaîne formée en triant les n mots clés est représentée par Sort(Ti).

Les empreintes digitales des informations ci-dessus sont cryptées à l'aide de la fonction MD5.

Il existe cinq types d'algorithmes de copie de page basés sur des mots-clés :

  1. MD5(Des(Pi)) = MD5(Des(Pj)) ce qui signifie que les informations de synthèse sont exactement les mêmes et que deux pages Web i et j sont considérées comme des pages Web en double ;
  2. MD5(Con(Ti))=MD5(Con(Tj)), le classement des n premiers mots-clés et leurs poids sont les mêmes pour les deux pages web, ceci est considéré comme une page web dupliquée ;
  3. MD5(Sort(Ti))=MD5(Sort(Tj)), les n premiers mots-clés des deux pages Web sont les mêmes, mais les poids peuvent être différents, et cela est également considéré comme une page Web en double.
  4. MD5(Con(Ti))=MD5(Con(Tj)) et que la somme du carré de Wi-Wj divisé par le carré de Wi et Wj est inférieure à un certain seuil a, alors ces deux valeurs sont considérées comme dupliquées les pages Web.
  5. MD5(Sort(Ti))=MD5(Sort(Tj)) et si la somme du carré de Wi-Wj divisé par le carré de Wi et Wj est inférieure à un certain seuil a, les deux sont considérées comme des pages Web en double.

Quant au seuil a pour le 4ème et le 5ème, c'est principalement parce que sous la condition de jugement précédente, il y aura encore de nombreuses pages Web qui seront accidentellement corrompues. Le développement du moteur de recherche est ajusté en fonction du facteur de répartition du poids pour éviter les dommages accidentels.

Bien sûr, plus vous choisissez d'algorithmes de calcul, plus le jugement sera précis, mais la vitesse de calcul ralentira également. Il faut donc tenir compte de l'équilibre entre la rapidité des calculs et la précision de la déduplication. Selon les résultats du test Skynet, une dizaine de mots-clés sont les plus pertinents.

PS

Ce qui précède, bien sûr, ne peut pas couvrir tous les aspects de la copie à grande échelle de pages Web par les moteurs de recherche, et ils doivent avoir des jugements informationnels auxiliaires sur les empreintes digitales informationnelles.

Lire cet article :

Merci d'avoir lu : SEO HELPER | NICOLA.TOP

À quel point ce message vous a-t-il été utile ?

Cliquez sur une étoile pour la noter !

Note moyenne 5 / 5. Décompte des voix : 311

Aucun vote pour l'instant ! Soyez le premier à noter ce post.

Vous aimerez aussi...

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

4 × quatre =