Che cos'è l'impronta digitale delle informazioni SEO e come calcolare la ripetibilità delle pagine del sito web?

Stampa · Время на чтение: 4мин · di · Pubblicato · Aggiornato

giocareAscolta questo articolo

Cos'è l'impronta digitale delle informazioni SEO?Cos'è l'impronta digitale delle informazioni SEO? Nel percorso verso la SEO, spesso affrontiamo la sfida di scrivere articoli originali. Molte persone pensano che i paragrafi estratti da vari articoli su Internet possano essere combinati. In questo modo è possibile creare contenuti originali completamente nuovi, ma in realtà a volte ciò che immaginiamo non è così semplice. Soprattutto con il costante miglioramento degli algoritmi dei motori di ricerca. L'altra parte avrà molte strategie per affrontare questo problema, come ad esempio: prendere le impronte digitali delle informazioni del documento.

Quindi, qual è l'impronta digitale delle informazioni SEO e come calcolare la frequenza delle pagine del sito web?

Il contenuto dell'articolo:

Parole chiave: motore di ricerca, copia di pagine web, algoritmo, fingerprint delle informazioni, fingerprint, parole chiave

I motori di ricerca di solito valutano le pagine Web duplicate in base all'idea che ogni pagina web viene calcolata una serie di impronte digitali informative (impronta digitale). Se due pagine web hanno un certo numero di impronte digitali identiche, il contenuto delle due pagine web è considerato altamente sovrapposto, cioè il contenuto delle due pagine è duplicato.

Molti motori di ricerca utilizzano metodi diversi per valutare la replica dei contenuti, principalmente a causa delle seguenti due differenze:

  • Algoritmo per il calcolo dell'impronta digitale delle informazioni (Fingerprint);
  • Parametro per giudicare la somiglianza delle impronte digitali delle informazioni.

Prima di descrivere un algoritmo specifico, chiariamo due punti:

  1. Cos'è un'impronta informativa? Un'impronta digitale delle informazioni è progettata per estrarre determinate informazioni dalle informazioni testuali su una pagina web. Queste informazioni possono essere parole chiave, parole, frasi o paragrafi e il loro peso in una pagina Web e la loro crittografia, come la crittografia MD5, per formare una stringa. Le impronte digitali delle informazioni sono simili alle impronte digitali umane, se il contenuto è diverso, le impronte digitali delle informazioni sono diverse.
  2. Le informazioni estratte dall'algoritmo non si riferiscono all'intera pagina Web, ma al testo rimanente dopo aver filtrato parti comuni del sito Web, come la barra di navigazione, il logo, il copyright e altre informazioni (questo è chiamato "rumore" del sito web o della pagina).

Algoritmo di firma del segmento

Questo algoritmo taglia la pagina web in N segmenti secondo determinate regole, firma ogni segmento e forma un'impronta digitale informativa di ogni segmento. Se M di queste N impronte corrispondono (m è una soglia definita dal sistema), vengono considerate pagine Web duplicate.

Questo algoritmo è un buon algoritmo per la valutazione e la copia su piccola scala di pagine Web, ma per un grande motore di ricerca come Google, la complessità dell'algoritmo è piuttosto elevata.

Algoritmo per copiare una pagina in base alle parole chiave

I motori di ricerca come Google, durante la scansione delle pagine Web, registreranno le seguenti informazioni su una pagina Web:

  1. Le parole chiave trovate sulla pagina Web (tecnologia di segmentazione delle parole) e il peso di ciascuna parola chiave (densità di parole chiave);
  2. Recupera la meta descrizione o 512 byte di testo valido per ogni pagina web.

Per quanto riguarda il secondo punto, i motori di ricerca sono diversi, Google estrae la tua meta descrizione ad esempio se non ci sono 512 byte associati alla parola chiave della query.

Nella seguente descrizione dell'algoritmo, riconciliamo diverse variabili dell'impronta di informazioni:

Pi rappresenta la i-esima pagina web;

Le N parole chiave con il maggior peso nella pagina web compongono l'insieme Ti={t1,t2,…tn}, e i corrispondenti pesi Wi={w1,w2,…wi}

L'informazione astratta è rappresentata da Des(Pi), la stringa formata dalle prime n parole chiave è rappresentata da Con(Ti), e la stringa formata dall'ordinamento delle n parole chiave è rappresentata da Sort(Ti).

Le impronte digitali delle informazioni di cui sopra sono crittografate utilizzando la funzione MD5.

Esistono cinque tipi di algoritmi di copia della pagina basati su parole chiave:

  1. MD5(Des(Pi))=MD5(Des(Pj)) che significa che le informazioni di riepilogo sono esattamente le stesse e due pagine web i e j sono considerate pagine web duplicate;
  2. MD5(Con(Ti))=MD5(Con(Tj)), il ranking delle prime n parole chiave e il loro peso sono gli stessi per le due pagine web, questa è considerata una pagina web duplicata;
  3. MD5(Sort(Ti))=MD5(Sort(Tj)), le prime n parole chiave delle due pagine Web sono le stesse, ma i pesi possono essere diversi e anche questa è considerata una pagina Web duplicata.
  4. MD5(Con(Ti))=MD5(Con(Tj)) e la somma dei quadrati di Wi-Wj divisa per i quadrati di Wi e Wj è minore di una certa soglia a, allora questi due valori sono considerati duplicati pagine web.
  5. MD5(Sort(Ti))=MD5(Sort(Tj)) e se la somma del quadrato di Wi-Wj divisa per il quadrato di Wi e Wj è minore di una certa soglia a, le due pagine web sono considerate duplicate.

Per quanto riguarda la soglia a per il 4° e il 5°, ciò è principalmente dovuto al fatto che, nella precedente condizione di giudizio, ci saranno ancora molte pagine Web che verranno accidentalmente danneggiate. Lo sviluppo del motore di ricerca viene regolato in base al fattore di distribuzione del peso per evitare danni accidentali.

Naturalmente, più algoritmi computazionali scegli, più accurato sarà il giudizio, ma anche la velocità computazionale rallenterà. Pertanto, è necessario tenere conto dell'equilibrio tra la velocità dei calcoli e l'accuratezza della deduplicazione. Secondo i risultati del test Skynet, circa 10 parole chiave sono le più rilevanti.

P.S

Quanto sopra, ovviamente, non può coprire tutti gli aspetti della copia su larga scala di pagine web da parte dei motori di ricerca, e devono avere alcuni giudizi informativi accessori sulle impronte digitali informative.

Leggendo questo articolo:

Grazie per aver letto: AIUTO SEO | NICOLA.TOP

Quanto è stato utile questo post?

Clicca su una stella per valutarla!

Voto medio 5 / 5. Conteggio dei voti: 311

Nessun voto finora! Sii il primo a valutare questo post.

Potrebbero interessarti anche...

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

diciassette + dodici =