O que é SEO Information Fingerprint e como calcular a repetibilidade das páginas do site?

imprimir · Время на чтение: 4mínimo · por · Publicados · Atualizada

jogarOuça este artigo

O que é impressão digital de informações de SEO?O que é impressão digital de informações de SEO? No caminho para o SEO, muitas vezes enfrentamos o desafio de escrever artigos originais. Muitas pessoas pensam que os parágrafos extraídos de vários artigos na Internet podem ser combinados. Dessa forma, é possível criar conteúdos originais completamente novos, mas na verdade, às vezes o que imaginamos não é tão simples. Especialmente com a melhoria constante dos algoritmos dos mecanismos de busca. O outro lado terá muitas estratégias para lidar com esse problema, como: impressão digital das informações do documento.

Então, o que é o SEO Information Fingerprint e como calcular a frequência das páginas do site?

O conteúdo do artigo:

Palavras-chave: motor de busca, cópia de página web, algoritmo, impressão digital de informação, impressão digital, palavras-chave

Os mecanismos de pesquisa geralmente classificam páginas da Web duplicadas com base na ideia de que cada página da web um conjunto de impressões digitais de informações é calculado (Impressão digital). Se duas páginas da web tiverem um certo número de impressões digitais de informações idênticas, o conteúdo das duas páginas da web é considerado altamente sobreposto, ou seja, o conteúdo das duas páginas é duplicado.

Muitos mecanismos de pesquisa usam métodos diferentes para avaliar a replicação de conteúdo, principalmente devido às duas diferenças a seguir:

  • Algoritmo para cálculo da impressão digital da informação (Fingerprint);
  • Parâmetro para julgar a similaridade de impressões digitais de informações.

Antes de descrever um algoritmo específico, vamos esclarecer dois pontos:

  1. O que é uma pegada de informação? Uma impressão digital de informações é projetada para extrair certas informações de informações textuais em uma página da web. Essas informações podem ser palavras-chave, palavras, sentenças ou parágrafos e seus pesos em uma página da Web e criptografá-los, como criptografia MD5, para formar uma string. As impressões digitais de informações são semelhantes às impressões digitais humanas; se o conteúdo for diferente, as impressões digitais de informações serão diferentes.
  2. A informação extraída pelo algoritmo não se refere à página web inteira, mas ao texto restante depois de filtrar partes comuns do site, como barra de navegação, logotipo, direitos autorais e outras informações (isso é chamado de "ruído" do site ou página).

Algoritmo de assinatura de segmento

Este algoritmo corta a página web em N segmentos de acordo com certas regras, assina cada segmento e forma uma impressão digital de informação de cada segmento. Se M dessas N impressões digitais corresponderem (m é um limite definido pelo sistema), elas serão consideradas páginas da Web duplicadas.

Este algoritmo é um bom algoritmo para avaliação em pequena escala e cópia de páginas da web, mas para um grande mecanismo de busca como o Google, a complexidade do algoritmo é bastante alta.

Algoritmo para copiar uma página com base em palavras-chave

Os mecanismos de pesquisa, como o Google, ao rastrear páginas da Web, registram as seguintes informações sobre uma página da Web:

  1. As palavras-chave encontradas na página web (tecnologia de segmentação de palavras) e o peso de cada palavra-chave (densidade de palavras-chave);
  2. Recupera a meta descrição ou 512 bytes de texto válido para cada página da web.

Quanto ao segundo ponto, os mecanismos de pesquisa são diferentes, o Google extrai sua meta descrição, por exemplo, se não houver 512 bytes associados à palavra-chave de consulta.

Na descrição do algoritmo a seguir, reconciliamos várias variáveis de pegada de informações:

Pi representa a i-ésima página da web;

As N palavras-chave com maior peso na página da web compõem o conjunto Ti={t1,t2,…tn}, e os pesos correspondentes Wi={w1,w2,…wi}

A informação abstrata é representada por Des(Pi), a string formada pelas primeiras n palavras-chave é representada por Con(Ti) e a string formada pela classificação das n palavras-chave é representada por Sort(Ti).

As impressões digitais das informações acima são criptografadas usando a função MD5.

Existem cinco tipos de algoritmos de cópia de página baseados em palavras-chave:

  1. MD5(Des(Pi))=MD5(Des(Pj)) o que significa que as informações resumidas são exatamente as mesmas e duas páginas da web i e j são consideradas páginas da web duplicadas;
  2. MD5(Con(Ti))=MD5(Con(Tj)), o ranking das primeiras n palavras-chave e seus pesos são os mesmos para as duas páginas da web, isso é considerado uma página da web duplicada;
  3. MD5(Sort(Ti))=MD5(Sort(Tj)), as primeiras n palavras-chave das duas páginas da web são as mesmas, mas os pesos podem ser diferentes, e isso também é considerado uma página da web duplicada.
  4. MD5(Con(Ti))=MD5(Con(Tj)) e a soma do quadrado de Wi-Wj dividido pelo quadrado de Wi e Wj for menor que um certo limite a, então esses dois valores são considerados duplicados paginas web.
  5. MD5(Sort(Ti))=MD5(Sort(Tj)) e se a soma do quadrado de Wi-Wj dividido pelo quadrado de Wi e Wj for menor que um certo limite a, os dois são considerados páginas da Web duplicadas.

Quanto ao limite a para o 4º e 5º, isso ocorre principalmente porque, sob a condição de julgamento anterior, ainda haverá muitas páginas da Web que serão corrompidas acidentalmente. O desenvolvimento do mecanismo de busca é ajustado de acordo com o fator de distribuição de peso para evitar danos acidentais.

Obviamente, quanto mais algoritmos computacionais você escolher, mais preciso será o julgamento, mas a velocidade computacional também diminuirá. Portanto, é necessário levar em consideração o equilíbrio entre a velocidade dos cálculos e a precisão da desduplicação. De acordo com os resultados do teste da Skynet, cerca de 10 palavras-chave são as mais relevantes.

PS

O exposto acima, é claro, não pode cobrir todos os aspectos da cópia em larga escala de páginas da web pelos mecanismos de busca, e eles devem ter alguns julgamentos informativos auxiliares sobre impressões digitais informativas.

Lendo este artigo:

Obrigado por ler: AJUDANTE DE SEO | NICOLA.TOP

Quão útil foi este post?

Clique em uma estrela para avaliá-la!

Classificação média 5 / 5. contagem de votos: 311

Nenhum voto até agora! Seja o primeiro a avaliar este post.

Você pode gostar...

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *

dezoito + 10 =