O que é SEO Information Fingerprint e como calcular a repetibilidade das páginas do site?
· Время на чтение: 4mínimo · por · Publicados · AtualizadaO que é impressão digital de informações de SEO? No caminho para o SEO, muitas vezes enfrentamos o desafio de escrever artigos originais. Muitas pessoas pensam que os parágrafos extraídos de vários artigos na Internet podem ser combinados. Dessa forma, é possível criar conteúdos originais completamente novos, mas na verdade, às vezes o que imaginamos não é tão simples. Especialmente com a melhoria constante dos algoritmos dos mecanismos de busca. O outro lado terá muitas estratégias para lidar com esse problema, como: impressão digital das informações do documento.
Então, o que é o SEO Information Fingerprint e como calcular a frequência das páginas do site?
O conteúdo do artigo:
- Palavras-chave: motor de busca, cópia de página web, algoritmo, impressão digital de informação, impressão digital, palavras-chave
- Algoritmo de assinatura de segmento
- Algoritmo para copiar uma página com base em palavras-chave
Palavras-chave: motor de busca, cópia de página web, algoritmo, impressão digital de informação, impressão digital, palavras-chave
Os mecanismos de pesquisa geralmente classificam páginas da Web duplicadas com base na ideia de que cada página da web um conjunto de impressões digitais de informações é calculado (Impressão digital). Se duas páginas da web tiverem um certo número de impressões digitais de informações idênticas, o conteúdo das duas páginas da web é considerado altamente sobreposto, ou seja, o conteúdo das duas páginas é duplicado.
Muitos mecanismos de pesquisa usam métodos diferentes para avaliar a replicação de conteúdo, principalmente devido às duas diferenças a seguir:
- Algoritmo para cálculo da impressão digital da informação (Fingerprint);
- Parâmetro para julgar a similaridade de impressões digitais de informações.
Antes de descrever um algoritmo específico, vamos esclarecer dois pontos:
- O que é uma pegada de informação? Uma impressão digital de informações é projetada para extrair certas informações de informações textuais em uma página da web. Essas informações podem ser palavras-chave, palavras, sentenças ou parágrafos e seus pesos em uma página da Web e criptografá-los, como criptografia MD5, para formar uma string. As impressões digitais de informações são semelhantes às impressões digitais humanas; se o conteúdo for diferente, as impressões digitais de informações serão diferentes.
- A informação extraída pelo algoritmo não se refere à página web inteira, mas ao texto restante depois de filtrar partes comuns do site, como barra de navegação, logotipo, direitos autorais e outras informações (isso é chamado de "ruído" do site ou página).
Algoritmo de assinatura de segmento
Este algoritmo corta a página web em N segmentos de acordo com certas regras, assina cada segmento e forma uma impressão digital de informação de cada segmento. Se M dessas N impressões digitais corresponderem (m é um limite definido pelo sistema), elas serão consideradas páginas da Web duplicadas.
Este algoritmo é um bom algoritmo para avaliação em pequena escala e cópia de páginas da web, mas para um grande mecanismo de busca como o Google, a complexidade do algoritmo é bastante alta.
Algoritmo para copiar uma página com base em palavras-chave
Os mecanismos de pesquisa, como o Google, ao rastrear páginas da Web, registram as seguintes informações sobre uma página da Web:
- As palavras-chave encontradas na página web (tecnologia de segmentação de palavras) e o peso de cada palavra-chave (densidade de palavras-chave);
- Recupera a meta descrição ou 512 bytes de texto válido para cada página da web.
Quanto ao segundo ponto, os mecanismos de pesquisa são diferentes, o Google extrai sua meta descrição, por exemplo, se não houver 512 bytes associados à palavra-chave de consulta.
Na descrição do algoritmo a seguir, reconciliamos várias variáveis de pegada de informações:
Pi representa a i-ésima página da web;
As N palavras-chave com maior peso na página da web compõem o conjunto Ti={t1,t2,…tn}, e os pesos correspondentes Wi={w1,w2,…wi}
A informação abstrata é representada por Des(Pi), a string formada pelas primeiras n palavras-chave é representada por Con(Ti) e a string formada pela classificação das n palavras-chave é representada por Sort(Ti).
As impressões digitais das informações acima são criptografadas usando a função MD5.
Existem cinco tipos de algoritmos de cópia de página baseados em palavras-chave:
- MD5(Des(Pi))=MD5(Des(Pj)) o que significa que as informações resumidas são exatamente as mesmas e duas páginas da web i e j são consideradas páginas da web duplicadas;
- MD5(Con(Ti))=MD5(Con(Tj)), o ranking das primeiras n palavras-chave e seus pesos são os mesmos para as duas páginas da web, isso é considerado uma página da web duplicada;
- MD5(Sort(Ti))=MD5(Sort(Tj)), as primeiras n palavras-chave das duas páginas da web são as mesmas, mas os pesos podem ser diferentes, e isso também é considerado uma página da web duplicada.
- MD5(Con(Ti))=MD5(Con(Tj)) e a soma do quadrado de Wi-Wj dividido pelo quadrado de Wi e Wj for menor que um certo limite a, então esses dois valores são considerados duplicados paginas web.
- MD5(Sort(Ti))=MD5(Sort(Tj)) e se a soma do quadrado de Wi-Wj dividido pelo quadrado de Wi e Wj for menor que um certo limite a, os dois são considerados páginas da Web duplicadas.
Quanto ao limite a para o 4º e 5º, isso ocorre principalmente porque, sob a condição de julgamento anterior, ainda haverá muitas páginas da Web que serão corrompidas acidentalmente. O desenvolvimento do mecanismo de busca é ajustado de acordo com o fator de distribuição de peso para evitar danos acidentais.
Obviamente, quanto mais algoritmos computacionais você escolher, mais preciso será o julgamento, mas a velocidade computacional também diminuirá. Portanto, é necessário levar em consideração o equilíbrio entre a velocidade dos cálculos e a precisão da desduplicação. De acordo com os resultados do teste da Skynet, cerca de 10 palavras-chave são as mais relevantes.
PS
O exposto acima, é claro, não pode cobrir todos os aspectos da cópia em larga escala de páginas da web pelos mecanismos de busca, e eles devem ter alguns julgamentos informativos auxiliares sobre impressões digitais informativas.
Lendo este artigo:
- O que procurar ao escolher serviços de terceirização de SEO?
- 7 Processos Operacionais Comuns de SEO - Design de SEO
Obrigado por ler: AJUDANTE DE SEO | NICOLA.TOP