Was ist SEO Information Fingerprint und wie berechnet man die Wiederholbarkeit von Webseiten?

drucken · Время на чтение: 4мин · von · Veröffentlicht · Aktualisiert

spielenHören Sie sich diesen Artikel an

Was ist ein SEO-Informations-Fingerabdruck?Was ist ein SEO-Informations-Fingerabdruck? Auf dem Weg zu SEO stehen wir oft vor der Herausforderung, originelle Artikel zu schreiben. Viele Leute denken, dass Absätze aus verschiedenen Artikeln im Internet kombiniert werden können. Auf diese Weise ist es möglich, völlig neue Originalinhalte zu erstellen, aber tatsächlich ist das, was wir uns vorstellen, manchmal nicht so einfach. Vor allem mit der ständigen Verbesserung der Suchmaschinenalgorithmen. Die andere Seite wird viele Strategien haben, um mit diesem Problem umzugehen, wie zum Beispiel: Fingerabdrücke der Dokumentinformationen.

Was ist also der SEO Information Fingerprint und wie berechnet man die Häufigkeit von Website-Seiten?

Der Inhalt des Artikels:

Schlüsselwörter: Suchmaschine, Kopieren von Webseiten, Algorithmus, Informations-Fingerabdruck, Fingerabdruck, Schlüsselwörter

Suchmaschinen bewerten doppelte Webseiten normalerweise auf der Grundlage dieser Idee jede Webseite Es wird eine Reihe von Informationsfingerabdrücken berechnet (Fingerabdruck). Wenn zwei Webseiten eine bestimmte Anzahl identischer Informationsfingerabdrücke aufweisen, gilt der Inhalt der beiden Webseiten als stark überlappend, d. h. der Inhalt der beiden Seiten ist dupliziert.

Viele Suchmaschinen verwenden unterschiedliche Methoden zur Bewertung der Inhaltsreplikation, hauptsächlich aufgrund der folgenden zwei Unterschiede:

  • Algorithmus zur Berechnung des Informationsfingerabdrucks (Fingerprint);
  • Parameter zur Beurteilung der Ähnlichkeit von Informationsfingerabdrücken.

Bevor wir einen bestimmten Algorithmus beschreiben, klären wir zwei Punkte:

  1. Was ist ein Informations-Fußabdruck? Ein Informationsfingerabdruck dient dazu, bestimmte Informationen aus Textinformationen auf einer Webseite zu extrahieren. Bei diesen Informationen kann es sich um Schlüsselwörter, Wörter, Sätze oder Absätze und deren Gewichtung auf einer Webseite handeln und diese dann verschlüsseln, beispielsweise mit der MD5-Verschlüsselung, um eine Zeichenfolge zu bilden. Informationsfingerabdrücke ähneln menschlichen Fingerabdrücken. Wenn der Inhalt unterschiedlich ist, sind die Informationsfingerabdrücke unterschiedlich.
  2. Die vom Algorithmus extrahierten Informationen beziehen sich nicht auf die gesamte Webseite, sondern auf den verbleibenden Text, nachdem gemeinsame Teile der Website wie Navigationsleiste, Logo, Urheberrecht und andere Informationen herausgefiltert wurden (dies wird als „Rauschen“ bezeichnet). der Website oder Seite).

Segmentsignaturalgorithmus

Dieser Algorithmus schneidet die Webseite nach bestimmten Regeln in N Segmente, signiert jedes Segment und erstellt einen Informationsfingerabdruck jedes Segments. Wenn M dieser N Fingerabdrücke übereinstimmen (m ist ein systemdefinierter Schwellenwert), werden sie als doppelte Webseiten betrachtet.

Dieser Algorithmus ist ein guter Algorithmus für die Auswertung und das Kopieren von Webseiten im kleinen Maßstab, aber für eine große Suchmaschine wie Google ist die Komplexität des Algorithmus recht hoch.

Algorithmus zum Kopieren einer Seite basierend auf Schlüsselwörtern

Suchmaschinen wie Google zeichnen beim Crawlen von Webseiten die folgenden Informationen über eine Webseite auf:

  1. Die auf der Webseite gefundenen Schlüsselwörter (Wortsegmentierungstechnologie) und die Gewichtung jedes Schlüsselworts (Schlüsselwortdichte);
  2. Ruft die Meta-Beschreibung oder 512 Byte gültigen Text für jede Webseite ab.

Was den zweiten Punkt betrifft, sind Suchmaschinen unterschiedlich. Google ruft beispielsweise Ihre Meta-Beschreibung ab, wenn dem Suchbegriff keine 512 Byte zugeordnet sind.

In der folgenden Algorithmusbeschreibung bringen wir mehrere Informations-Footprint-Variablen in Einklang:

Pi stellt die i-te Webseite dar;

Die N Schlüsselwörter mit dem höchsten Gewicht auf der Webseite bilden die Menge Ti={t1,t2,…tn} und die entsprechenden Gewichte Wi={w1,w2,…wi}

Die abstrakten Informationen werden durch Des(Pi) dargestellt, die durch die ersten n Schlüsselwörter gebildete Zeichenfolge wird durch Con(Ti) dargestellt und die durch Sortieren der n Schlüsselwörter gebildete Zeichenfolge wird durch Sort(Ti) ​​dargestellt.

Die oben genannten Informationsfingerabdrücke werden mit der MD5-Funktion verschlüsselt.

Es gibt fünf Arten von Algorithmen zum Kopieren von Seiten, die auf Schlüsselwörtern basieren:

  1. MD5(Des(Pi))=MD5(Des(Pj)) bedeutet, dass die zusammenfassenden Informationen genau gleich sind und zwei Webseiten i und j als doppelte Webseiten betrachtet werden;
  2. MD5(Con(Ti))=MD5(Con(Tj)), die Rangfolge der ersten n Schlüsselwörter und ihre Gewichtung sind für die beiden Webseiten gleich, dies wird als doppelte Webseite betrachtet;
  3. MD5(Sort(Ti))=MD5(Sort(Tj)), die ersten n Schlüsselwörter der beiden Webseiten sind gleich, aber die Gewichte können unterschiedlich sein, und dies wird auch als doppelte Webseite betrachtet.
  4. MD5(Con(Ti))=MD5(Con(Tj)) und die Summe des Quadrats von Wi-Wj dividiert durch das Quadrat von Wi und Wj kleiner als ein bestimmter Schwellenwert a ist, dann werden diese beiden Werte als Duplikate betrachtet Webseiten.
  5. MD5(Sort(Ti))=MD5(Sort(Tj)) und wenn die Summe des Quadrats von Wi-Wj dividiert durch das Quadrat von Wi und Wj kleiner als ein bestimmter Schwellenwert a ist, werden die beiden als doppelte Webseiten betrachtet.

Was den Schwellenwert a für den 4. und 5. betrifft, liegt dies hauptsächlich daran, dass unter der vorherigen Beurteilungsbedingung immer noch viele Webseiten versehentlich beschädigt werden. Die Entwicklung der Suchmaschine wird entsprechend dem Gewichtsverteilungsfaktor angepasst, um versehentliche Schäden zu verhindern.

Natürlich ist die Beurteilung umso genauer, je mehr Rechenalgorithmen Sie wählen, aber auch die Rechengeschwindigkeit wird langsamer. Daher muss das Gleichgewicht zwischen der Geschwindigkeit der Berechnungen und der Genauigkeit der Deduplizierung berücksichtigt werden. Den Ergebnissen des Skynet-Tests zufolge sind etwa 10 Schlüsselwörter am relevantesten.

P.S

Das oben Genannte kann natürlich nicht alle Aspekte des groß angelegten Kopierens von Webseiten durch Suchmaschinen abdecken, und sie müssen einige ergänzende Informationsurteile über Informationsfingerabdrücke enthalten.

Lesen dieses Artikels:

Danke fürs Lesen: SEO HELPER | NICOLA.TOP

Wie hilfreich war dieser Beitrag?

Klicke auf die Sterne um zu bewerten!

Durchschnittliche Bewertung 5 / 5. Anzahl Bewertungen: 311

Bisher keine Bewertungen! Sei der Erste, der diesen Beitrag bewertet.

Das könnte dich auch interessieren …

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

3 + 16 =