SEO Bilgi Parmak İzi nedir ve web sitesi sayfalarının tekrarlanabilirliği nasıl hesaplanır?

Yazdır · Время на чтение: 4min · tarafından · Yayınlanan · Güncellenmiş

oynamakBu makaleyi dinle

SEO Bilgi Parmak İzi Nedir?SEO Bilgi Parmak İzi Nedir? SEO yolunda, genellikle orijinal makaleler yazmanın zorluğuyla karşılaşırız. Birçok kişi, İnternet'teki çeşitli makalelerden çıkarılan paragrafların birleştirilebileceğini düşünüyor. Bu sayede tamamen yeni özgün içerikler oluşturmak mümkün olsa da aslında bazen hayal ettiğimiz şey o kadar basit olmuyor. Özellikle arama motoru algoritmalarının sürekli gelişmesiyle. Diğer taraf, bu sorunla başa çıkmak için birçok stratejiye sahip olacak, örneğin: belge bilgilerinin parmak izini almak.

Peki SEO Bilgi Parmak İzi nedir ve web sitesi sayfalarının sıklığı nasıl hesaplanır?

Makalenin içeriği:

Anahtar kelimeler: arama motoru, web sayfası kopyalama, algoritma, bilgi parmak izi, parmak izi, anahtar kelimeler

Arama motorları genellikle yinelenen web sayfalarını şu fikre göre derecelendirir: her web sayfası bir dizi bilgi parmak izi hesaplanır (Parmak izi). İki web sayfasının belirli sayıda aynı bilgi parmak izine sahip olması durumunda, iki web sayfasının içeriğinin yüksek düzeyde örtüştüğü, yani iki sayfanın içeriğinin kopyalandığı kabul edilir.

Çoğu arama motoru, esas olarak aşağıdaki iki fark nedeniyle içerik çoğaltmayı değerlendirmek için farklı yöntemler kullanır:

  • Bilgi parmak izini (Parmak izi) hesaplamak için algoritma;
  • Bilgi parmak izlerinin benzerliğini değerlendirmek için parametre.

Belirli bir algoritmayı açıklamadan önce iki noktayı açıklığa kavuşturalım:

  1. Bilgi ayak izi nedir? Bir bilgi parmak izi, bir web sayfasındaki metin bilgisinden belirli bilgileri çıkarmak için tasarlanmıştır. Bu bilgiler, bir web sayfasındaki anahtar kelimeler, kelimeler, cümleler veya paragraflar ve bunların ağırlıkları olabilir ve bir dizi oluşturmak için MD5 şifrelemesi gibi şifrelenebilir. Bilgi parmak izleri insan parmak izlerine benzer, içerik farklıysa bilgi parmak izleri de farklıdır.
  2. Algoritma tarafından çıkarılan bilgiler web sayfasının tamamına değil, web sitesinin gezinme çubuğu, logo, telif hakkı ve diğer bilgiler gibi ortak bölümleri filtrelendikten sonra kalan metne (buna "gürültü" denir) atıfta bulunur. web sitesi veya sayfa).

Segment imza algoritması

Bu algoritma, web sayfasını belirli kurallara göre N parçaya böler, her parçayı işaretler ve her parçanın bilgi parmak izini oluşturur. Bu N parmak izinin M'si eşleşirse (m, sistem tanımlı bir eşiktir), bunlar yinelenen web sayfaları olarak kabul edilir.

Bu algoritma web sayfalarının küçük çaplı değerlendirilmesi ve kopyalanması için iyi bir algoritmadır ancak Google gibi büyük bir arama motoru için algoritmanın karmaşıklığı oldukça fazladır.

Anahtar kelimelere dayalı bir sayfayı kopyalamak için algoritma

Google gibi arama motorları, web sayfalarını tararken bir web sayfası hakkında aşağıdaki bilgileri kaydeder:

  1. Web sayfasında bulunan anahtar kelimeler (kelime bölümleme teknolojisi) ve her bir anahtar kelimenin ağırlığı (anahtar kelime yoğunluğu);
  2. Her web sayfası için meta açıklamayı veya 512 bayt geçerli metni alır.

İkinci noktaya gelince, arama motorları farklıdır, örneğin sorgu anahtar kelimesiyle ilişkilendirilmiş 512 bayt yoksa google meta açıklamanızı çeker.

Aşağıdaki algoritma açıklamasında, birkaç bilgi ayak izi değişkenini uzlaştırıyoruz:

Pi, i'nci web sayfasını temsil eder;

Web sayfasındaki en yüksek ağırlığa sahip N anahtar kelime, Ti={t1,t2,…tn} kümesini ve karşılık gelen ağırlıkları Wi={w1,w2,…wi} oluşturur.

Soyut bilgi Des(Pi), ilk n anahtar kelimenin oluşturduğu dizi Con(Ti), n anahtar kelimenin sıralanması ile oluşan dizi ise Sort(Ti) ​​ile temsil edilmektedir.

Yukarıdaki bilgi parmak izleri, MD5 işlevi kullanılarak şifrelenir.

Anahtar kelimelere dayalı beş tür sayfa kopyalama algoritması vardır:

  1. MD5(Des(Pi))=MD5(Des(Pj)) bu, özet bilgilerin tamamen aynı olduğu ve i ve j adlı iki web sayfasının mükerrer web sayfaları olduğu anlamına gelir;
  2. MD5(Con(Ti))=MD5(Con(Tj)), ilk n anahtar kelimenin sıralaması ve ağırlıkları iki web sayfası için aynıdır, bu, yinelenen bir web sayfası olarak kabul edilir;
  3. MD5(Sort(Ti))=MD5(Sort(Tj))), iki web sayfasının ilk n anahtar kelimesi aynıdır, ancak ağırlıkları farklı olabilir ve bu da yinelenen bir web sayfası olarak kabul edilir.
  4. MD5(Con(Ti))=MD5(Con(Tj)) ve Wi-Wj'nin karesinin toplamının Wi ve Wj'nin karesine bölümü, belirli bir a eşiğinden küçükse, bu iki değer çift kabul edilir internet sayfaları.
  5. MD5(Sıralama(Ti))=MD5(Sıralama(Tj)) ve Wi-Wj'nin karesinin toplamının Wi ve Wj'nin karesine bölümü, belirli bir a eşiğinden küçükse, bu ikisi yinelenen web sayfaları olarak kabul edilir.

4. ve 5. eşik a'ya gelince, bunun başlıca nedeni, önceki yargı koşulu altında, hala kazara bozulacak birçok web sayfası olacak olmasıdır. Arama motorunun gelişimi, kazara hasarı önlemek için ağırlık dağıtım faktörüne göre ayarlanmıştır.

Elbette, ne kadar çok hesaplama algoritması seçerseniz, karar o kadar doğru olur, ancak hesaplama hızı da yavaşlar. Bu nedenle, hesaplamaların hızı ile tekilleştirmenin doğruluğu arasındaki dengeyi dikkate almak gerekir. Skynet testinin sonuçlarına göre, yaklaşık 10 anahtar kelime en alakalı olanıdır.

Not:

Yukarıdakiler, elbette, web sayfalarının arama motorları tarafından büyük ölçekli kopyalanmasının tüm yönlerini kapsayamaz ve bilgi parmak izleriyle ilgili bazı yardımcı bilgi yargılarına sahip olmaları gerekir.

Bu makaleyi okumak:

Okuduğunuz için teşekkürler: SEO YARDIMI | NICOLA.ÜST

Bu gönderi ne kadar yararlı oldu?

Derecelendirmek için bir yıldıza tıklayın!

Ortalama puanı 5 / 5. Oy sayısı: 311

Şimdiye kadar oy yok! Bu gönderiyi ilk değerlendiren siz olun.

Şunlar da hoşunuza gidebilir...

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

5 × dört =