Mis on SEO teabe sõrmejälg ja kuidas arvutada veebisaidi lehtede korratavust?

printida · Время на чтение: 4мин · kõrval · Avaldatud · Uuendatud

mängidaKuulake seda artiklit

Mis on SEO teabe sõrmejälg?Mis on SEO teabe sõrmejälg? SEO poole liikudes seisame sageli silmitsi väljakutsega kirjutada originaalartikleid. Paljud inimesed arvavad, et erinevatest Interneti-artiklitest välja võetud lõike saab kombineerida. Nii on võimalik luua täiesti uut originaalsisu, kuid tegelikult pole mõnikord see, mida me ette kujutame, nii lihtne. Eriti otsingumootorite algoritmide pideva täiustamisega. Teisel poolel on selle probleemi lahendamiseks palju strateegiaid, näiteks: dokumendi teabe sõrmejälgede võtmine.

Niisiis, mis on SEO teabe sõrmejälg ja kuidas arvutada veebisaidi lehtede sagedust?

Artikli sisu:

Võtmesõnad: otsingumootor, veebilehtede kopeerimine, algoritm, teabe sõrmejälg, sõrmejälg, märksõnad

Otsingumootorid hindavad tavaliselt dubleerivaid veebilehti selle idee alusel iga veebileht arvutatakse sõrmejälgede kogum (Sõrmejälg). Kui kahel veebilehel on teatud arv identseid teabesõrmejälgi, loetakse kahe veebilehe sisu tugevalt kattuvaks, st kahe lehe sisu dubleeritakse.

Paljud otsingumootorid kasutavad sisu replikatsiooni hindamiseks erinevaid meetodeid, peamiselt kahe järgmise erinevuse tõttu.

  • Infosõrmejälje (Fingerprint) arvutamise algoritm;
  • Parameeter teabe sõrmejälgede sarnasuse hindamiseks.

Enne konkreetse algoritmi kirjeldamist selgitame kahte punkti:

  1. Mis on teabe jalajälg? Teabe sõrmejälg on loodud teatud teabe eraldamiseks veebilehe tekstilisest teabest. See teave võib olla märksõnad, sõnad, laused või lõigud ja nende kaal veebilehel ning selle krüptimine, näiteks MD5 krüptimine, et moodustada string. Infosõrmejäljed on sarnased inimese sõrmejälgedega, kui sisu on erinev, siis infosõrmejäljed on erinevad.
  2. Algoritmi abil eraldatud teave ei viita kogu veebilehele, vaid ülejäänud tekstile pärast veebisaidi tavaliste osade (nt navigeerimisriba, logo, autoriõiguse ja muu teabe) filtreerimist (seda nimetatakse "müraks"). veebisaidil või lehel).

Segmendi allkirja algoritm

See algoritm lõikab veebilehe teatud reeglite järgi N segmendiks, allkirjastab iga segmendi ja moodustab igast segmendist teabe sõrmejälje. Kui M neist N-st sõrmejälgedest ühtib (m on süsteemi määratud lävi), loetakse need dubleerivateks veebilehtedeks.

See algoritm on hea algoritm veebilehtede väikesemahuliseks hindamiseks ja kopeerimiseks, kuid suure otsingumootori nagu Google jaoks on algoritmi keerukus üsna kõrge.

Algoritm lehe kopeerimiseks märksõnade alusel

Otsingumootorid, nagu Google, salvestavad veebilehtedel roomamisel veebilehe kohta järgmise teabe:

  1. Veebilehelt leitud märksõnad (sõna segmenteerimise tehnoloogia) ja iga märksõna kaal (märksõna tihedus);
  2. Otsib iga veebilehe metakirjelduse või 512 baiti kehtivat teksti.

Mis puudutab teist punkti, siis otsingumootorid on erinevad, google tõmbab sinu metakirjelduse näiteks siis, kui päringu märksõnaga pole seotud 512 baiti.

Järgmises algoritmi kirjelduses ühildame mitu teabejalajälje muutujat:

Pi tähistab i-ndat veebilehte;

N kõige suurema kaaluga märksõna veebilehel moodustavad hulga Ti={t1,t2,…tn} ja vastavad kaalud Wi={w1,w2,...wi}

Abstraktset teavet esindab Des(Pi), esimesest n-st märksõnast moodustatud stringi tähistab Con(Ti) ja n märksõna sorteerimisel moodustatud stringi Sort(Ti).

Ülaltoodud teabe sõrmejäljed krüpteeritakse funktsiooni MD5 abil.

Märksõnadel põhinevaid lehe kopeerimisalgoritme on viit tüüpi:

  1. MD5(Des(Pi))=MD5(Des(Pj)), mis tähendab, et kokkuvõtlik teave on täpselt sama ja kahte veebilehte i ja j loetakse dubleerivateks veebilehtedeks;
  2. MD5(Con(Ti))=MD5(Con(Tj)), esimese n märksõna järjestus ja nende kaal on kahel veebilehel sama, seda loetakse dubleerivaks veebileheks;
  3. MD5(Sort(Ti))=MD5(Sort(Tj)), kahe veebilehe esimesed n märksõnad on samad, kuid kaalud võivad olla erinevad ja seda peetakse ka dubleerivaks veebileheks.
  4. MD5(Con(Ti))=MD5(Con(Tj)) ja Wi-Wj ruudu summa jagatud Wi ja Wj ruuduga on väiksem kui teatud lävi a, siis loetakse need kaks väärtust dubleerivaks veebilehed.
  5. MD5(Sort(Ti))=MD5(Sort(Tj)) ja kui Wi-Wj ruudu summa jagatud Wi ja Wj ruuduga on väiksem kui teatud lävi a, loetakse need kaks veebilehtede duplikaati.

Mis puudutab läve a 4. ja 5. kohta, siis see on peamiselt tingitud sellest, et eelmise kohtuotsuse tingimuse kohaselt jääb endiselt palju veebilehti, mis kogemata rikutakse. Otsingumootori arendust kohandatakse vastavalt kaalujaotustegurile, et vältida juhuslikke kahjustusi.

Muidugi, mida rohkem arvutusalgoritme valite, seda täpsem on otsus, kuid ka arvutuskiirus aeglustub. Seetõttu tuleb arvestada tasakaaluga arvutuste kiiruse ja deduplikatsiooni täpsuse vahel. Skyneti testi tulemuste järgi on kõige asjakohasemad umbes 10 märksõna.

P.S

Loomulikult ei saa ülaltoodu hõlmata kõiki veebilehtede laiaulatusliku kopeerimise aspekte otsingumootorite poolt ja neil peavad olema täiendavad teabeotsused teabe sõrmejälgede kohta.

Seda artiklit lugedes:

Täname lugemise eest: SEO HELPER | NICOLA.TOP

Kui kasulik see postitus oli?

Selle hindamiseks klõpsake tärnil!

Keskmine hinne 5 / 5. Häälte arv: 311

Seni pole hääli! Olge esimene, kes seda postitust hindab.

Sulle võib meeldida ka...

Lisa kommentaar

Sinu e-postiaadressi ei avaldata. Nõutavad väljad on tähistatud *-ga

18 + viis =