SEO ma'lumotlari barmoq izi nima va veb-sayt sahifalarining takrorlanishini qanday hisoblash mumkin?
· Vremya na chtenie: 4min · tomonidan · Chop etilgan · YangilanganSEO ma'lumoti barmoq izi nima? SEO yo'lida biz ko'pincha original maqolalar yozish muammosiga duch kelamiz. Ko'pchilik Internetdagi turli maqolalardan olingan paragraflarni birlashtirish mumkin deb o'ylashadi. Shu tarzda, butunlay yangi original kontent yaratish mumkin, lekin aslida, ba'zida biz tasavvur qiladigan narsa unchalik oddiy emas. Ayniqsa, qidiruv tizimining algoritmlarini doimiy takomillashtirish bilan. Boshqa tomon bu muammoni hal qilish uchun ko'plab strategiyalarga ega bo'ladi, masalan: hujjat ma'lumotlarini barmoq izini olish.
Shunday qilib, SEO ma'lumoti barmoq izi nima va veb-sayt sahifalarining chastotasini qanday hisoblash mumkin?
Maqolaning mazmuni:
- Kalit so'zlar: qidiruv tizimi, veb-sahifani nusxalash, algoritm, ma'lumot barmoq izi, barmoq izi, kalit so'zlar
- Segment imzosi algoritmi
- Kalit so'zlar asosida sahifani nusxalash algoritmi
Kalit so'zlar: qidiruv tizimi, veb-sahifani nusxalash, algoritm, ma'lumot barmoq izi, barmoq izi, kalit so'zlar
Qidiruv mexanizmlari odatda dublikat veb-sahifalarni shu fikrga asoslanib baholaydilar har bir veb-sahifa barmoq izlari ma'lumotlari to'plami hisoblanadi (Barmoq izi). Agar ikkita veb-sahifada ma'lum miqdordagi bir xil ma'lumotlarning barmoq izlari bo'lsa, ikkita veb-sahifaning mazmuni bir-biriga juda mos keladi, ya'ni ikkita sahifaning mazmuni takrorlanadi.
Ko'pgina qidiruv tizimlari asosan quyidagi ikkita farq tufayli tarkibni replikatsiya qilishni baholash uchun turli usullardan foydalanadi:
- Axborot barmoq izini hisoblash algoritmi (barmoq izi);
- Barmoq izlari ma'lumotlarining o'xshashligini baholash parametri.
Muayyan algoritmni tavsiflashdan oldin ikkita fikrga aniqlik kiritamiz:
- Axborot izi nima? Axborot barmoq izi veb-sahifadagi matnli ma'lumotlardan ma'lum ma'lumotlarni olish uchun mo'ljallangan. Ushbu ma'lumot kalit so'zlar, so'zlar, jumlalar yoki paragraflar va ularning veb-sahifadagi og'irliklari bo'lishi mumkin va ularni shifrlash, masalan, MD5 shifrlash, satr hosil qilish uchun. Axborot barmoq izlari inson barmoq izlariga o'xshaydi, agar mazmuni boshqacha bo'lsa, unda axborot barmoq izlari boshqacha bo'ladi.
- Algoritm tomonidan olingan ma'lumotlar butun veb-sahifaga emas, balki veb-saytning umumiy qismlari, masalan, navigatsiya paneli, logotip, mualliflik huquqi va boshqa ma'lumotlar (bu "shovqin" deb ataladi) filtrlangandan keyin qolgan matnga tegishlidir. veb-sayt yoki sahifa).
Segment imzosi algoritmi
Ushbu algoritm veb-sahifani ma'lum qoidalarga muvofiq N segmentga ajratadi, har bir segmentga imzo qo'yadi va har bir segmentning ma'lumot barmoq izini shakllantiradi. Agar ushbu N barmoq izlaridan M mos kelsa (m - tizim tomonidan belgilangan chegara), ular takroriy veb-sahifalar hisoblanadi.
Bu algoritm kichik miqyosda baholash va veb-sahifalarni nusxalash uchun yaxshi algoritmdir, lekin Google kabi yirik qidiruv tizimi uchun algoritmning murakkabligi ancha yuqori.
Kalit so'zlar asosida sahifani nusxalash algoritmi
Google kabi qidiruv tizimlari veb-sahifalarni skanerlashda veb-sahifa haqida quyidagi ma'lumotlarni yozib oladi:
- Veb-sahifada topilgan kalit so'zlar (so'zlarni segmentatsiyalash texnologiyasi) va har bir kalit so'zning og'irligi (kalit so'z zichligi);
- Meta tavsifini yoki har bir veb-sahifa uchun 512 bayt to'g'ri matnni oladi.
Ikkinchi nuqtaga kelsak, qidiruv tizimlari boshqacha, Google sizning meta tavsifingizni oladi, masalan, so'rov kalit so'zi bilan bog'liq 512 bayt bo'lmasa.
Quyidagi algoritm tavsifida biz bir nechta ma'lumot izi o'zgaruvchilarini moslashtiramiz:
Pi i-chi veb-sahifani ifodalaydi;
Veb-sahifadagi eng katta vaznga ega N kalit so'zlar Ti={t1,t2,…tn} to'plamini va tegishli og'irliklarni Wi={w1,w2,…wi} tashkil qiladi.
Mavhum ma'lumot Des(Pi), birinchi n ta kalit so'z bilan tuzilgan qator Con(Ti), n ta kalit so'zni saralash orqali hosil qilingan qator Sort(Ti) bilan ifodalanadi.
Yuqoridagi axborot barmoq izlari MD5 funksiyasi yordamida shifrlangan.
Kalit so'zlarga asoslangan sahifalarni nusxalash algoritmlarining besh turi mavjud:
- MD5(Des(Pi))=MD5(Des(Pj)), ya'ni xulosa ma'lumotlari aynan bir xil va ikkita i va j veb-sahifalar takroriy veb-sahifalar hisoblanadi;
- MD5(Con(Ti))=MD5(Con(Tj)), birinchi n ta kalit soʻzning reytingi va ularning ogʻirligi ikki veb-sahifa uchun bir xil, bu dublikat veb-sahifa hisoblanadi;
- MD5(Sort(Ti))=MD5(Sort(Tj)), ikkita veb-sahifaning birinchi n ta kalit so‘zi bir xil, ammo og‘irliklari har xil bo‘lishi mumkin va bu ham dublikat veb-sahifa hisoblanadi.
- MD5(Con(Ti))=MD5(Con(Tj)) va Wi-Wj kvadratining yigʻindisi Wi va Wj kvadratiga boʻlingan maʼlum bir chegara adan kichik boʻlsa, bu ikki qiymat takroriy hisoblanadi. veb-sahifalar.
- MD5(Sort(Ti))=MD5(Sort(Tj)) va agar Wi-Wj kvadratining yigʻindisi Wi va Wj kvadratiga boʻlingan boʻlsa, maʼlum bir chegara adan kichik boʻlsa, bu ikkisi takrorlangan veb-sahifalar hisoblanadi.
4 va 5-chi o'rinlar uchun a chegarasiga kelsak, bu, asosan, oldingi hukm shartlariga ko'ra, tasodifan buzilgan ko'plab veb-sahifalar bo'ladi. Qidiruv tizimining rivojlanishi tasodifiy zararni oldini olish uchun og'irlikni taqsimlash omiliga qarab o'rnatiladi.
Albatta, siz qanchalik ko'p hisoblash algoritmlarini tanlasangiz, hukm shunchalik aniq bo'ladi, lekin hisoblash tezligi ham sekinlashadi. Shuning uchun hisob-kitoblar tezligi va deuplikatsiyaning aniqligi o'rtasidagi muvozanatni hisobga olish kerak. Skynet testi natijalariga ko'ra, 10 ga yaqin kalit so'zlar eng dolzarb hisoblanadi.
P.S
Yuqorida aytilganlar, albatta, qidiruv tizimlari tomonidan veb-sahifalarni katta hajmda nusxalashning barcha jihatlarini qamrab olmaydi va ular axborot barmoq izlari haqida ba'zi yordamchi ma'lumotga ega bo'lishi kerak.
Ushbu maqolani o'qish:
- SEO autsorsing xizmatlarini tanlashda nimalarga e'tibor berish kerak?
- 7 ta umumiy SEO operatsion jarayonlari - SEO dizayni
O'qiganingiz uchun tashakkur: SEO HELPER | NICOLA.TOP