içinde

Arama Motoru Robotları veya Web Tarayıcıları

Yaygın kullanıcıların veya ziyaretçilerin çoğu, ihtiyaç duydukları bilgi parçasını aramak için farklı mevcut arama motorlarını kullanır. Ancak bu bilgiler arama motorları tarafından nasıl sağlanır? Bu bilgileri nereden topladılar? Temel olarak bu arama motorlarının çoğu kendi bilgi veri tabanını tutar. Bu veritabanı, web dünyasında mevcut olan ve sonuçta mevcut her site için ayrıntılı web sayfası bilgilerini içeren siteleri içerir. Temel olarak arama motoru, bilgi toplamak ve veritabanını korumak için robotlar kullanarak bazı arka plan çalışmaları yapar. Toplanan bilgilerin kataloğunu hazırlarlar ve daha sonra bunları herkese açık olarak veya bazen özel kullanım için sunarlar.

Bu yazıda, küresel internet ortamında dolaşan varlıkları tartışacağız veya ağ uzayında dolaşan web tarayıcıları hakkında konuşacağız. Öğreneceğiz

Her şey neyle ilgili ve hangi amaca hizmet ediyorlar?
Bu varlıkları kullanmanın artıları ve eksileri.
Sayfalarımızı tarayıcılardan nasıl uzak tutabiliriz?
Yaygın tarayıcılar ve robotlar arasındaki farklar.

Aşağıdaki bölümde, tüm araştırma çalışmasını aşağıdaki iki bölüme ayıracağız:

I. Arama Motoru Örümceği: Robots.txt.
II. Arama Motoru Robotları: Meta-Etiketler Açıklaması.

I. Arama Motoru Örümceği: Robots.txt

Robots.txt dosyası nedir?

Web robotu, siteleri düzenli ve otomatik olarak ziyaret eden ve bir belgeyi getirerek ve referans verilen tüm belgeleri tekrar tekrar alarak web’in köprü metni yapısında gezinen bir program veya arama motoru yazılımıdır. Bazen site sahipleri tüm site sayfalarının web robotları tarafından taranmasını istemezler. Bu nedenle, bazı standart aracıları kullanarak robotlar tarafından taranan sayfalarından birkaçını dışlayabilirler. Dolayısıyla, robotların çoğu, robot davranışlarını kısıtlayan bir dizi kısıtlama olan Robot Hariç Tutma Standardına uyar.
Robot Hariç Tutma Standardı, robotların hareketini kontrol etmek için site yöneticisi tarafından kullanılan bir protokoldür. Arama motoru robotları bir siteye geldiğinde, sitenin kök alanında (http://www.anydomain.com/robots.txt) robots.txt adlı bir dosya arayacaktır. Bu, dosya dizinlerinde belirli dosyalara izin vererek veya engelleyerek Robot Hariç Tutma Protokollerini uygulayan düz bir metin dosyasıdır. Site yöneticisi, robot kullanıcı aracı adlarını belirterek cgi, geçici veya özel dizinlere erişime izin vermeyebilir.

Robot.txt dosyasının biçimi çok basittir. İki alandan oluşur: kullanıcı aracısı ve bir veya daha fazla izin verme alanı.

Kullanıcı aracısı nedir?

Bu, dünya çapında ağ ortamındaki bir programlama kavramının teknik adıdır ve robots.txt dosyasında belirli arama motoru robotundan bahsetmek için kullanılır.
Örneğin :

Kullanıcı aracısı: googlebot

Tüm robotları belirtmek için * joker karakterini de kullanabiliriz:
Kullanıcı aracısı: *

Tüm robotların ziyarete gelmesine izin verildiği anlamına gelir.

Disallow nedir?

Robot.txt dosyasında ikinci alan izin verme olarak bilinir: Bu satırlar, hangi dosyanın taranması veya hangilerinin olmaması gerektiği konusunda robotlara rehberlik eder. Örneğin, email.htm’nin indirilmesini önlemek için sözdizimi şöyle olacaktır:

İzin verme: email.htm

Söz diziminin aşağıdaki gibi olacağı dizinler arasında gezinmeyi önleyin:

İzin verme: / cgi-bin /

Beyaz Alan ve Yorumlar:

Robots.txt dosyasındaki herhangi bir satırın başında # kullanılması yalnızca yorum olarak kabul edilir ve aşağıdaki örnekte olduğu gibi robots.txt’nin başında # kullanılması bize hangi url’nin taranacağını gerektirir.

# www.anydomain.com için robots.txt

Robots.txt için Giriş Ayrıntıları:

1) Kullanıcı-aracı: *
İzin verme:

Kullanıcı aracısı alanındaki yıldız işareti (*) tüm robotların davet edildiğini belirtir. Hiçbir şeye izin verilmediğinden, tüm robotlar gezinmek için özgürdür.

2) Kullanıcı-aracı: *
İzin verme: / cgi-bin /
İzin verme: / temp /
İzin verme: / özel /

Tüm robotların cgi-bin, temp ve özel dosya dışındaki tüm dosyalarda gezinmesine izin verilir.

3) Kullanıcı aracısı: dangerbot
İzin verme: /
Dangerbot’un herhangi bir dizinde gezinmesine izin verilmez. / tüm dizinler anlamına gelir.

4) Kullanıcı aracısı: dangerbot
İzin verme: /

Kullanıcı aracısı: *
İzin verme: / temp /

Boş satır, yeni User-agent kayıtlarının başladığını gösterir. Tehlikebot hariç diğer tüm botların geçici dizinler dışındaki tüm dizinlerde gezinmesine izin verilir.

5) Kullanıcı aracısı: dangerbot
İzin verme: /links/listing.html

Kullanıcı aracısı: *
İzin verme: /email.html/

Bağlantılar dizininin listeleme sayfası için Dangerbot’a izin verilmez, aksi takdirde email.html sayfasının indirilmesi dışında tüm dizinler için tüm robotlara izin verilir.

6) Kullanıcı-aracı: abcbot
İzin verme: /*.gif$

Tüm dosyaları belirli bir dosya türünden (ör. .Gif) kaldırmak için yukarıdaki robots.txt girişini kullanacağız.

7) Kullanıcı-aracı: abcbot
İzin verme: / *?

Web tarayıcısının dinamik sayfaları taramasını kısıtlamak için yukarıdaki robots.txt girişini kullanacağız.

Not: İzin verme alanı, herhangi bir karakter dizisini takip etmek için * içerebilir ve adın sonunu belirtmek için $ ile bitebilir.

Örneğin: Resim dosyalarının içinde tüm gif dosyalarını hariç tutmak, ancak başkalarının google taramasına izin vermesine izin vermek
User-agent: Googlebot-Image
İzin verme: /*.gif$

Robots.txt dosyasının dezavantajları:

İzin Verme alanı ile ilgili sorun:

İzin verme: / css / / cgi-bin / / images /
Farklı örümcek yukarıdaki alanı farklı bir şekilde okuyacaktır. Bazıları boşlukları yok sayacak ve / css // cgi-bin // images / okuyacak ve yalnızca / images / veya / css / diğerlerini görmezden gelmeyi düşüneceklerdir.

Doğru sözdizimi şöyle olmalıdır:
İzin verme: / css /
İzin verme: / cgi-bin /
İzin verme: / resimler /

Tüm Dosyalar listesi:

Bir dizindeki her bir dosya adını belirtmek en yaygın kullanılan hatadır
İzin verme: /ab/cdef.html
İzin verme: /ab/ghij.html
İzin verme: /ab/klmn.html
İzin verme: /op/qrst.html
İzin verme: /op/uvwx.html

Yukarıdaki kısım şu şekilde yazılabilir:
İzin verme: / ab /
İzin verme: / op /

Sondaki eğik çizgi, bir dizinin sınır dışı olduğu anlamına gelir.

Kapitalizasyon:

KULLANICI-TEMSİLCİ: REDBOT
DISALLOW:

Alanlar büyük / küçük harfe duyarlı olmasa da dizinler, dosya adları gibi veriler büyük / küçük harfe duyarlıdır.

Çakışan sözdizimi:

Kullanıcı aracısı: *
İzin verme: /
#
Kullanıcı aracısı: Redbot
İzin verme:

Ne olacak ? Redbot’un her şeyi taramasına izin verilir, ancak bu izin izin verme alanını geçersiz kılacak mı yoksa izin verme, izin verme iznini geçersiz kılacaktır.

II. Arama Motoru Robotları: Meta-etiket Açıklaması:

Robot meta etiketi nedir?

Robots.txt arama motorunun yanı sıra, web sayfalarında gezinmek için başka araçlar da var. Bu, web örümceğine bir sayfayı indekslemesini ve sayfadaki bağlantıları takip etmesini söyleyen META etiketidir, bu, bazı durumlarda sayfa bazında kullanılabileceği için daha yararlı olabilir. Robots.txt dosyasını kontrol etmek için sunucuların kök dizinine erişmek için gerekli izne sahip olmadığınız durumda da yararlıdır.
Bu etiketi html’nin başlık kısmına yerleştirirdik.

Robots Meta etiketinin biçimi:

HTML belgesinde HEAD bölümüne yerleştirilmiştir.
html
baş
META NAME = robots CONTENT = index, follow
META NAME = açıklama İÇERİK = Hoş Geldiniz.
başlık
baş
vücut

Robots Meta Etiketi seçenekleri:

Meta Robotların İÇERİK bölümünde kullanılabilecek dört seçenek vardır. Bunlar index, noindex, follow, nofollow.

Bu etiket, arama motoru robotlarının belirli bir sayfayı dizine eklemesine ve üzerinde bulunan tüm bağlantıları takip etmesine izin verir. Site yöneticisi herhangi bir sayfanın indekslenmesini veya herhangi bir bağlantının izlenmesini istemezse, indeksi değiştirebilir, noindex, nofollow ile takip edebilir.
Gereksinimlere göre site yöneticisi robotları aşağıdaki farklı seçeneklerde kullanabilir:

META NAME = robots CONTENT = indeks, takip et> Bu sayfayı indeksle, bu sayfadaki bağlantıları izle.
META NAME = robots CONTENT = noindex, follow> Bu sayfayı dizine ekleme, ancak bu sayfadaki bağlantıyı izleyin.
META NAME = robots CONTENT = index, nofollow> Bu sayfayı indeksleyin ancak bu sayfadaki bağlantıları takip etmeyin
META NAME = robots CONTENT = noindex, nofollow> Bu sayfayı dizine ekleme, bu sayfadaki bağlantıları izleme.

Ne düşünüyorsun?

Bir cevap yazın

E-posta hesabınız yayımlanmayacak.

GIPHY App Key not set. Please check settings

Arama Motoru Sıralaması: Google Sayfa Sıralaması Yanılgıları – 2

Arama Motoru Puanlama Sistemi