içinde

Robotları web sitenizden nasıl uzak tutabilirsiniz?

Robots.txt dosyası, Robots dışlama protokolü, Robotları haber gönderilerinizden uzak tutun

ROBOTS.TXT DOSYASI

Arama motorlarının, insanların İnternette bilgileri hızlı bir şekilde bulmalarına yardımcı olmak için yaratıldığını ve arama motorlarının bilgilerinin çoğunu kendileri için web sayfalarını arayan robotlar (örümcekler veya tarayıcılar olarak da bilinir) aracılığıyla elde ettiğini biliyorsunuz.

Örümcekler veya gezgin robotlar, her türlü bilgiyi arayan ve kaydeden web’i keşfeder. Genellikle kullanıcılar tarafından gönderilen URL ile veya web sitelerinde, site haritası dosyalarında veya bir sitenin üst seviyesinde buldukları bağlantılardan başlarlar.

Robot ana sayfaya eriştiğinde, o sayfadan bağlanan tüm sayfalara özyinelemeli olarak erişir. Ancak robot, belirli bir sunucuda bulabilen tüm sayfaları da kontrol edebilir.

Robot bir web sayfası bulduktan sonra başlığı, anahtar kelimeleri, metni vb. İndekslemeye çalışır. Ancak bazen arama motorlarının haber gönderileri gibi bazı web sayfalarınızı ve özel olarak işaretlenmiş web sayfalarını indekslemesini engellemek isteyebilirsiniz (örneğin: bağlı kuruluş sayfaları), ancak tek tek robotların bu kurallara uyup uymadığı tamamen isteğe bağlıdır.

ROBOTLAR DIŞI BIRAKMA PROTOKOLÜ

Dolayısıyla, robotların bazı web sayfalarınızdan uzak durmasını istiyorsanız, robotlardan dizine alınmasını istemediğiniz web sayfalarını görmezden gelmelerini isteyebilir ve bunu yapmak için web’inizin yerel kök sunucusuna bir robots.txt dosyası yerleştirebilirsiniz. site.

Örneğin, e-kitaplar adında bir dizininiz varsa ve robotlardan bu dizinin dışında kalmasını istiyorsanız, robots.txt dosyanız şöyle olmalıdır:

Kullanıcı aracısı: * İzin verme: e-kitaplar /

Bir robots.txt dosyası oluşturmak için sunucunuz üzerinde yeterli kontrole sahip olmadığınızda, herhangi bir HTML belgesinin head bölümüne bir META etiketi eklemeyi deneyebilirsiniz.

Örneğin, aşağıdaki gibi bir etiket, robotlara belirli bir sayfadaki bağlantıları dizine eklememelerini ve izlememelerini söyler:

meta name = “ROBOTLAR” içerik = “NOINDEX, NOFOLLOW”

Robotlar arasında META etiketi desteği, Robot Hariç Tutma Protokolü kadar sık ​​değildir, ancak ana web dizinlerinin çoğu şu anda desteklemektedir.

HABER İLANLARI

Arama motorlarını haber gönderilerinizden uzak tutmak istiyorsanız, gönderilerinizin başlıklarında bir “X-no-arşiv” satırı oluşturabilirsiniz:

X-no-archive: evet

Ancak, yaygın haber istemcileri, haber gönderilerinizin başlıklarına bir X-arşivsiz satırı eklemenize izin verse de, bazıları bunu yapmanıza izin vermez.

Sorun, çoğu arama motorunun, aksi belirtilmedikçe buldukları tüm bilgilerin halka açık olduğunu varsaymasıdır.

Bu yüzden dikkatli olun, çünkü robot ve arşiv dışlama standartları, materyalinizi büyük arama motorlarından uzak tutmanıza yardımcı olsa da, bu tür kurallara uymayan başkaları da vardır.

E-postanızın ve Usenet gönderilerinizin gizliliği konusunda son derece endişeliyseniz, bazı anonim yeniden posta göndericileri ve PGP kullanmanız gerekir. Buradan okuyabilirsiniz:

http://www.well.com/user/abacard/remail.html http://www.io.com/~combs/htmls/crypto.html
http://world.std.com/~franl/pgp/

Gizlilik konusunda özellikle endişelenmeseniz bile, yazdığınız her şeyin sonsuza kadar bir yerde dizine alınacağını ve arşivleneceğini unutmayın, bu nedenle robots.txt dosyasını ihtiyacınız olduğu kadar kullanın.

Dr.Roberto A. Bonomi tarafından yazıldı.

Ne düşünüyorsun?

Bir cevap yazın

E-posta hesabınız yayımlanmayacak.

GIPHY App Key not set. Please check settings

Ayrıcalıklı Hesaplar Nasıl Güvende Tutulur ve Güvenle Paylaşılır?

Stresi Arabadan Nasıl Uzak Tutabilirsiniz?