Popüler inanışın aksine, büyük arama motorları tarafından gönderilen arama motoru örümceklerinin bir sitedeki her şeyi araması gerekmez. Aslında, bir arama motoru örümceğini, belirli bir robots meta etiketi veya sayfanın yanına gelmemesi için bir dosya aracılığıyla talimat vererek bir sayfadan uzak tutabilirsiniz.
Web yöneticileri, örümceklere, etki alanının kök dizinindeki standart robots.txt dosyası aracılığıyla belirli dosyaları veya dizinleri taramamaları talimatını verebilir. Ek olarak, bir sayfa, bir robots meta etiketi kullanılarak bir arama motorunun veritabanından açıkça çıkarılabilir. Herhangi bir nedenle bir arama motoru örümceğinin bir sayfayı taramasını istemiyorsanız, bunu yapacak araçlara sahipsiniz.
Bir arama motoru bir siteyi ziyaret ettiğinde, kök klasörde bulunan robots.txt taranan ilk dosyadır. Robots.txt dosyası daha sonra ayrıştırılır ve yalnızca izin verilmeyen sayfalar taranır. Ancak bu her zaman aptalca bir kanıt değildir. Arama motoru örümceklerinin bir sayfadan uzaklaşıp daha sonra geri gelip sayfaya ikinci kez bakma alışkanlığı vardır. Bir arama motoru tarayıcısı bu dosyanın önbelleğe alınmış bir kopyasını tutabileceğinden, bazen bir web yöneticisinin taranmasını istemediği sayfaları tarayabilir.
Çoğu web yöneticisinin taranmamayı tercih ettiği sayfalar, alışveriş sepetleri gibi girişe özgü sayfaları ve dahili aramalardan gelen arama sonuçları gibi kullanıcıya özgü içeriği içerir. İçeriğe bağlı olarak taranmasını istemeyebileceğiniz diğer sayfalar, spam ile doldurulmasını beklediğiniz bir konuk defteri veya sizi pek memnun etmeyen bir geri bildirim sistemi olabilir. Örümceklere çok fazla animasyon veya flaş içeren bir sayfayı taramama talimatı vermek de iyi bir fikirdir, çünkü bu hatalı bir site olarak bir örümcek tarafından yanlışlıkla okunabilir.
GIPHY App Key not set. Please check settings