KOD: A3195
ARAMA MOTORLARININ ÇALIŞMA SİSTEMİ :
Arama Motorları için önemli faktörlere kısaca değinmek gerekirse;
- Alaka Düzeyi,
- Yetki ve
- Kişiselleştirme bulunmaktadır.
Bu verileri anlamak ve siteleri bunlara göre optimize etmek web sitelere önemli bir oranda fayda sağlayacaktır. Arama motorları (Google, Yandex, Bing vs) her yıl onlarca algoritma değişiklikleri gerçekleştirmektedir. Bunun yapılmasının amacı ise; araştırma yapan ziyaretçilerine daha yakın sonuçlar sağlayabilmektir.
Robots.TXT NEDİR?
Arama motoru robotlarının görevi : Bir Web Sitesi’nin sayfalarını taramak, o Web Sitesi’ni ve Web Sitesi içerisinde bulunan bilgileri arşivlemektir. Bunun için, Online mağaza olarak ya da daha başka amaçlar için açılmış olan o Web Siteleri’nin içerisinde; önemli bilgiler içeren bazı bölümlerde bulunabileceği için; ilgili bölümleri arama motorları robotlarının erişimine kapatmak istenilebilir. Bunu sağlamak için; robot.txt dosyası kullanılabilen en etkili yöntemlerden birisidir.
Robots.txt, arama motoru robotlarının, oluşturulmuş olan Web Site için, hangi bölümleri dizine ekleyebileceğini, hangi dizini taraması gerektiğini, hangi arama motoru robotlarının Web Site’ye giriş izni olduğunu veya olmadığını söylemeye yarayan basit bir komut dosyasıdır.
Örümcek olarak da adlandırılabilen Arama motoru botları, Web site içerisine geldiğinde ilk olarak bu txt dosyasını taramakta olup, txt dosyasında ki komutlara göre sitenin sadece izin verilen bölümlerini dizine eklemektedir.
Robots.TXT NASIL HAZIRLANMALIDIR ?
Robots.txt dosyası, belli standartlara uygun olarak hazırlanması gerekmektedir. Web Site’nin kök dizinine yüklenmelidir. Robots.txt dosyası hazırlanırken; dikkat edilmesi gereken en önemli üç nokta bulunmaktadır :
- Robots.txt dosyası, Web Site’nin kök dizininde bulunması,
- Robots.txt dosyası’nın, UTF-8 karakter kodlaması ile hazırlanmış olması,
- Robots.txt dosyası’nın, Web Site URL’si ile aynı formatta olması gerekmektedir.
1) Oluşturulan bu txt dosyası kesinlikle, alt bir klasör veya başka bir sayfa içerisinde bulunmaması gerekmektedir.
- https://www.websiteadresi.com/robots.txt/ şeklinde olmalıdır.
2) UTF-8 karakter kodlaması dışında hiçbir zaman başka bir kodlama çeşidi kullanılmamalıdır.
3) Ayrıca Robots.txt dosyasının sahip olduğu URL, web site’nin erişildiği URL ile aynı olmalıdır.
Eğer https protokolü kullanılıyorsa, robots.txt dosyasının adresi de https protokolüne uygun olacak şekilde oluşturulmalıdır.
- Site URL’si : https://www.websiteadresi.com/
- Robots.txt URL’si : https://www.websiteadresi.com/robots.txt/
KOMUTLAR
Robots.txt içerisinde belirli işlemleri gerçekleştirmek için standartlaşmış komutlar kullanılır. Bu komutlar temel olarak üç ana başlıkta toplanmaktadır :
▪ Grup komutları
- Arama motoru robotu engelleme / izin verme,
- Dizin engelleme / izin verme,
- Sayfa engelleme / izin verme,
- Tarama gecikmesi belirtme şeklindedir.
▪ Grup dışı komutlar
- Site haritası belirtme şeklindedir.
▪ Yorum ve notlar
- Dosyaya eklediğiniz komutlar için yorum ve notlar yazma olarak söylenebilir.
Grup Komutları
Grup komutları, kesin ve net ifadelerden oluşmalıdır. Yazım hatası yapılmış veya var olmayan dizin ya da sayfalarla ilgili komutlar dikkate alınmaz. Bu kategori içerisinde örnek olarak bazı komutları verecek olursak ;
User-agent : Kullanıcı aracısı olarak da bilinen bu komut,Web Sitesine hangi arama motoru robotunun gelebileceğinin ya da gelemeyeceğinin bildirilmesini sağlar. Arama motorları’nın Web Sitesi’ni taraması istenmiyorsa, user-agent komutunu kullanılabilir.
user-agent: *
disallow: /
Dizin engelleme / izin verme : Web Sitesinde ki belli bir dizinin taranmasını istenip veya istenmeyebilir. Buna göre bu komut satırı kullanılarak işlem gerçekleştirilebilir.
Web Sitesi’nde yer alan görsellerin arama motorları tarafından taranmasını istenmiyorsa, bu komut satırını kullanılabilir.
user-agent: *
disallow: /ozel/
Yukarıdaki komut satırını kullanıldığında, arama motoru robotu sitenizdeki https://www.siteadresiniz.com/ozel/ URL’sine sahip olan “ozel” dizinini taramayacak ve bu dizinin içinde yer alan sayfaları dizine eklemeyecektir.
Sayfa engelleme / izin verme : Web sitesinde bulunan özgül(spesifik) bir sayfanın arama motorları tarafından taranması istenmiyorsa, bu komut satırını kullanılabilir.
user-agent: *
disallow: /ozel-belgeler.html/
Yukarıdaki komut satırında sadece,
https://www.websiteadresi.com/ozel-belgeler.html adresinde yer alan içeriğin taranmasını ve dizine eklenmesini engelleyecektir.
Tarama gecikmesi belirtme : Web Sitesi’nin belirtilen süre içerisinde taranabildiği kadar taranmasını, bu süre dışında kalan sayfaların taranmamasına sebep olan bir komut satırıdır.
user-agent: yandexbot
crawl-delay: 2
Yukarıdaki komut satırında, yandexbot’un 2 dakika içinde taradığı kadar sayfayı taraması, 2 dakika bittikten sonra kalan dizin ve sayfaları taramadan siteyi terk etmesi gerektiği belirtilmiştir.
Grup Dışı Komutlar
Sitemap.xml dosyası, sitenizin taranması konusunda arama motoru robotlarına en önemli bilgileri vereceği için, mutlaka kullanılmalıdır.
Grup dışı komutlar ise ; sitemap.xml dosyasının yerini belirtmek için kullanılabilir. Kullanımı kolay olmakla birlikte, sadece sitemap.xml dosyasının URL’sinin doğru şekilde yazılmış olması gerekmektedir.
user-agent: *
Sitemap : https://www.websiteadresi.com/sitemap.xml
Yorum ve Notlar
Robots.txt dosyası içerisine, site yöneticisine, tasarımcıya veya kullanıcıya hitap eden, arama motoru robotlarının dikkate almadığı notlar bırakılabilir. Bunun için # karakterini kullanmak gerekmektedir.
# Not: Tasarım dizini 1 hafta sonra robot erişimine açılacak.
user-agent: *
Disallow: /tasarim/
Disallow: /dosyalar/ # Bu dizin, kopyalama bittikten sonra erişime açılacak.
Robots.txt Dosyasında Kullanılabilen Özel Komutlar
Robots.txt dosyasına eklenen özel komutlarla, belli bir karakter ya da belli bir URL uzantısını içeren sayfaların hepsini, arama motoru robotlarının erişimine kapatılabilir. Örneğin;
user-agent: *
Disallow: /*?
Yukarıdaki örnekte, URL içerisinde soru işareti (?) olan tüm URL’ler arama motoru robotlarının erişimine kapatılmış durumdadır.
User-agent: Googlebot
Disallow: /*.asp$
Yukarıdaki örnekte, dolar işareti ($) kullanarak Web Sitesi’nde URL uzantısı .asp olan tüm sayfalar, arama motoru robotlarının erişimine kapatılmış olur.
Yani, https://www.websiteadresi.com/iletisim/iletisim-formu-deneme.asp gibi URL’ler, arama motoru robotlarının erişimine kapatılmış olur.
Müşteri hizmetleri ekibimiz sizin için burada!
Bizimle İletişime geçin