Crawl Bütçesi Optimizasyonu: Büyük Siteler İçin Tarama Verimliliği

Sezer DEMİR
30 Mar
3 dakikada okunur

Ağ bağlantısı ve veri akışı — web crawler ve tarama bütçesi konsepti

Crawl bütçesi (tarama bütçesi), Googlebot'un sitenizi belirli bir zaman diliminde tarayabileceği toplam sayfa sayısını ifade eder. Küçük siteler için bu kavram pratikte sorun yaratmaz — Googlebot tüm sayfalarınızı kolayca tarar. Ancak binlerce ya da on binlerce URL barındıran e-ticaret siteleri, haber portalları veya büyük kurumsal siteler için crawl bütçesi optimizasyonu kritik bir teknik SEO önceliğidir. Bütçeniz verimli kullanılmıyorsa yeni ürün sayfalarınız günlerce, hatta haftalarca taranmadan bekleyebilir.

⠀

Crawl Bütçesi Nasıl Belirlenir?

⠀

Googlebot iki faktörün dengesine göre bir siteye ne kadar kaynak ayıracağına karar verir:

Crawl hızı limiti (crawl rate limit): Sunucunuzu aşırı yüklememek için Googlebot'un uyguladığı hız kısıtlaması. Sunucunuz yavaş yanıt veriyorsa Googlebot tarama hızını düşürür.
Tarama talebi (crawl demand): Sitenizin popülerliği ve sayfaların ne sıklıkla güncellendiği. Yüksek otorite ve sık güncellenen içerik daha fazla tarama talebi yaratır.

⠀

Bu iki faktörün kesişimi efektif crawl bütçenizi belirler. Sunucu yanıt sürelerinizi iyileştirirseniz Googlebot daha fazla sayfayı aynı sürede tarayabilir.

⠀

Hangi Siteler Crawl Bütçesi Sorunuyla Karşılaşır?

⠀

Crawl bütçesi optimizasyonu her site için aynı aciliyette değildir. Şu özelliklerden birkaçına sahip siteler öncelikli olarak değerlendirmelidir:

10.000'den fazla URL barındıran siteler
Binlerce varyant URL üreten faceted navigation (filtrelenmiş navigasyon) kullanan e-ticaret siteleri (renk, beden, fiyat filtrelemeleri)
Oturum tabanlı URL'ler (örn. ?sessionid=abc123) üreten eski sistemler
Sık güncellenen veya büyük hacimde yeni sayfa ekleyen haber ve blog siteleri
Kaldırılmış ürünler için hâlâ aktif sayfaları olan siteler

robots.txt ile Crawl Bütçesini Yönetmek

⠀

robots.txt, Googlebot'a hangi URL'leri taramaması gerektiğini bildiren bir metin dosyasıdır. Doğru yapılandırılmış bir robots.txt, tarama bütçesinin değerli sayfalara yönelmesini sağlar.

robots.txt ile Googlebot'u engellemek için mantıklı hedefler:

/admin/, /hesabim/, /sepet/ gibi kullanıcı oturumu gerektiren sayfalar
Arama sonuç sayfaları (/ara?q=...)
Parametre tabanlı filtreleme URL'leri (e-ticaret filtre kombinasyonları)
Teknik sistem sayfaları (etiket arşivleri, tarih arşivleri)

⠀

Önemli uyarı: robots.txt yalnızca taramayı engeller, indekslemeyi değil. Bir sayfa başka sitelerden link alıyorsa robots.txt ile engellenmiş olsa bile indekslenebilir. İndekslemeyi önlemek için noindex meta etiketi kullanın.

⠀

Sitemap Optimizasyonu: Öncelikli Sayfaları Öne Çıkarın

⠀

XML sitemap (site haritası), Googlebot'a sitenizin en önemli URL'lerini bildiren bir yol haritasıdır. Büyük siteler için sitemap yönetimi şu kurallara göre yapılmalıdır:

Sitemap'a yalnızca canonical (kanonik) ve indekslenmesini istediğiniz sayfaları ekleyin.
Noindex etiketli sayfaları sitemap'tan çıkarın — bu çelişki Googlebot'u karıştırır.
Büyük sitelerde kategori, ürün ve blog için ayrı sitemap dosyaları oluşturun, ardından bunları bir sitemap index dosyasında birleştirin.
Sitemap'ı Google Search Console'a gönderin ve düzenli aralıklarla hata raporlarını kontrol edin.

⠀

noindex Kullanımı: Değersiz Sayfaları Taramadan Koru

⠀

noindex meta etiketi, bir sayfanın Google tarafından indekslenmesini engeller. Ancak Googlebot bu sayfayı taramaya devam eder — bu nedenle noindex tek başına crawl bütçesi tasarrufu sağlamaz. Taramayı da engellemek istiyorsanız robots.txt ile birlikte kullanın.

noindex için uygun sayfalar:

Sayfalama sayfaları (örn. /urunler?sayfa=45)
İnce içerikli etiket ve yazar arşiv sayfaları
Dahili arama sonuç sayfaları
Test veya geçici landing page'ler
Stokta olmayan ve kaldırılmayacak ürün sayfaları⠀

⠀

Log Dosyası Analizi: Googlebot Gerçekte Ne Yapıyor?

⠀

Teknik SEO'nun en güçlü araçlarından biri log dosyası analizi (log file analysis)dir. Sunucu log dosyaları, Googlebot'un sitenizi gerçekte nasıl gezdiğini, hangi sayfalara kaç kez uğradığını ve hangi HTTP yanıt kodlarını aldığını ham verisiyle gösterir.

Log analizinde dikkat edilecek noktalar:

Googlebot en çok zamanını nerede harcıyor? (Değerli sayfalarda mı, gereksiz URL'lerde mi?)
404 veya 500 dönen URL'ler taranıyor mu? Bu hatalar bütçe israfıdır.
Yeni eklenen önemli sayfalar kaç günde taranıyor?
Engellenmiş olması gereken URL'ler hâlâ taranıyor mu?

⠀

Screaming Frog Log File Analyser, Botify veya JetOctopus bu analiz için kullanılan araçlardır. Büyük e-ticaret projelerinde log analizi olmadan yapılan teknik SEO çalışmaları eksik kalır.

Blakfy olarak büyük siteler için yürüttüğümüz teknik SEO denetimlerinde crawl bütçesi analizi her zaman öncelikli adımlardan biridir; çünkü taranmayan sayfa sıralanmaz.

⠀

Sık Sorulan Sorular

⠀

Küçük bir site için crawl bütçesi önemli mi?

500'den az sayfası olan siteler için bu konu genellikle öncelikli değildir. Googlebot bu ölçekteki siteleri kolaylıkla tarar. Bununla birlikte yüzlerce parametre URL'i üreten filtreler veya oturum tabanlı URL'ler küçük sitelerde de sorun yaratabilir.

Crawl bütçemi Google Search Console'dan görebilir miyim?

Doğrudan bir "crawl bütçesi" raporu yoktur. Ancak "Dizin Oluşturma > Gezinme İstatistikleri" (eski adıyla Crawl Stats) bölümünde Googlebot'un günlük tarama hacmini, yanıt sürelerini ve HTTP durum kodlarını görebilirsiniz.

robots.txt ile engellenen sayfalar sıralama kaybına yol açar mı?

Hayır — engellenen sayfa zaten indekslenmediği için sıralamada görünmez. Sorun şuradan kaynaklanır: Yanlışlıkla önemli sayfalar engellenirse bu sayfalar sıralamadan tamamen düşer. robots.txt değişikliklerini her zaman önce test ortamında doğrulayın.

Faceted navigation neden crawl bütçesini tüketiyor?

Bir e-ticaret sitesinde renk, beden, fiyat ve marka gibi filtreler birleştirildiğinde aynı ürün seti için binlerce farklı URL oluşabilir. Bu URL'lerin büyük bölümü benzersiz içerik sunmaz; dolayısıyla Googlebot bunları taramak için kaynak harcar ama SEO değeri üretmez. Parametre yönetimi ve robots.txt kombinasyonu bu sorunu çözer.