Robots.txt Nedir?
⚠ Bekle, Sadece "Engellemek" Değil...
Çoğu kişi Robots.txt dosyasını sadece sayfaları gizlemek için kullanır. Büyük hata. Bu rehberin sonunda, bu basit dosyayı kullanarak sitenin "Tarama Bütçesini" (Crawl Budget) nasıl manipüle edeceğini ve rakiplerin Google'da indexlenmek için beklerken senin nasıl express şeritten geçeceğini açıklayacağım.
User-agent: *
Disallow: /admin/
Disallow: /private-data/
Allow: /admin/public-style.css
# Googlebot scanning protocol initiated...
# Crawl budget optimization: ACTIVE
Waiting for instructions...
Robots.txt Nedir?
Dürüst olalım: Evinin kapısını ardına kadar açık bırakıp "Umarım hırsız girmez" der misin? Demezsin. Peki web siteni neden Google'ın (veya kötü niyetli botların) önüne tamamen savunmasız atıyorsun?
Robots.txt, sitenin kök dizininde (root directory) yaşayan ve sitene gelen botlara "Buraya gir", "Buradan uzak dur", "Burayı taramak için vaktini harcama" diye emrettiğin bir komut dosyasıdır. Bu dosya bir öneri değil, bir protokol kuralıdır. Eğer bunu doğru yapılandırmazsan, Google botları sitenin çöplük sayfalarında (admin paneli, filtre sonuçları, sepet sayfası) kaybolur ve asıl değerli içeriklerine sıra gelmez.
"Google'a neyi görmesi gerektiğini değil, neyi görmezden gelmesi gerektiğini söylemek, SEO'nun %50'sidir."
Neden Umursamalısın?
Varsayılan Dosya
- ❌ Dosyayı hiç oluşturmamak (Tüm kapılar açık).
- ❌ Sadece /admin/ klasörünü engellemek.
- ❌ Googlebot'un gereksiz parametrelerde (örn: ?price=asc) boğulmasına izin vermek.
- ❌ Tarama bütçesini (Crawl Budget) çöpe atmak.
Cerrahi Kontrol
- ✅ Sadece değerli sayfaların taranmasını sağlamak.
- ✅ Gereksiz filtre ve arama sayfalarını taramadan men etmek.
- ✅ Sunucu yükünü azaltmak.
- ✅ Googlebot'u "VIP" içeriklere yönlendirmek.
Kodların Dili
Botlarla konuşurken kullanacağın askeri terminoloji.
Kime Hitap Ediyorsun?
Girilmez Bölge
İstisna İzinler
Harita Konumu
Operasyon Masası
Adım Adım Yapılandırma. Hata kabul etmez.
Dosya Yeri ve Formatı
Robots.txt dosyası sitenin ANA DİZİNİNDE (Root) olmalı. Asla bir alt klasörde değil. İsmi tamamen küçük harflerle `robots.txt` olmalı. `site.com/robots.txt` adresine gittiğinde bu dosyayı görmelisin.
❌ Yanlış: www.gokhanvatanci.com/seo/robots.txt
Tüm Botlara Seslenmek (*)
Yıldız işareti (*) "wildcard" olarak geçer ve "Herkes" demektir. `User-agent: *` komutu, Google, Bing, Yandex ve diğer tüm botlara ortak bir kural setini tanımlar.
Yasak Bölge İlanı (Disallow)
Botların girmesini istemediğin klasörleri kapat. Genellikle admin panelleri (`/wp-admin/`), hesap sayfaları (`/account/`) ve sepet (`/cart/`) sayfaları burada yer alır.
Disallow: /wp-admin/
Disallow: /hesabim/
İstisna Yaratmak (Allow)
Bazen bir klasörü yasaklarsın ama içindeki tek bir dosyaya erişilmesini istersin. Googlebot'un siteni doğru render etmesi için CSS veya JS dosyalarına ihtiyacı olabilir.
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap Bildirimi
Dosyanın en altına mutlaka Site Haritası (Sitemap) linkini ekle. Bu, botların sitenin haritasını bulmasını %100 garanti altına alır.
Yapay Zeka Botlarını Engelleme
Eğer içeriğinin ChatGPT (OpenAI) tarafından eğitim verisi olarak kullanılmasını istemiyorsan, `GPTBot`'u özel olarak engelleyebilirsin.
Disallow: /
Crawl-Delay (Dikkatli Ol)
Bu komut, botlara "Sayfalarımı tararken X saniye bekle" der. Sunucun kötüyse kullanabilirsin ama Google bu komutu genelde yok sayar, Bing ise uyar. Dikkatli kullan, indexlenmeni yavaşlatabilir.
Crawl-delay: 5
Parametre Temizliği
URL sonuna gelen `?sort=`, `?filter=`, `?ref=` gibi parametreler tarama bütçesi katilidir. Bunları wildcard (*) ile engelle.
Disallow: /*?*
Disallow: /*?filter=
Dosya Uzantısı Engelleme
Google Görseller'de PDF'lerinin veya PPT dosyalarının çıkmasını istemiyorsan, dosya uzantısına göre engelleme yap.
Disallow: /*.pdf$
Test ve Yükleme
Dosyanı hazırladıktan sonra sunucuya yükle. Ardından Google Search Console'daki "Robots.txt Test Aracı" ile mutlaka hata kontrolü yap.
Robots.txt Oluşturucu
Kod bilgisi gerekmez. Kuralları seç, kodunu kopyala ve sitene yapıştır.
Konfigürasyon
Önizleme
User-agent: * Disallow:
Sır Tutabilir Misin? 🤫
"Sektörün sana 'her şeyi indexlet' dediği yalan, aslında tarama bütçeni iflas ettiriyor. Rakiplerin binlerce çöp sayfayı (etiketler, yazar arşivleri, sıralama parametreleri) Google'a sunarken, sen 'Disallow: /*?*' stratejisi ile Googlebot'u sadece ana içeriklerine odaklayıp sıralamada roket etkisi yaratacaksın."
User-agent: *
# Dinamik URL parametrelerini öldür, SEO'yu güldür.
Disallow: /*?*
Disallow: /*&filter=*
Disallow: /search/
Disallow: /tag/
# Botun gücünü makalelerine sakla.
Allow: /blog/
Allow: /urunler/
Merak Edilenler (FAQ)
Robots.txt dosyası sitemi Google'dan siler mi? ↓
Hayır, robots.txt taramayı engeller ancak indexlenmeyi %100 garantiyle engellemez. Eğer sayfan başka yerlerden link alıyorsa Google URL'yi indexleyebilir (içeriği görmese bile). Kesin silmek için 'noindex' meta etiketi kullanmalısın.
Dosyayı güncelledikten sonra ne zaman aktif olur? ↓
Googlebot genellikle robots.txt dosyasını 24 saatte bir kontrol eder. Hızlandırmak için Search Console üzerinden robots.txt dosyanı "Gönder" diyerek tetikleyebilirsin.
CSS ve JS dosyalarını engellemeli miyim? ↓
Kesinlikle HAYIR. Google artık sayfaları bir tarayıcı gibi "render" ediyor. Sitenin mobil uyumlu olup olmadığını anlamak için CSS ve JS dosyalarına erişmesi şart.
Sahne Sende
Okumak yetmez. Şimdi git, o dosyayı oluştur ve botlara kimin patron olduğunu göster.
🚀 Teknik SEO Karmaşasında Kaybolma
Robots.txt, Sitemap, Canonical hataları... Teknik SEO bir mayın tarlasıdır. Sitenin temellerini sağlam atmak ve tarama bütçeni optimize etmek için profesyonel bir gözle süreci yönetelim.
Gökhan Vatancı ile Hızlıca Görüşün
