Teknik SEO — Taranabilirlik ve İndeksleme
1. Googlebot ve Tarama Süreci
Googlebot, Google'ın web'i tarayan yazılımıdır. Sayfaları keşfeder, içeriklerini okur ve dizine ekler. Sitenin arama sonuçlarında görünmesi için önce Googlebot'un sayfalarını bulabilmesi ve tarayabilmesi gerekir.
a) Googlebot Nasıl Çalışır?
- Bilinen bir URL'den başlar (önceki taramalar, sitemap, harici bağlantılar).
- Sayfadaki bağlantıları takip ederek yeni URL'leri keşfeder.
- Her sayfayı render eder (JavaScript dahil) ve içeriğini analiz eder.
- İçeriği dizine ekler veya günceller.
b) Crawl Budget (Tarama Bütçesi) — Google'ın Sana Ayırdığı Zaman
Google Bir Kapitalist Şirkettir
Google hayır kurumu değil — her işlemin bir maliyeti var. Google'ın veri merkezleri dünyanın en büyük enerji tüketicilerinden biridir.
- Soğutma stratejisi: Sunucu soğutma maliyetini düşürmek için veri merkezlerini Atlas Okyanusu ve Hint Okyanusu kıyılarına kuruyor — okyanus suyuyla doğal soğutma yapıyor (Hamina/Finlandiya, Taiwan, Singapur gibi)
- Hız için RAM kullanımı: Arama sonuçlarını milisaniyeler içinde sunmak için SSD disk yerine RAM (bellek) kullanıyor — Google'ın veri merkezlerinde tahmini olarak onlarca petabayt (1 petabayt = 1.000 terabayt = 1.000.000 gigabayt) RAM kapasitesi var
- Sonuç: Tüm bu altyapıyı ayakta tutmak muazzam bir maliyet — Google her kaynağı verimli kullanmak zorunda
Crawl Budget Nedir?
Google'ın senin siteni taramak için ayırdığı kaynak miktarı. Sınırsız değil — Google her siteye belirli bir "tarama bütçesi" ayırır.
- Büyük, güvenilir, hızlı siteler → daha fazla bütçe alır
- Küçük, yavaş, hatalı siteler → daha az bütçe alır
Sitenin aldığı tarama miktarı iki faktöre bağlıdır:
- Crawl rate limit: Google sunucuna ne kadar yük bindirebilir? Sunucu yavaşsa Google tarama hızını düşürür.
- Crawl demand: Google sayfalarını ne kadar taramak istiyor? Popüler, sık güncellenen sayfalar daha sık taranır.
Crawl Budget'ı Ne Etkiler?
- Site hızı: Yavaş site = Google'ın tarayıcısı bekler = daha az sayfa taranır
- Sunucu yanıt süresi: Sunucu yavaşsa Google taramayı yavaşlatır
- 404 hataları: Google sitendeki yüzlerce 404 sayfayı taramaya çalışır → boşa kaynak harcar → "bu site beni yoruyor" der → sana verdiği değeri düşürür
- Yinelenen içerik: Aynı içeriği farklı URL'lerden taramak bütçe israfı
- Düşük kaliteli sayfalar: Tag sayfaları, yazar arşivleri, parametre URL'leri
- Redirect zincirleri: A→B→C→D yönlendirmeleri bütçeyi yer
Crawl Budget Nasıl Korunur?
- 404 hataları düzelt veya yönlendir — Screaming Frog ile aylık kontrol yap
- robots.txt ile gereksiz sayfaları taramadan çıkar — admin, sepet, arama sonuçları
- XML sitemap ile önemli sayfaları işaretle
- Düşük değerli sayfaları noindex yap — tag, yazar arşivi
- Redirect zincirlerini kısalt — A→D doğrudan
- Site hızını artır
- Yinelenen içerikleri canonical ile çöz
Crawl Budget Kimler İçin Kritik?
- 10.000+ sayfalık siteler: e-ticaret, haber siteleri, büyük bloglar — crawl budget doğrudan sıralamayı etkiler
- 50 sayfalık kurumsal site: Crawl budget çoğu zaman sorun olmaz — ama yine de temiz tut, iyi alışkanlıklar edin
Siteye gelir"] CB["⏱️ Crawl Budget
Sınırlı süre"] GC --> CB CB --> TEMIZ["✅ Temiz Site"] CB --> KIRLI["❌ Kirli Site"] TEMIZ --> T1["Önemli sayfalar taranır"] TEMIZ --> T2["Yeni içerik hızla dizinlenir"] TEMIZ --> T3["Google siteye güvenir"] KIRLI --> K1["404 hataları bütçeyi yer"] KIRLI --> K2["Redirect zincirleri yavaşlatır"] KIRLI --> K3["Önemli sayfalar atlanır"] KIRLI --> K4["Google bütçeyi düşürür"] style GC fill:#29ABE2,stroke:#1E8EBF,color:#fff,stroke-width:2px style CB fill:#FEF3C7,stroke:#F59E0B,stroke-width:2px style TEMIZ fill:#DCFCE7,stroke:#22C55E,stroke-width:2px style KIRLI fill:#FEE2E2,stroke:#EF4444,stroke-width:2px style T1 fill:#DCFCE7,stroke:#22C55E,stroke-width:1px style T2 fill:#DCFCE7,stroke:#22C55E,stroke-width:1px style T3 fill:#DCFCE7,stroke:#22C55E,stroke-width:1px style K1 fill:#FEE2E2,stroke:#EF4444,stroke-width:1px style K2 fill:#FEE2E2,stroke:#EF4444,stroke-width:1px style K3 fill:#FEE2E2,stroke:#EF4444,stroke-width:1px style K4 fill:#FEE2E2,stroke:#EF4444,stroke-width:1px
URL'leri bul"] T["Tarama
Sayfayı indir"] R["Render
JS çalıştır"] D["Dizinleme
İçeriği kaydet"] GB --> K -->|"Sitemap, bağlantılar"| T -->|"HTML + CSS + JS"| R -->|"İçerik analizi"| D RT["robots.txt
Engelle / İzin ver"] MR["Meta Robots
noindex / nofollow"] CN["Canonical
Tercih edilen URL"] RT -.->|"Tarama öncesi kontrol"| K MR -.->|"Dizinleme kontrolü"| D CN -.->|"Yinelenen içerik çözümü"| D style GB fill:#29ABE2,stroke:#1E8EBF,color:#fff,stroke-width:2px style K fill:#E8F6FC,stroke:#29ABE2,stroke-width:2px style T fill:#E8F6FC,stroke:#29ABE2,stroke-width:2px style R fill:#FEF3C7,stroke:#F59E0B,stroke-width:2px style D fill:#DCFCE7,stroke:#22C55E,stroke-width:2px style RT fill:#FEE2E2,stroke:#EF4444,stroke-width:2px style MR fill:#FEE2E2,stroke:#EF4444,stroke-width:2px style CN fill:#FEF3C7,stroke:#F59E0B,stroke-width:2px
2. robots.txt
robots.txt, sitenin kök dizininde bulunan (ornek.com/robots.txt) ve arama motoru botlarına hangi sayfaları tarayıp hangilerini taramaması gerektiğini söyleyen bir metin dosyasıdır.
a) Temel Söz Dizimi
# Tüm botlara tüm sayfaları aç
User-agent: *
Allow: /
# Admin panelini engelle
User-agent: *
Disallow: /admin/
Disallow: /wp-login.php
# Sadece Googlebot'a özel kural
User-agent: Googlebot
Disallow: /gecici-sayfalar/
# Sitemap konumu
Sitemap: https://www.ornek.com/sitemap.xml
b) Önemli Kurallar
User-agent: *— tüm botlar için geçerli kural.Disallow: /klasor/— bu klasörü tarama.Allow: /klasor/ozel-sayfa.html— bu spesifik sayfayı tara (Disallow ile birlikte kullanılır).Sitemap:— sitemap dosyasının yolunu belirtir.
meta robots noindex kullan. robots.txt'te CSS ve JS dosyalarını engelleme — Googlebot'un sayfayı render etmesini engellersin.
❌ Yanlış: "Robots.txt ile sayfayı engelledim = Google indekslemez"
✅ Doğru: Robots.txt sadece taramayı engeller, dizinlemeyi değil. Başka sitelerden o sayfaya link varsa, Google URL'yi ve başlığını dizine ekleyebilir (içeriği göremese bile). Bir sayfanın dizinlenmesini gerçekten engellemek istiyorsan meta robots noindex etiketi kullanmalısın.
c) Yaygin Disallow Ornekleri
Cogu web sitesinde asagidaki alanlarin taranmasini engellemek mantiklidir:
User-agent: *
Disallow: /wp-admin/ # WordPress admin paneli
Disallow: /cart/ # Sepet sayfalari
Disallow: /checkout/ # Odeme sayfalari
Disallow: /search? # Site ici arama sonuclari
Disallow: /tag/ # Etiket sayfalari (thin content)
Disallow: /author/ # Yazar arsiv sayfalari
Allow: /
Sitemap: https://siteadi.com/sitemap.xml
meta robots noindex kullan. Ayrıca robots.txt'in doğru calistigini dogrulamak için Search Console > URL Inceleme araci ile kontrol edebilirsin.
d) robots.txt Kontrol
- Dosyanin yeri:
siteadi.com/robots.txt— her sitenin kok dizininde olmalidir - Test etme: Search Console > URL Inceleme araci ile herhangi bir URL'nin engelli olup olmadigini kontrol et
- Canli kontrol: Tarayicida
siteadi.com/robots.txtyazarak dosyanin icerigini dogrudan gorebilirsin
3. XML Sitemap
XML sitemap, sitenin tüm önemli sayfalarının listesini içeren ve arama motorlarına sunulan bir dosyadır. Google'a "bu sayfalari tara" diye yol haritasi verir.
a) Dosyanin Yeri ve Amaci
- Dosyanin yeri:
siteadi.com/sitemap.xml - Ne ise yarar: Google'a "bu sayfalari tara" diye yol haritasi verir — ozellikle buyuk ve karmaşık sitelerde kritik oneme sahiptir
b) Sitemap Yapısı
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://www.ornek.com/</loc>
<lastmod>2025-03-15</lastmod>
<changefreq>weekly</changefreq>
<priority>1.0</priority>
</url>
<url>
<loc>https://www.ornek.com/hizmetler/dis-implant</loc>
<lastmod>2025-02-20</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
</urlset>
c) Sitemap Icermesi Gerekenler
- Tüm önemli sayfalar: ürün, hizmet, blog, kategori sayfalari
- Sadece dizinlenmesini istediğin canonical URL'leri ekle
- Her URL için
lastmodtarihi mumkunse doğru sekilde belirtilmeli
d) Sitemap IcerMEMESI Gerekenler
- noindex etiketli sayfalar
- Yonlendirilmis (301/302) sayfalar
- Parametreli URL'ler (or:
?sort=price&page=3) - Thin content (ince içerik) sayfalari
- 404 veren URL'ler
e) Sitemap Kurallari ve Best Practices
- Maksimum 50.000 URL veya 50MB — daha büyük sitelerde sitemap index dosyasi kullan (birden fazla sitemap dosyasini listeleyen ana dosya)
- Google Search Console'a gönder: SC > Sitemaps > URL yapistir > Gonder
- Duzenlı olarak hata kontrolü yap
- WordPress'te: Yoast SEO veya Rank Math eklentileri sitemap'i otomatik olusturur ve gunceller
- Güncel tutma: Yeni sayfa eklendikce sitemap otomatik guncellenmeli — CMS eklentileri bunu saglar
f) robots.txt ve sitemap.xml Birlikte Nasil Calisir?
Neyi TARAMA
(engelleme listesi)"] SM["sitemap.xml
Neyi TARA
(oncelik listesi)"] G["Googlebot"] RT -->|"Su alanlari tarma"| G SM -->|"Su sayfalari tara"| G G --> V["Verimli Tarama
Onemli sayfalar taranir
Gereksiz sayfalar atlanir"] style RT fill:#FEE2E2,stroke:#EF4444,stroke-width:2px style SM fill:#DCFCE7,stroke:#22C55E,stroke-width:2px style G fill:#E8F6FC,stroke:#29ABE2,stroke-width:2px style V fill:#FEF3C7,stroke:#F59E0B,stroke-width:2px
4. Meta Robots Tag
Sayfanın <head> bölümüne eklenen ve arama motorlarına o sayfa için talimat veren etikettir.
a) Yaygın Direktifler
| Direktif | Anlam | Ne Zaman Kullan? |
|---|---|---|
noindex | Bu sayfayı dizine ekleme | Arama sonuçlarında görünmemesi gereken sayfalar (thank you page, internal search) |
nofollow | Bu sayfadaki bağlantıları takip etme | Güvenilmeyen kullanıcı içerikleri olan sayfalar |
noindex, nofollow | Ne dizine ekle ne bağlantıları takip et | Tamamen gizlenmesi gereken sayfalar |
index, follow | Varsayılan davranış (yazmasına gerek yok) | Normal sayfalar |
Kullanım:
<meta name="robots" content="noindex, nofollow">
5. Canonical Tag
Canonical tag, bir sayfanın "tercih edilen" URL versiyonunu belirtir. Yinelenen (duplicate) içerik sorunlarını çözmek için kullanılır.
a) Neden Gerekli?
Aynı içeriğe birden fazla URL'den ulaşılabiliyor olabilir:
ornek.com/urunveornek.com/urun?ref=kampanyawww.ornek.com/sayfaveornek.com/sayfaornek.com/sayfaveornek.com/sayfa/(sondaki slash)
b) Kullanım
<link rel="canonical" href="https://www.ornek.com/urun">
c) Self-Referencing Canonical
Her sayfaya kendisini gösteren canonical eklemek en iyi pratiktir. Böylece parametre eklenmesi durumunda bile tercih edilen URL belli olur.
- Noindex sayfaya canonical koymak — çelişki yaratır.
- Canonical zinciri oluşturmak — A → B → C yerine A → C olmalı.
- Farklı içerikteki sayfalara canonical vermek — sadece gerçekten aynı/çok benzer içerik için kullan.
- Sitemap'te canonical olmayan URL'leri listelemek.
- robots.txt ile taramayı, meta robots noindex ile dizinlemeyi kontrol etme arasındaki farkı bilirsin.
- XML sitemap oluşturup Search Console'a gönderebilir, hangi sayfaların dahil edilip edilmeyeceğine karar verebilirsin.
- Canonical tag ile duplicate content sorunlarını çözebilir, self-referencing canonical uygulayabilirsin.
