Teknik SEO — Taranabilirlik ve İndeksleme

📚 Seviye 2 — Uygulama ⏱ ~7 dakika

📌 Nereden Geliyoruz?

1.3 SEO Nedir? dersinde arama motorlarının crawling (tarama), indexing (dizinleme), ranking (sıralama) süreçlerini ve Teknik SEO ayağını tanımıştık. Şimdi taranabilirlik konusunu derinleştiriyoruz: Googlebot davranışı, robots.txt, XML sitemap ve canonical etiketlerini uygulamalı öğreneceğiz.

1. Googlebot ve Tarama Süreci

Googlebot, Google'ın web'i tarayan yazılımıdır. Sayfaları keşfeder, içeriklerini okur ve dizine ekler. Sitenin arama sonuçlarında görünmesi için önce Googlebot'un sayfalarını bulabilmesi ve tarayabilmesi gerekir.

a) Googlebot Nasıl Çalışır?

Bilinen bir URL'den başlar (önceki taramalar, sitemap, harici bağlantılar).
Sayfadaki bağlantıları takip ederek yeni URL'leri keşfeder.
Her sayfayı render eder (JavaScript dahil) ve içeriğini analiz eder.
İçeriği dizine ekler veya günceller.

b) Crawl Budget (Tarama Bütçesi) — Google'ın Sana Ayırdığı Zaman

Google Bir Kapitalist Şirkettir

Google hayır kurumu değil — her işlemin bir maliyeti var. Google'ın veri merkezleri dünyanın en büyük enerji tüketicilerinden biridir.

Soğutma stratejisi: Sunucu soğutma maliyetini düşürmek için veri merkezlerini Atlas Okyanusu ve Hint Okyanusu kıyılarına kuruyor — okyanus suyuyla doğal soğutma yapıyor (Hamina/Finlandiya, Taiwan, Singapur gibi)
Hız için RAM kullanımı: Arama sonuçlarını milisaniyeler içinde sunmak için SSD disk yerine RAM (bellek) kullanıyor — Google'ın veri merkezlerinde tahmini olarak onlarca petabayt (1 petabayt = 1.000 terabayt = 1.000.000 gigabayt) RAM kapasitesi var
Sonuç: Tüm bu altyapıyı ayakta tutmak muazzam bir maliyet — Google her kaynağı verimli kullanmak zorunda

Crawl Budget Nedir?

Google'ın senin siteni taramak için ayırdığı kaynak miktarı. Sınırsız değil — Google her siteye belirli bir "tarama bütçesi" ayırır.

Büyük, güvenilir, hızlı siteler → daha fazla bütçe alır
Küçük, yavaş, hatalı siteler → daha az bütçe alır

Sitenin aldığı tarama miktarı iki faktöre bağlıdır:

Crawl rate limit: Google sunucuna ne kadar yük bindirebilir? Sunucu yavaşsa Google tarama hızını düşürür.
Crawl demand: Google sayfalarını ne kadar taramak istiyor? Popüler, sık güncellenen sayfalar daha sık taranır.

Crawl Budget'ı Ne Etkiler?

Site hızı: Yavaş site = Google'ın tarayıcısı bekler = daha az sayfa taranır
Sunucu yanıt süresi: Sunucu yavaşsa Google taramayı yavaşlatır
404 hataları: Google sitendeki yüzlerce 404 sayfayı taramaya çalışır → boşa kaynak harcar → "bu site beni yoruyor" der → sana verdiği değeri düşürür
Yinelenen içerik: Aynı içeriği farklı URL'lerden taramak bütçe israfı
Düşük kaliteli sayfalar: Tag sayfaları, yazar arşivleri, parametre URL'leri
Redirect zincirleri: A→B→C→D yönlendirmeleri bütçeyi yer

💡 Benzetme: Postacı

Google'ı bir postacı gibi düşün. Her gün senin mahallene 30 dakika ayırıyor. Eğer kapının önüne 50 tane çöp kutusu (404 sayfalar) koyarsan, postacı çöpleri aşmaya çalışırken zamanını harcar ve asıl önemli mektupları (değerli sayfalarını) teslim edemez. Ertesi gün "bu mahalle çok zahmetli" deyip 20 dakikaya düşürür.

Crawl Budget Nasıl Korunur?

404 hataları düzelt veya yönlendir — Screaming Frog ile aylık kontrol yap
robots.txt ile gereksiz sayfaları taramadan çıkar — admin, sepet, arama sonuçları
XML sitemap ile önemli sayfaları işaretle
Düşük değerli sayfaları noindex yap — tag, yazar arşivi
Redirect zincirlerini kısalt — A→D doğrudan
Site hızını artır
Yinelenen içerikleri canonical ile çöz

Crawl Budget Kimler İçin Kritik?

10.000+ sayfalık siteler: e-ticaret, haber siteleri, büyük bloglar — crawl budget doğrudan sıralamayı etkiler
50 sayfalık kurumsal site: Crawl budget çoğu zaman sorun olmaz — ama yine de temiz tut, iyi alışkanlıklar edin

graph TD GC["🤖 Google Tarayıcı
Siteye gelir"] CB["⏱️ Crawl Budget
Sınırlı süre"] GC --> CB CB --> TEMIZ["✅ Temiz Site"] CB --> KIRLI["❌ Kirli Site"] TEMIZ --> T1["Önemli sayfalar taranır"] TEMIZ --> T2["Yeni içerik hızla dizinlenir"] TEMIZ --> T3["Google siteye güvenir"] KIRLI --> K1["404 hataları bütçeyi yer"] KIRLI --> K2["Redirect zincirleri yavaşlatır"] KIRLI --> K3["Önemli sayfalar atlanır"] KIRLI --> K4["Google bütçeyi düşürür"] style GC fill:#29ABE2,stroke:#1E8EBF,color:#fff,stroke-width:2px style CB fill:#FEF3C7,stroke:#F59E0B,stroke-width:2px style TEMIZ fill:#DCFCE7,stroke:#22C55E,stroke-width:2px style KIRLI fill:#FEE2E2,stroke:#EF4444,stroke-width:2px style T1 fill:#DCFCE7,stroke:#22C55E,stroke-width:1px style T2 fill:#DCFCE7,stroke:#22C55E,stroke-width:1px style T3 fill:#DCFCE7,stroke:#22C55E,stroke-width:1px style K1 fill:#FEE2E2,stroke:#EF4444,stroke-width:1px style K2 fill:#FEE2E2,stroke:#EF4444,stroke-width:1px style K3 fill:#FEE2E2,stroke:#EF4444,stroke-width:1px style K4 fill:#FEE2E2,stroke:#EF4444,stroke-width:1px

graph TD GB["🤖 Googlebot"] K["Keşif
URL'leri bul"] T["Tarama
Sayfayı indir"] R["Render
JS çalıştır"] D["Dizinleme
İçeriği kaydet"] GB --> K -->|"Sitemap, bağlantılar"| T -->|"HTML + CSS + JS"| R -->|"İçerik analizi"| D RT["robots.txt
Engelle / İzin ver"] MR["Meta Robots
noindex / nofollow"] CN["Canonical
Tercih edilen URL"] RT -.->|"Tarama öncesi kontrol"| K MR -.->|"Dizinleme kontrolü"| D CN -.->|"Yinelenen içerik çözümü"| D style GB fill:#29ABE2,stroke:#1E8EBF,color:#fff,stroke-width:2px style K fill:#E8F6FC,stroke:#29ABE2,stroke-width:2px style T fill:#E8F6FC,stroke:#29ABE2,stroke-width:2px style R fill:#FEF3C7,stroke:#F59E0B,stroke-width:2px style D fill:#DCFCE7,stroke:#22C55E,stroke-width:2px style RT fill:#FEE2E2,stroke:#EF4444,stroke-width:2px style MR fill:#FEE2E2,stroke:#EF4444,stroke-width:2px style CN fill:#FEF3C7,stroke:#F59E0B,stroke-width:2px

2. robots.txt

robots.txt, sitenin kök dizininde bulunan (ornek.com/robots.txt) ve arama motoru botlarına hangi sayfaları tarayıp hangilerini taramaması gerektiğini söyleyen bir metin dosyasıdır.

a) Temel Söz Dizimi

# Tüm botlara tüm sayfaları aç
User-agent: *
Allow: /

# Admin panelini engelle
User-agent: *
Disallow: /admin/
Disallow: /wp-login.php

# Sadece Googlebot'a özel kural
User-agent: Googlebot
Disallow: /gecici-sayfalar/

# Sitemap konumu
Sitemap: https://www.ornek.com/sitemap.xml

b) Önemli Kurallar

User-agent: * — tüm botlar için geçerli kural.
Disallow: /klasor/ — bu klasörü tarama.
Allow: /klasor/ozel-sayfa.html — bu spesifik sayfayı tara (Disallow ile birlikte kullanılır).
Sitemap: — sitemap dosyasının yolunu belirtir.

⚠️ Kritik Uyarı

robots.txt sadece taramayı engeller, dizinlemeyi değil. Disallow ile engellediğin bir sayfaya başka sitelerden bağlantı varsa, Google o sayfayı dizine ekleyebilir (başlığı ve URL'si görünür, içeriği görünmez). Dizinlenmesini istemediğin sayfalar için meta robots noindex kullan. robots.txt'te CSS ve JS dosyalarını engelleme — Googlebot'un sayfayı render etmesini engellersin.

🚫 Yaygın Yanılgı

❌ Yanlış: "Robots.txt ile sayfayı engelledim = Google indekslemez"

✅ Doğru: Robots.txt sadece taramayı engeller, dizinlemeyi değil. Başka sitelerden o sayfaya link varsa, Google URL'yi ve başlığını dizine ekleyebilir (içeriği göremese bile). Bir sayfanın dizinlenmesini gerçekten engellemek istiyorsan meta robots noindex etiketi kullanmalısın.

c) Yaygin Disallow Ornekleri

Cogu web sitesinde asagidaki alanlarin taranmasini engellemek mantiklidir:

User-agent: *
Disallow: /wp-admin/       # WordPress admin paneli
Disallow: /cart/            # Sepet sayfalari
Disallow: /checkout/        # Odeme sayfalari
Disallow: /search?          # Site ici arama sonuclari
Disallow: /tag/             # Etiket sayfalari (thin content)
Disallow: /author/          # Yazar arsiv sayfalari
Allow: /
Sitemap: https://siteadi.com/sitemap.xml

Önemli Uyarı: robots.txt Sadece "Öneri"dir

robots.txt sadece bir "lutfen tarama" direktifidir — Google cogu zaman uyar ama bağlayıcı degildir. Gerçek engelleme için meta robots noindex kullan. Ayrıca robots.txt'in doğru calistigini dogrulamak için Search Console > URL Inceleme araci ile kontrol edebilirsin.

d) robots.txt Kontrol

Dosyanin yeri: siteadi.com/robots.txt — her sitenin kok dizininde olmalidir
Test etme: Search Console > URL Inceleme araci ile herhangi bir URL'nin engelli olup olmadigini kontrol et
Canli kontrol: Tarayicida siteadi.com/robots.txt yazarak dosyanin icerigini dogrudan gorebilirsin

3. XML Sitemap

XML sitemap, sitenin tüm önemli sayfalarının listesini içeren ve arama motorlarına sunulan bir dosyadır. Google'a "bu sayfalari tara" diye yol haritasi verir.

a) Dosyanin Yeri ve Amaci

Dosyanin yeri: siteadi.com/sitemap.xml
Ne ise yarar: Google'a "bu sayfalari tara" diye yol haritasi verir — ozellikle buyuk ve karmaşık sitelerde kritik oneme sahiptir

b) Sitemap Yapısı

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://www.ornek.com/</loc>
    <lastmod>2025-03-15</lastmod>
    <changefreq>weekly</changefreq>
    <priority>1.0</priority>
  </url>
  <url>
    <loc>https://www.ornek.com/hizmetler/dis-implant</loc>
    <lastmod>2025-02-20</lastmod>
    <changefreq>monthly</changefreq>
    <priority>0.8</priority>
  </url>
</urlset>

c) Sitemap Icermesi Gerekenler

Tüm önemli sayfalar: ürün, hizmet, blog, kategori sayfalari
Sadece dizinlenmesini istediğin canonical URL'leri ekle
Her URL için lastmod tarihi mumkunse doğru sekilde belirtilmeli

d) Sitemap IcerMEMESI Gerekenler

noindex etiketli sayfalar
Yonlendirilmis (301/302) sayfalar
Parametreli URL'ler (or: ?sort=price&page=3)
Thin content (ince içerik) sayfalari
404 veren URL'ler

e) Sitemap Kurallari ve Best Practices

Maksimum 50.000 URL veya 50MB — daha büyük sitelerde sitemap index dosyasi kullan (birden fazla sitemap dosyasini listeleyen ana dosya)
Google Search Console'a gönder: SC > Sitemaps > URL yapistir > Gonder
Duzenlı olarak hata kontrolü yap
WordPress'te: Yoast SEO veya Rank Math eklentileri sitemap'i otomatik olusturur ve gunceller
Güncel tutma: Yeni sayfa eklendikce sitemap otomatik guncellenmeli — CMS eklentileri bunu saglar

f) robots.txt ve sitemap.xml Birlikte Nasil Calisir?

graph LR RT["robots.txt
Neyi TARAMA
(engelleme listesi)"] SM["sitemap.xml
Neyi TARA
(oncelik listesi)"] G["Googlebot"] RT -->|"Su alanlari tarma"| G SM -->|"Su sayfalari tara"| G G --> V["Verimli Tarama
Onemli sayfalar taranir
Gereksiz sayfalar atlanir"] style RT fill:#FEE2E2,stroke:#EF4444,stroke-width:2px style SM fill:#DCFCE7,stroke:#22C55E,stroke-width:2px style G fill:#E8F6FC,stroke:#29ABE2,stroke-width:2px style V fill:#FEF3C7,stroke:#F59E0B,stroke-width:2px

4. Meta Robots Tag

Sayfanın <head> bölümüne eklenen ve arama motorlarına o sayfa için talimat veren etikettir.

a) Yaygın Direktifler

Direktif	Anlam	Ne Zaman Kullan?
`noindex`	Bu sayfayı dizine ekleme	Arama sonuçlarında görünmemesi gereken sayfalar (thank you page, internal search)
`nofollow`	Bu sayfadaki bağlantıları takip etme	Güvenilmeyen kullanıcı içerikleri olan sayfalar
`noindex, nofollow`	Ne dizine ekle ne bağlantıları takip et	Tamamen gizlenmesi gereken sayfalar
`index, follow`	Varsayılan davranış (yazmasına gerek yok)	Normal sayfalar

Kullanım:

<meta name="robots" content="noindex, nofollow">

5. Canonical Tag

Canonical tag, bir sayfanın "tercih edilen" URL versiyonunu belirtir. Yinelenen (duplicate) içerik sorunlarını çözmek için kullanılır.

a) Neden Gerekli?

Aynı içeriğe birden fazla URL'den ulaşılabiliyor olabilir:

ornek.com/urun ve ornek.com/urun?ref=kampanya
www.ornek.com/sayfa ve ornek.com/sayfa
ornek.com/sayfa ve ornek.com/sayfa/ (sondaki slash)

b) Kullanım

<link rel="canonical" href="https://www.ornek.com/urun">

c) Self-Referencing Canonical

Her sayfaya kendisini gösteren canonical eklemek en iyi pratiktir. Böylece parametre eklenmesi durumunda bile tercih edilen URL belli olur.

⚠️ Yaygın Canonical Hataları

Noindex sayfaya canonical koymak — çelişki yaratır.
Canonical zinciri oluşturmak — A → B → C yerine A → C olmalı.
Farklı içerikteki sayfalara canonical vermek — sadece gerçekten aynı/çok benzer içerik için kullan.
Sitemap'te canonical olmayan URL'leri listelemek.

🎯 Bu Dersten Öğrenmen Gerekenler

robots.txt ile taramayı, meta robots noindex ile dizinlemeyi kontrol etme arasındaki farkı bilirsin.
XML sitemap oluşturup Search Console'a gönderebilir, hangi sayfaların dahil edilip edilmeyeceğine karar verebilirsin.
Canonical tag ile duplicate content sorunlarını çözebilir, self-referencing canonical uygulayabilirsin.

📝 Quiz — Bilgini Test Et

← Önceki Ders Sonraki Ders →