Ana Sayfa / Seviye 2 / SEO / Teknik SEO — Taranabilirlik ve İndeksleme

Teknik SEO — Taranabilirlik ve İndeksleme

📚 Seviye 2 — Uygulama ⏱ ~7 dakika
📌 Nereden Geliyoruz?
1.3 SEO Nedir? dersinde arama motorlarının crawling (tarama), indexing (dizinleme), ranking (sıralama) süreçlerini ve Teknik SEO ayağını tanımıştık. Şimdi taranabilirlik konusunu derinleştiriyoruz: Googlebot davranışı, robots.txt, XML sitemap ve canonical etiketlerini uygulamalı öğreneceğiz.

1. Googlebot ve Tarama Süreci

Googlebot, Google'ın web'i tarayan yazılımıdır. Sayfaları keşfeder, içeriklerini okur ve dizine ekler. Sitenin arama sonuçlarında görünmesi için önce Googlebot'un sayfalarını bulabilmesi ve tarayabilmesi gerekir.

a) Googlebot Nasıl Çalışır?

  1. Bilinen bir URL'den başlar (önceki taramalar, sitemap, harici bağlantılar).
  2. Sayfadaki bağlantıları takip ederek yeni URL'leri keşfeder.
  3. Her sayfayı render eder (JavaScript dahil) ve içeriğini analiz eder.
  4. İçeriği dizine ekler veya günceller.

b) Crawl Budget (Tarama Bütçesi) — Google'ın Sana Ayırdığı Zaman

Google Bir Kapitalist Şirkettir

Google hayır kurumu değil — her işlemin bir maliyeti var. Google'ın veri merkezleri dünyanın en büyük enerji tüketicilerinden biridir.

Crawl Budget Nedir?

Google'ın senin siteni taramak için ayırdığı kaynak miktarı. Sınırsız değil — Google her siteye belirli bir "tarama bütçesi" ayırır.

Sitenin aldığı tarama miktarı iki faktöre bağlıdır:

Crawl Budget'ı Ne Etkiler?

  1. Site hızı: Yavaş site = Google'ın tarayıcısı bekler = daha az sayfa taranır
  2. Sunucu yanıt süresi: Sunucu yavaşsa Google taramayı yavaşlatır
  3. 404 hataları: Google sitendeki yüzlerce 404 sayfayı taramaya çalışır → boşa kaynak harcar → "bu site beni yoruyor" der → sana verdiği değeri düşürür
  4. Yinelenen içerik: Aynı içeriği farklı URL'lerden taramak bütçe israfı
  5. Düşük kaliteli sayfalar: Tag sayfaları, yazar arşivleri, parametre URL'leri
  6. Redirect zincirleri: A→B→C→D yönlendirmeleri bütçeyi yer
💡 Benzetme: Postacı
Google'ı bir postacı gibi düşün. Her gün senin mahallene 30 dakika ayırıyor. Eğer kapının önüne 50 tane çöp kutusu (404 sayfalar) koyarsan, postacı çöpleri aşmaya çalışırken zamanını harcar ve asıl önemli mektupları (değerli sayfalarını) teslim edemez. Ertesi gün "bu mahalle çok zahmetli" deyip 20 dakikaya düşürür.

Crawl Budget Nasıl Korunur?

Crawl Budget Kimler İçin Kritik?

graph TD GC["🤖 Google Tarayıcı
Siteye gelir"] CB["⏱️ Crawl Budget
Sınırlı süre"] GC --> CB CB --> TEMIZ["✅ Temiz Site"] CB --> KIRLI["❌ Kirli Site"] TEMIZ --> T1["Önemli sayfalar taranır"] TEMIZ --> T2["Yeni içerik hızla dizinlenir"] TEMIZ --> T3["Google siteye güvenir"] KIRLI --> K1["404 hataları bütçeyi yer"] KIRLI --> K2["Redirect zincirleri yavaşlatır"] KIRLI --> K3["Önemli sayfalar atlanır"] KIRLI --> K4["Google bütçeyi düşürür"] style GC fill:#29ABE2,stroke:#1E8EBF,color:#fff,stroke-width:2px style CB fill:#FEF3C7,stroke:#F59E0B,stroke-width:2px style TEMIZ fill:#DCFCE7,stroke:#22C55E,stroke-width:2px style KIRLI fill:#FEE2E2,stroke:#EF4444,stroke-width:2px style T1 fill:#DCFCE7,stroke:#22C55E,stroke-width:1px style T2 fill:#DCFCE7,stroke:#22C55E,stroke-width:1px style T3 fill:#DCFCE7,stroke:#22C55E,stroke-width:1px style K1 fill:#FEE2E2,stroke:#EF4444,stroke-width:1px style K2 fill:#FEE2E2,stroke:#EF4444,stroke-width:1px style K3 fill:#FEE2E2,stroke:#EF4444,stroke-width:1px style K4 fill:#FEE2E2,stroke:#EF4444,stroke-width:1px
graph TD GB["🤖 Googlebot"] K["Keşif
URL'leri bul"] T["Tarama
Sayfayı indir"] R["Render
JS çalıştır"] D["Dizinleme
İçeriği kaydet"] GB --> K -->|"Sitemap, bağlantılar"| T -->|"HTML + CSS + JS"| R -->|"İçerik analizi"| D RT["robots.txt
Engelle / İzin ver"] MR["Meta Robots
noindex / nofollow"] CN["Canonical
Tercih edilen URL"] RT -.->|"Tarama öncesi kontrol"| K MR -.->|"Dizinleme kontrolü"| D CN -.->|"Yinelenen içerik çözümü"| D style GB fill:#29ABE2,stroke:#1E8EBF,color:#fff,stroke-width:2px style K fill:#E8F6FC,stroke:#29ABE2,stroke-width:2px style T fill:#E8F6FC,stroke:#29ABE2,stroke-width:2px style R fill:#FEF3C7,stroke:#F59E0B,stroke-width:2px style D fill:#DCFCE7,stroke:#22C55E,stroke-width:2px style RT fill:#FEE2E2,stroke:#EF4444,stroke-width:2px style MR fill:#FEE2E2,stroke:#EF4444,stroke-width:2px style CN fill:#FEF3C7,stroke:#F59E0B,stroke-width:2px

2. robots.txt

robots.txt, sitenin kök dizininde bulunan (ornek.com/robots.txt) ve arama motoru botlarına hangi sayfaları tarayıp hangilerini taramaması gerektiğini söyleyen bir metin dosyasıdır.

a) Temel Söz Dizimi

# Tüm botlara tüm sayfaları aç
User-agent: *
Allow: /

# Admin panelini engelle
User-agent: *
Disallow: /admin/
Disallow: /wp-login.php

# Sadece Googlebot'a özel kural
User-agent: Googlebot
Disallow: /gecici-sayfalar/

# Sitemap konumu
Sitemap: https://www.ornek.com/sitemap.xml

b) Önemli Kurallar

⚠️ Kritik Uyarı
robots.txt sadece taramayı engeller, dizinlemeyi değil. Disallow ile engellediğin bir sayfaya başka sitelerden bağlantı varsa, Google o sayfayı dizine ekleyebilir (başlığı ve URL'si görünür, içeriği görünmez). Dizinlenmesini istemediğin sayfalar için meta robots noindex kullan. robots.txt'te CSS ve JS dosyalarını engelleme — Googlebot'un sayfayı render etmesini engellersin.
🚫 Yaygın Yanılgı

❌ Yanlış: "Robots.txt ile sayfayı engelledim = Google indekslemez"

✅ Doğru: Robots.txt sadece taramayı engeller, dizinlemeyi değil. Başka sitelerden o sayfaya link varsa, Google URL'yi ve başlığını dizine ekleyebilir (içeriği göremese bile). Bir sayfanın dizinlenmesini gerçekten engellemek istiyorsan meta robots noindex etiketi kullanmalısın.

c) Yaygin Disallow Ornekleri

Cogu web sitesinde asagidaki alanlarin taranmasini engellemek mantiklidir:

User-agent: *
Disallow: /wp-admin/       # WordPress admin paneli
Disallow: /cart/            # Sepet sayfalari
Disallow: /checkout/        # Odeme sayfalari
Disallow: /search?          # Site ici arama sonuclari
Disallow: /tag/             # Etiket sayfalari (thin content)
Disallow: /author/          # Yazar arsiv sayfalari
Allow: /
Sitemap: https://siteadi.com/sitemap.xml
Önemli Uyarı: robots.txt Sadece "Öneri"dir
robots.txt sadece bir "lutfen tarama" direktifidir — Google cogu zaman uyar ama bağlayıcı degildir. Gerçek engelleme için meta robots noindex kullan. Ayrıca robots.txt'in doğru calistigini dogrulamak için Search Console > URL Inceleme araci ile kontrol edebilirsin.

d) robots.txt Kontrol

3. XML Sitemap

XML sitemap, sitenin tüm önemli sayfalarının listesini içeren ve arama motorlarına sunulan bir dosyadır. Google'a "bu sayfalari tara" diye yol haritasi verir.

a) Dosyanin Yeri ve Amaci

b) Sitemap Yapısı

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://www.ornek.com/</loc>
    <lastmod>2025-03-15</lastmod>
    <changefreq>weekly</changefreq>
    <priority>1.0</priority>
  </url>
  <url>
    <loc>https://www.ornek.com/hizmetler/dis-implant</loc>
    <lastmod>2025-02-20</lastmod>
    <changefreq>monthly</changefreq>
    <priority>0.8</priority>
  </url>
</urlset>

c) Sitemap Icermesi Gerekenler

d) Sitemap IcerMEMESI Gerekenler

e) Sitemap Kurallari ve Best Practices

f) robots.txt ve sitemap.xml Birlikte Nasil Calisir?

graph LR RT["robots.txt
Neyi TARAMA
(engelleme listesi)"] SM["sitemap.xml
Neyi TARA
(oncelik listesi)"] G["Googlebot"] RT -->|"Su alanlari tarma"| G SM -->|"Su sayfalari tara"| G G --> V["Verimli Tarama
Onemli sayfalar taranir
Gereksiz sayfalar atlanir"] style RT fill:#FEE2E2,stroke:#EF4444,stroke-width:2px style SM fill:#DCFCE7,stroke:#22C55E,stroke-width:2px style G fill:#E8F6FC,stroke:#29ABE2,stroke-width:2px style V fill:#FEF3C7,stroke:#F59E0B,stroke-width:2px

4. Meta Robots Tag

Sayfanın <head> bölümüne eklenen ve arama motorlarına o sayfa için talimat veren etikettir.

a) Yaygın Direktifler

DirektifAnlamNe Zaman Kullan?
noindexBu sayfayı dizine eklemeArama sonuçlarında görünmemesi gereken sayfalar (thank you page, internal search)
nofollowBu sayfadaki bağlantıları takip etmeGüvenilmeyen kullanıcı içerikleri olan sayfalar
noindex, nofollowNe dizine ekle ne bağlantıları takip etTamamen gizlenmesi gereken sayfalar
index, followVarsayılan davranış (yazmasına gerek yok)Normal sayfalar

Kullanım:

<meta name="robots" content="noindex, nofollow">

5. Canonical Tag

Canonical tag, bir sayfanın "tercih edilen" URL versiyonunu belirtir. Yinelenen (duplicate) içerik sorunlarını çözmek için kullanılır.

a) Neden Gerekli?

Aynı içeriğe birden fazla URL'den ulaşılabiliyor olabilir:

b) Kullanım

<link rel="canonical" href="https://www.ornek.com/urun">

c) Self-Referencing Canonical

Her sayfaya kendisini gösteren canonical eklemek en iyi pratiktir. Böylece parametre eklenmesi durumunda bile tercih edilen URL belli olur.

⚠️ Yaygın Canonical Hataları
  • Noindex sayfaya canonical koymak — çelişki yaratır.
  • Canonical zinciri oluşturmak — A → B → C yerine A → C olmalı.
  • Farklı içerikteki sayfalara canonical vermek — sadece gerçekten aynı/çok benzer içerik için kullan.
  • Sitemap'te canonical olmayan URL'leri listelemek.
🎯 Bu Dersten Öğrenmen Gerekenler
  • robots.txt ile taramayı, meta robots noindex ile dizinlemeyi kontrol etme arasındaki farkı bilirsin.
  • XML sitemap oluşturup Search Console'a gönderebilir, hangi sayfaların dahil edilip edilmeyeceğine karar verebilirsin.
  • Canonical tag ile duplicate content sorunlarını çözebilir, self-referencing canonical uygulayabilirsin.

📝 Quiz — Bilgini Test Et

← Önceki Ders Sonraki Ders →