Robots.txt
robots.txt adalah file teks yang ditempatkan di direktori root situs web yang menginstruksikan perayap mesin pencari halaman atau file mana yang diizinkan atau tidak diizinkan untuk diminta. Ini adalah garis pertahanan pertama dalam mengontrol bagaimana bot berinteraksi dengan infrastruktur situs Anda dan membantu mengoptimalkan anggaran perayapan .
Mengarahkan Bot ke Konten Terbaik Anda
Google mengalokasikan "anggaran crawling" terbatas ke situs Anda—jumlah halaman yang akan di-crawl bot per hari. Jika bot membuang waktu untuk merayapi panel admin, halaman duplikat yang ramah printer, atau URL keranjang/checkout, mereka mungkin melewatkan halaman produk terjemahan Anda yang berharga. robots.txt memberi tahu bot "Jangan buang waktu pada /admin/, fokus pada /en/, /fr/, /de/ sebagai gantinya." Untuk situs internasional, Anda harus melarang crawling halaman pengalihan deteksi otomatis bahasa, endpoint API, dan URL teknis apa pun yang tidak perlu diindeks. Namun, JANGAN PERNAH secara tidak sengaja memblokir direktori bahasa Anda—itu adalah kesalahan besar yang membunuh semua SEO internasional.
Mengizinkan vs. Melarang Akses Perayapan
Dampak Dunia Nyata
Situs tidak memiliki robots.txt, bot merayapi 10.000 URL keranjang
Anggaran crawling terbuang sia-sia, halaman produk dirayapi lambat
Produk baru membutuhkan waktu berminggu-minggu untuk muncul di pencarian
Tambahkan robots.txt: Melarang /cart/, /checkout/, /api/
Bot fokus 100% pada halaman produk dan bahasa
Produk baru diindeks dalam waktu 24 jam