Selamat
siang, ketemu lagi dengan saya Admin Whussa kali ini saya akan membagikan info
cara mengatasi pencekalan blog oleh robot txt.
Sebelum membahas cara mengetahui Robot Txt kita harus mengetahui Apa itu
Robot Txt, Apa fungsinya dan bagaimana cara kerjanya.
Robot Txt
merupakan filter yang mengontrol boleh atau tidaknya di index oleh mesin
pencari pada halaman bagi website atau blog kita. jika di analogikan Robot Txt bisa juga kita
samakan seperti satpam yang ada di depan rumah atau suatu kantor. Kita tahu
saptam berguna untuk memfilter siapa saja yang boleh masuk kedalam kantor dan
juga memberi arahan akan kemana tamu itu, misal ke resepsionis. Satpam juga
memberi larangan agar tamu tidak pergi ke suatu tempat yang tidak semestinya,
misal tidak boleh pergi ke gudang, ruang rahasia, dan lainnya.
Dan peran
nya sama dengan Satpam, Robots Txt juga memberikan arahan dan larangan kepada
tamu. Nah, tamu yang dimaksud di sini adalah robot search engine. Katakanlah
google. Google punya sebuah Robot yang bernama Google-bot. Nah, tugas dari Google
bot ini adalah mencari dan menelusuri setiap website yang terdaftar di google
webmaster. Dengan Google-bot ini, Google mengumpulkan semua hal tentang suatu
website, seperti artikel terbaru, halaman login, halaman tertentu, dan lainnya.
Di sinilah
peran penting file kecil bernama Robots Txt tadi. Dia “
Robot.Txt “ akan memberi arahan dan larangan terhadap google-bot. Misalnya memperbolehkan google-bot untuk mengakses
suatu folder, atau melarang google-bot mengakses suatu folder. Namun, apabila
file Robots Txt tidak ditemukan di suatu website, tentu saja google-bot akan se
enaknya sendiri menjelajahi website tersebut.
Trus,
bagaimana jika dijelajahi se enaknya oleh google-bot apa pengaruhnya ?
pengaruhnya jelas berbahaya bagi blog atau website kita. Karena file-file
config, form upload, folder upload, dan file-file rahasia lainnya akan di
telusuri oleh google-bot dan menyimpannya ke database google. Sebenarnya ini
tidaklah menjadi masalah. Namun masalah akan timbul saat ada orang iseng
mencari website sebagai korban hacking iseng di google. Mereka akan dengan
mudah menemukan file-file config website kita dan dengan mudah mengakalinya.
Jadi kamu
sekarang sudah tahukan bahwa file robots.txt sangat berguna bagi suatu website.
Ini adalah
contoh default dari Robot Txt
User-agent:
Mediapartners-Google
Disallow:
User-agent:
*
Disallow:
/search
Allow: /
Sitemap:
http://whussaya.blogspot.com/sitemap.xml
Kode diatas
merupakan contoh default pada sebuah blog yang di sediakan oleh Google
Sekarang saya
akan jelaskan satu persatu dari kode yang ada di atas :
1.
User-agent: Mediapartners-Google:
User agent
milik google menandakan bahwa blog ini partner dari google. Kode ini juga
difungsikan untuk robot Google Adsense yang membantu mereka untuk menampilkan
iklan yang relevan di blog
2. Disallow:
Adalah perintah untuk mesin pencari tidak
boleh mengindex pada direktori tertentu. Jika hanya menggunakan perintah
Disallow saja maka mesin pencari tidak akan mengindex semua isi konten web blog
kita.
3. User-agent:
*
Adalah
perintah untuk semua robot mesin pencari boleh menggunakan perintah script
tersebut termasuk Googlebot, Googlebot-image, msnbot dan lainnya.
4. Disallow:
/search:
Tidak di
perbolehkan merayapi folder seach dll, seperti search/label dan seterusnya. Itu
berarti link memiliki kata kunci pencarian setelah nama domain akan diabaikan,
maka search/label/seo tidak akan di index.
5. Allow: /:
Mengizinkan
semua halaman untuk di rayapi, kecuali yang di larang di atas. Tanda
"/" mengacu pada homepage dan berarti robot dapat merayapi homepage
blog kita.
6. Sitemap:
Ini adalah alamat feeds blog. Kode ini mengacu
pada setimap blog, yang akan mempermudah robot untuk merayapi dan mengindex
setiap artikel di terbitkan.
* catatan
untuk Sitemap
-
sitemap.xml
Adalah default sitemap dari google yang bisa merayapi atau dalam
bahasa Indonesia meng crawler sekitar 25 artikel yang baru di terbitkan jika
sitemap.xml bermasalah atau tidak bisa digunakan kamu dapat mengunakan feeds/posts/default?orderby=UPDATED
Contoh :
Sitemap: http://whussaya.blogspot.com/sitemap.xml
- atom.xml?redirect=false&start-index=1&max-results=500
Custom sitemap ini menerangkan bahwa jika artikel post blog kamu ada 500
artikel post, jika artikel pos kamu ada dikisaran 500 artikel post kamu bisa
mengunakan alternatif sitemap ini
Contoh :
Sitemap: http://whussaya.blogspot.com/atom.xml?redirect=false&start-index=1&max-results=500
- atom.xml?redirect=false&start-index=500&max-results=1000
Custom sitemap ini menerangkan bahwa kamu bisa mengatur jumlah indexs yang
sesuai dengan artikel pos kamu yang telah di publish dengan mengatur angka di start-index=1
menjadi 100 atau 500 kemudian di akhiri dengan target artikel yang akan di buat
selama sebulan misalnya &max-results=1000 kamu bisa mengatur sesuai dengan
target yang ingin kamu capai
Untuk
melanjutkan cara mengatur Robot.Txt klik disini