Mengetahui dan Mempelajari tentang file Robots.txt

Di bawah ini saya sajikan beberapa hal yang berhubungan dengan robots.txt. Semua Tulisan di bawah ini, Saya rangkum langsung dari Google. Saya hanya memodifikasi tampilannya saja, kata – katanya saya ambil secara mentah dari Google.
Mengetahui dan Mempelajari tentang file Robots.txt.
File Robots.txt adalah file pada akar situs anda yang menunjukkan bagian dalam situs yang tidak anda izinkan untuk diakses oleh perayap mesin telusur. File menggunakan “standar pengecualian robot” yang merupakan protocol dengan sekelompok kecil perintah yang dapat digunakan untuk menunjukkan akses ke situs berdasarkan bagian dan berdasarkan jenis perayap web tertentu, seperti Perayap Seluler VS Perayap Dekstop.
A.      Fungsi Robots.txt
1.       File Gambar.
Robot.txt memang mencegah file gambar muncul di hasil penelusuran google, akan tetapi robot.txt tidak mencegah laman atau pengguna lain menautkan ke gambar anda.
2.       File Non Gambar.
Untuk File Non Gambar, yaitu Laman Web, robot.txt sebaiknya hanya digunakan untuk mengontrol lalu lintas perayapan, khususnya karena anda tidak ingin server kelebihan beban oleh perayap Google atau menyia-nyiakan anggaran perayapan dengan merayapi laman yang tidak penting atau mirip dalam situs. Sebaiknya jangan menggunakan robot.txt untuk menyembunyikan laman web dari hasil Google penelusuran. Soalnya laman lain mungkin mengarah ke laman anda dan laman anda dapat diindeks dengan cara seperti ini, yang menghindari file robots.txt. Jika ingin memblokir laman dari hasil penelusuran, gunakan metode lain seperti perlindungan sandi atau tag nomor indeks atau arahan.
3.       File Sumber Daya.
Anda dapat menggunakan robots.txt untuk memblokir file sumber daya seperti gambar tidak penting, skrip atau file gaya, jika anda merasa bahwa laman yang dimuat tanpa sumber daya ini tidak akan terpengaruh secara signifikan dengan tidak tersedianya sumber daya tersebut. Namun, jika tidak tersedianya sumber daya itu membuat mesin perayap Google lebih sulit memahami laman, sebaiknya jangan memblokirnya. Jika tidak, Google tidak akan bekerja dengan baik saat menganalisis laman yang bergantung pada sumber daya tersebut.
B.      Memahami Batasan Robots.txt 
Sebelum membuat robots.txt, anda harus mengetahui resiko metode pemblokiran URL ini. Terkadang anda dapat mempertimbangkan mekanisme lain guna memastikan URL tidak dapat ditemukan di web. 
1.       Petunjuk Robots.txt hanya arahan.
Petunjuk di file robots.txt tidak dapat melaksanakan perilaku perayap ke situs anda. Selagi GoogleBot dan perayap web ternama lainnya mematuhi petunjuk dalam file robots.txt, perayap lainnya mungkin tidak. Oleh karena itu, jika anda ingin menjaga informasi tetap aman dari perayap web, sebaiknya gunakan metode pemblokiran lainnya, seperti file pribadi yang dilindungi sandi pada server anda.
2.       Perayap lain Menafsirkan Sintaksis dengan Cara yang Berbeda.
Meskipun web ternama mengikuti arahan dalam file robots.txt, tiap perayap mungkin menafsirkan arahan dengan cara yang berbeda. Anda perlu mengetahui Sintaksis yang sesuai untuk menangani perayap web yang berbeda, karena beberapa diantaranya mungkin tidak memahami perintah tertentu.
3.       Arahan Robots.txt tidak dapat mencegah Referensi ke URL anda dari situs lain.
Meskipun Google tidak akan merayapi atau mengindeks konten yang diblokir oleh robots.txt,  kami mungkin masih menemukan dan mengindeks URL yang ditolak dari tempat lain di web. Akibatnya alamat URL dan kemungkinan informasi lain yang tersedia secara public seperti teks tautan dalam tautan ke situs masih dapat muncul di hasil penelusuran Google. Anda dapat menghentikan URL agar tidak muncul sepenuhnya di hasil Google Penelusuran dengan menggunakan metode pemblokiran URL yang lain, Misalnya : menggunakan perlindungan sandi untuk file di server maupun menggunakan tag meta nomor indeks atau header tanggapan.
Jadi, Menggabungkan beberapa arahan perayapan dan pengindekan dapat menyebabkan beberapa arahan berjalan berlawanan dengan arahan lainnya. 
Membuat File Robots.txt . 
Untuk membuat file robots.txt, anda memerlukan akses ke akar domain. Apabila tidak yakin tentang cara mengakses akar, anda dapat menghubungi penyedia layanan Hosting Web. Selain itu, jika tidak dapat mengakses akar domain, anda dapat menggunakan metode pemblokiran alternative, seperti File yang dilindungi sandi di server dan menyisipkan tag meta ke HTML. Anda dapat membuat atau mengedit file robots.txt yang sudah ada menggunakan alat “Penguji Robots.txt”. Tindakan ini memungkinkan anda menguji perubahan saat menyesuaikan robots.txt 
A.      Pelajari Sintaksis Robots.txt
File Robots.txt yang paling sederhana menggunakan dua kata kunci, yaitu “User- Agent” dan “Disallow”. 
1.       User – Agent (Agen Pengguna) adalah Robot mesin telusur atau perangkat lunak perayap web. Sebagian besar agen pengguna tercantum dalam “Basis Data Robot Web”.
2.       Disallow (Larang) merupakan perintah bagi agen pengguna yang memberitahukannya agar tidak mengakses URL tertentu.
Disisi lain, agar Google dapat mengakses URL tertentu yang merupakan direktori turunan dalam direktori induk yang dilarang. Anda dapat menggunakan kata kunci ketiga, yaitu “Allow” (Mengizinkan). 
Google menggunakan beberapa agen pengguna sebaagai GoogleBot untuk Google Penelurusan dan GoogleBot Image untuk Google Penelusuran Gambar. Sebagian besar Agen Pengguna Google mengikuti aturan yang anda siapkan untuk GoogleBot, namun anda dapat mengganti opsi ini dan membuat aturan khusus hanya untuk Agen Pengguna Google tertentu.
Sintaksis untuk menggunakan kata kunci adalah sebagai berikut : 
1.       User – Agent : {the name of the robot the following rule applies to}.
2.       Disallow : {the URL path you want to block}.
3.       Allow : {the URL path in of a subdirectory, within a blocked parent directory, that you want to unblock}. 
Dua baris ini dianggap sebagai satu entry di file tempat aturan Disallow hanya berlaku untuk agen pengguna yang ditentuan diatasnya. Anda dapat menyertakan sebanyak mungkin entri dan beberapa baris Disallow dapat berlaku untuk untuk beberapa agen pengguna , semua dalam satu entry. Anda dapat menyetel perintah User – Agent untuk diterapkan ke semua perayap web dengan mencantumkan tanda bintang (*) seperti contoh di bawah ini :
User – Agent : 
1.       Perintah Pemblokiran URL untuk digunakan di file Robots.txt 
A.      Memblokir “seluruh situs” dengan garis miring ke depan (/).
Contoh :     Disallow : /
B.      Memblokir “Direktori dan Kontennya” dengan mengikuti nama direktori dengan garis miring ke depan.
Contoh :     Disallow : /sample-directory/
C.      Memblokir “Laman Web” dengan mencantumkan laman setelah garis miring.
Contoh :      Disallow : / Private_file.html
D.      Memblokir “Gambar Khusus dari Google Gambar”
Contoh :     User – agent : Googlebot-Image
                      Disallow : / image/ dogs.jpg
E.       Memblokir “Semua gambar di Situs anda dari Google Gambar”
Contoh :      User-agent : Googlebot-image
                      Disallow : /
F.       Memblokir “File dari jenis File Khusus (misalnya gif)”
Contoh :       User-agent : Googlebot
                       Dissalow : /*.gifs
G.     Memblokir “Laman di Situs anda, namun Menampilkan Iklan Adsense di Laman tersebut”. Melarang semua perayap web selain MediaPartners – Google. Penerapan ini menyembunyikan laman anda dari hasil penelusuran, namun perayap web Mediaartners – Google tetap dapat menganalisisnya untuk menentukan iklan yang akan ditampilkan kepada pengunjung di situs.
Contoh :    User-agent : *
                   Disallow : /
                   User – agent : Mediapartners Google
                   Allow : /

Perlu diingat bahwa perintah “peka huruf besar kecil”, misalnya : Disalow : / file.asp  akan memblokir http ://www.example.com/file.asp, namun akan mengizinkan http ://www.example.com/File.asp . Googlebot juga mengabaikan ruang kosong dan petunjuk tak dikenal dalam robots.txt
2.       Aturan Pencocokan Pola untuk menyederhanakan kode Robot.txt
A.      Untuk memblokir rangkaian karakter apapun, Gunakan tanda bintang (*). Misalnya kode contoh untuk memblokir akses ke semua subdirektori yang diawali dengan kata “Private”
       Contoh :   User-agent : Googlebot
                         Disallow : /private*/
B.      Untuk memblokir akses ke semua URL yang berisi tanda Tanya (?). Misalnya kode contoh untuk memblokir URL yang diawali dengan nama domain anda, diikuti dengan string apapun, diikuti dengan tanda Tanya dan diakhiri dengan string apapun. 
Contoh : User-agent : Googlebot
                Disallow : /*?
C.      Untuk memblokir apapun yang diakhiri dengan cara tertentu, gunakan $. Misalnya kode contoh untuk memblokir URL apapun yang diakhiri dengan  .xls
Contoh : User-agent : Googlebot
                 Disallow : /*.xls$
D.      Untuk memblokir pola dengan perintah izinkan dan larang
Contoh : User-agent : *
               Allow : /*?$
               Disallow : /*?
Dalam contoh diatas, ? menunjukkan ID sesi. URL yang berisi ID ini seharusnya diblokir dari Google untuk mencegah perayap web agar tidak merayapi laman duplikat. Sementara itu, jika URL yang diakhiri dengan ? merupakan versi laman yang ingin disertakan. Anda dapat menggunakan pendekatan berikut untuk mengombinasikan perintah Allow dan Disallow :
1.       Perintah Allow : /*?$ memungkinkan URL apapun yang berakhiran dengan ? .
Lebih khusus lagi, perintah ini Mengijinkan URL yang dimulai dengan nama Domain anda, diikuti string, diikuti ?, tanpa karakter yang mengikuti ?
2.       Perintah Disallow : /*? Memblokir URL apapun yang berisi ?  
Lebih Khusus lagi, perintah ini Memblokir URL yang dimulai dengan nama Domain anda, diikuti dengan string, diikuti dengan tanda Tanya, diikuti dengan string.
Menyimpan File robot.txt anda 
Anda harus menerapkan Konvensi penyimpanan berikut sehingga Googlebot dan perayap web lain dapat menemukan dan mengidentifikasi file robots.txt ,
1.       Anda harus menyimpan Kode robots.txt sebagai file teks.
2.       Anda harus menempatkan file di direktori tingkat teratas situs atau root domain. 
3.       File robots.txt harus diberi nama robots.txt
Sebagai contoh file robots.txt yang disimpan diakar example.com di alamat URL http://www.example.com/robots.txt dapat ditemukan oleh perayap web, namun file robots.txt di http://www.example.com/not_root/robots.txt tidak dapat ditemukan oleh perayap web manapun.  
Menguji robots.txt anda dengan Penguji robots.txt
Alat penguji robots.txt menunjukkan apakah file robots.txt memblokir perayap web Google dari URL tertentu di situs anda. Misalnya anda dapat menggunakan alat ini untuk menguji apakah perayap Googlebot Image dapat merayapi URL gambar yang ingin anda blokir dari Google Penelusuran Gambar. Anda dapat mengirimkan URL ke alat penguji robots.txt. Alat ini beroperasi sebagai Googlebot yang akan memeriksa file robots.txt dan memverifikasi apakah URL telah di blokir dengan benar. 
A.      Menguji File robots.txt
Langkah – langkah untuk menguji Robots.txt adalah sebagai berikut : 
1.       Buka alat penguji situs anda dan gulir kode robots.txt untuk menemukan Peringatan Sintaksis dan Kesalahan Logika yang disorot. Jumlah peringatan sintaksis dan kesalahan logika segera ditampilkan di bawah editor.
2.       Ketik URL laman pada situs anda dalam kotak teks di bawah bagian laman.
3.       Pilih Agen Pengguna yang ingin anda simulasikan pada daftar Tarik – Turun di sebelah kanan kotak teks.
4.       Klik tombol UJI untuk menguji akses.
5.       Periksa untuk melihat apakah timbol UJI terbaca DITERIMA atau DIBLOKIR untuk mengetahui apakah URL yang anda masukkan diblokir dari perayap Web Google.
6.       Edit file pada laman dan uji kembali bila perlu. Perhatikan bahwa perubahan yang dilakukan pada laman tidak tersimpan ke situs anda. Lihat langkah berikutnya.
7.       Salin perubahan ke file robots.txt pada situs. Alat ini hanya menguji salinan yang dihosting pada alat dan tidak mengubah file actual di situs anda. 
B.      Batasan Alat Penguji robots.txt, diantaranya :
1.       Perubahan yang anda lakukan di editor alat tidak tersimpan secara otomatis di server web. Anda perlu menyalin dan menempel konten dari editor ke file robots.txt yang tersimpan di server.
2.       Alat penguji robot.txt hanya menguji robots.txt dengan agen pengguna atau perayap web google seperti Googlebot. Kami tidak dapat memprediksi penafsiran perayap web lain atas file robos.txt anda. 
Mengirim robot.txt yang diperbaharui ke Google.
Fungsi kirim alat Penguji robots.txt memungkinkan anda menempatkan dan meminta Google agar lebih cepat merayapi dan mengindeks file robots.txt baru untuk situs anda dengan lebih mudah. Perbarui dan beritahu Google atas perubahan file robots.txt dengan mengikuti langkah – langkah di bawah ini :
1.       Klik Kirim di pojok kanan bawah editor robots.txt. tindakan ini membuka dialog kirim.
2.       Unduh kode robots.txt hasil edit dari laman Penguji robots.txt dengan meng klik Unduh di dialog kirim.
3.       Unggah file robots.txt yang baru ke akar domain anda dalam bentuk file teks dengan nama robots.txt. Url untuk robots.txt sebaiknya /robots.txt
Jika anda tidak memiliki ijin mengunggah file ke akar domain, sebaiknya hubungi pengelola domain untuk melakukan pengubahan. 
Contoh nya : Jika beranda situs anda berada di bawah subdomain.example.com/site/example/,  anda mungkin tidak dapat memperbaharui file robots subdomain.example.com/robots.txt. Dalam hal ini, sebaiknya anda menghubungi pemilik example.com/ untuk melakukan perubahan apapun yang diperlukan ke file robots.txt
4.       Klik Verifikasi Versi Aktif untuk melihat apakah robot.txt yang aktif adalah versi yang anda inginkan agar dirayapi oleh Google.
5.       Klik Kirim Versi Aktif untuk memberitahu Google bahwa perubahan telah dilakukan ke file robots.txt dan meminta agar google merayapinya.  

6.       Periksa apakah versi terbaru anda berhasil dirayapi oleh google dengan menyegarkan laman pada browser anda guna memperbaharui editor alat dan melihat kode robots.txt yang aktif. Setelah menyegarkan laman, anda juga dapat meng klik menu tarik – turun di atas editor teks untuk melihat stempel waktu saat Google pertama kali melihat versi terbaru file robot.txt anda

0 komentar:

Post a Comment