Author by Yosef Doublehorn
Author by : Doublehorn
DAFTAR ISI
Protected by Copyscape Online Infringement Detector

02 Juli 2013

Serial SEO: Bagaimana bikin robots txt (file robots.txt)?


Penggunaan file robots.txt dengan benar akan support SEO blog. Blogger atau webmaster pakai robots.txt untuk beri instruksi ke robots terkait situs.

Cara kerja file robots.txt - website files

Saat Robot menjelajahi (crawl), misalnya :

URL http://www.example.com/ atau http://www.example.com/welcome.html.

Maka pertama dilakukan robots di blog Anda adalah check file situs atau website tersebut, salah satu file yang pertama diperiksa oleh Googlebots dan robots search engine lain ialah file robots.txt bertempat di :

http://www.example.com/robots.txt.

Contoh content file robots.txt - website archives

User-agent: *
Disallow: /
  • "User-agent: *"  Artinya section berlaku bagi robots semua search engine.
    Tanda  (*)             Pada User-agent ialah nilai khusus yang berarti robot apapun.
  • "Disallow: /"      Artinya semua robot TIDAK BOLEH berkunjung ke halaman
                                  apapun di situs yang disebutkan dalam section ini.

Aturan penulisan file robots.txt bikin canggung, karena tidak ada field (record) "Allow:" untuk “izin akses.” Alternatifnya yaitu meletakkan semua file yang akan dilarang di belakang "Disallow:" Ditulis dalam baris terpisah untuk masing direktori. (Lihat bagian akhir artikel).

Pertimbangan penting penggunaan robots.txt
  • robots (sama seperti malware robots) dapat saja mengabaikan file robots.txt,
    tapi Malware robots tetap bisa memindai kerentanan security & scan alamat
    email spammers.
  • File robots.txt tersedia untuk publik. Artinya semua orang bisa melihat isi file
    atau melihat section-section dari web server yang Anda tidak ingin robots
    menggunakannya.

So, JANGAN gunakan file robots.txt untuk menyembunyikan informasi.

ilustrasi googlebots robot web crawler

How to create robots.txt? - website archives

Dimana kita tempatkan file robots.txt? - website files

File ini ditempatkan dalam direktori Top-Level pada web server. Tutorial pengeditan file robots.txt dalam template blogger dapat dilihat di link :


Letak file robots.txt ada sesudah alur komponen URL, didahului slash tunggal (/). Contoh riil ini :

http://website-download.blogspot.com/robots.txt atau http://www.example.com/robots.txt

Ilustrasi lokasi robots.txt - website files

Contoh URL http://www.example.com/shop/index.html.
Kemudian /shop/index.html dihapus. Ganti dengan teks /robots.txt.
Hasilnya menjadi http://www.example.com/robots.txt

Anda harus meletakkan di tempat tepat di web server sehingga dapat bekerja. Lokasi biasanya ada di tempat sama dimana Anda letakkan website utama – welcome page – "index.html" Tapi tepatnya dimana, dan bagaimana penempatan file robots.txt, tergantung software web server.

PERINGATAN
Gunakan semua huruf kecil untuk nama file : "robots.txt", bukan Robots.TXT atau ROBOTS.TXT

Apa isi file robots.txt? - website files

File "/robots.txt" adalah sebuah text file, terdiri satu record atau lebih. Secara default biasanya berisi satu record (single record) yaitu “disallow” seperti contoh pada awal artikel. Berikut ini contoh single record beserta 3 direktori yang dikecualikan untuk dikunjungi (diletakkan dibelakang “Disallow:”).

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

Perhatikan bahwa Anda perlu baris "Disallow" terpisah untuk setiap URL prefix yang ingin DIKECUALIKAN – jangn menuliskan "Disallow: /cgi-bin/ /tmp/" dalam satu baris. Juga TIDAK BOLEH ada baris kosong dalam satu record, karena mereka digunakan untuk membatasi beberapa record.

Globbing dan regular expression TIDAK didukung, baik dalam baris User-agent maupun baris Disallow. Tanda '*' (pada field User-agent) adalah nilai khusus yang berarti "robot apapun"  Anda juga tidak boleh memiliki baris seperti :

"User-agent: *bot*",
"Disallow: /tmp/*" atau
"Disallow: *.gif".

Contoh penulisan file robots.txt - website files

  1. Pengecualian semua robots crawler dari seluruh server

    User-agent: *
    Disallow: /

    SEMUA ROBOT tanpa kecuali TIDAK DIZINKAN menjelajahi seluruh isi situs. Penulisan ini SANGAT TIDAK DIREKOMENDASIKAN!

  2. Mengizinkan semua robots untuk akses penuh

    User-agent: *
    Disallow:

    Semua robot search engine mendapat akses penuh untuk mengunjungi situs. (Dengan cara lain : KOSONGKAN isi file "/robots.txt" atau sama sekali jangan gunakan file "/robots.txt").

  3. Pengecualian semua robots dari sebagian isi server

    User-agent: *
    Disallow: /cgi-bin/
    Disallow: /tmp/
    Disallow: /junk/

    SEMUA ROBOT search engine, tanpa kecuali, TIDAK BOLEH mengunjungi ketiga direktori diatas.

  4. Pengecualian untuk robot tertentu (robot tersebut tidak diizinkan akses)

    User-agent: BadBot
    Disallow: /

    Badbot SATU-SATUNYA robot search engine yang TAK DIIZINKAN akses ke seluruh situs

  5. To allow a single robot

    User-agent: Google
    Disallow:

    User-agent: *
    Disallow: /

  6. Larangan akses ke semua file dalam direktori kecuali satu file


Misalnya direktori ‘joe’ dan hanya satu file yang boleh diakses (misal file ‘stuff’). Letakkan semua file yang akan dilarang ke direktori terpisah (direktori "stuff"),  dan sisakan satu file di level directory ini. Cara penulisannya :

User-agent: *
Disallow: /~joe/stuff/

Alternatifnya secara eksplisit  “DILARANG” untuk semua disallowed pages seperti :

User-agent: *
Disallow: /~joe/junk.html
Disallow: /~joe/foo.html
Disallow: /~joe/bar.html


et cetera.


That's all we know - Happy blogging! - Happy blog blogger




Comments

0 komentar:

Posting Komentar di Website Design

-

Penelusuran topik khusus di blog ini
Loading