Jumat, 03 Juni 2016

CRAWLER



Crawler bertugas untuk mengindeks, membuat rangking, menyusun dan menata halaman dalam bentuk indeks terstruktur agar bisa dicari dalam waktu yang sangat cepat.
Crawler akan berhadapan dengan robotsg.txt yang akan memandu mesin pencari/search engine seperti google, yahoo dan bing untuk mengindeks sebuat blog atau website, sehingga crawler akan tahu mana halaman, folder atau file yang boleh diindeks atau tidak, semakin lengkap sebuah panduan dalam robots.txt akan lebih baik, dengan demikian robot crawler akan dengan cepat mengindeks isi website, kebanyakan halaman situs berisi link ke halaman lain.
Sebuah spider dapat memulai dari manapun, apabila ia melihat sebuah link kepada halaman lain, maka ia akan segera menuju ke sana dan mengambilnya.
Search engine seperti Alta vista mempunyai banyak spider yang bekerja secara pararel. Sangat direkomendasikan untuk tidak menggunakan javascript pada menu utama, gunakanlah tag noscript, hyal ini dikarenakan javascript tidak bisa diambil oleh spider untuk search engine, dan semua link yang mengandung javascript akan ditolak sebagai halaman teks.
Crawlers Pada Search Engine
Berikut ini adalah contoh-contoh dari Crawler:
1.Teleport Pro
Salah satu software web crawler untuk keperluan offline browsing. Software ini sudah cukup lama popular, terutama pada saat koneksi internet tidak semudah dan secepat sekarang.
2.HTTrack
Ditulis dengan menggunakan C, seperti juga Teleport Pro, HTTrack merupakan software yang dapat mendownload konten website menjadi sebuah mirror pada harddisk anda, agar dapat dilihat secara offline.
3.Googlebot
Merupakan web crawler untuk membangun index pencarian yang digunakan oleh search engine Google.
4.Yahoo!Slurp
Kalau Googlebot adalah web crawler andalan Google, maka search engine Yahoo mengandalkan Yahoo!Slurp. 
5.YaCy
Sedikit berbeda dengan web crawler  lainnya di atas, YaCy dibangun atas prinsip jaringan P2P (peer-to-peer), di develop dengan menggunakan java, dan didistribusikan pada beberapa ratus mesin computer (disebut YaCy peers).
Cara Kerja Web Crawler
Web crawler atau yang dikenal juga dengan istilah web spider bertugas untuk mengumpulkan semua informasi yang ada di dalam halaman web. Web crawler bekerja secara otomatis dengan cara memberikan sejumlah alamat website untuk dikunjungi serta menyimpan semua informasi yang terkandung didalamnya. Setiap kali web crawler mengunjungi sebuah website, maka web crawler tersebut akan mendata semua link yang ada dihalaman yang dikunjunginya itu untuk kemudian di kunjungi lagi satu persatu. Proses web crawler dalam mengunjungi setiap dokumen web disebut dengan web crawling atau spidering. Beberapa websites, khususnya yang berhubungan dengan pencarian menggunakan proses spidering untuk memperbaharui data data mereka. Web crawler biasa digunakan untuk membuat salinan secara sebagian atau keseluruhan halaman web yang telah dikunjunginya agar dapat di proses lebih lanjut oleh system pengindexan. Crawler dapat juga digunakan untuk proses pemeliharaan sebuah website, seperti memvalidasi kode html sebuah web, dan crawler juga digunakan untuk memperoleh data yang khusus seperti mengumpulkan alamat e-mail.
Web crawler termasuk kedalam bagian software agent atau yang lebih dikenal dengan istilah program bot. Secara umum crawler memulai prosesnya dengan memberikan daftar sejumlah alamat website untuk dikunjungi, disebut sebagai seeds. Setiap kali sebuah halaman web dikunjungi, crawler akan mencari alamat yang lain yang terdapat didalamnya dan menambahkan kedalam daftar seeds sebelumnya.

SUMBER :
https://211093awan.wordpress.com/2013/07/04/tugas-keempat-softskills-semester-4-web-content-structure-web-analysis-web/

Tidak ada komentar:

Posting Komentar