Pertemuan 7 : Pengantar Web Science

 1.Jelaskan pengertian dan berikan contoh tentang Web Crawler

 2.Jelaskan cara kerja dari Web Crawler

 3.Jelaskan fungsi dari Web Crawler

 4.Jelaskan cara memblokir Web Crawler


Jawaban

1.Pengertian web crawler–atau sering juga disebut spiders— adalah sebuah tool untuk mengindeks dan mengunduh konten dari internet, lalu disimpan ke dalam database mesin pencari.Sehingga saat ada orang yang mencari suatu informasi, mesin pencari akan langsung menampilkan hasil yang relevan dari database tersebut.

Contoh:

  1. Bingbot dari Bing
  2. Slurp Bot dari Yahoo
  3. DuckDuckBot dari DuckDuckGO
  4. Baiduspider dari Baidu (mesin pencari dari China)
  5. Yandex Bot dari Yandex (mesin pencari dari Rusia)
  6. Sogou Spider dari Sogou (mesin pencari dari China)
  7. Exabot dari Exalead
  8. Alexa Crawler dari Amazon
2.Internet  selalu berubah dan berkembang setiap waktunya. Karena tak memungkinkan untuk mengetahui jumlah pasti berapa banyak halaman yang ada di internet, web crawler ini memulai pekerjaannya berdasarkan daftar link halaman yang sudah ia kenal sebelumnya dari sitemap suatu website.Nah, dari daftar link sitemap tersebut, ia akan menemukan link-link lain yang tersebar di dalamnya. Setelah itu, ia akan melakukan crawling ke link-link yang baru saja ditemukan itu. Proses ini akan terulang lagi di link selanjutnya dan bisa terus berjalan tanpa henti.

3. 1. Membandingkan Harga 

Web crawler bisa membandingkan harga dari suatu produk di internet. Sehingga harga ataupun data dari produk tersebut bisa akurat. Jadi, saat Anda mencari suatu produk, harga produk tersebut akan langsung muncul tanpa perlu masuk ke website penjualnya.

2. Data untuk Tools Analisis

Tools analisis website seperti Google Search Console dan Screaming Frog SEO mengandalkan web crawler untuk mengumpulkan data-datanya dan melakukan indexing. Sehingga data-data yang dihasilkan selalu akurat dan terbaru.

3. Data Untuk Statistik

Web crawler juga memberikan data-data penting yang bisa digunakan untuk website berita atau website statistik. Misalnya, hasil pencarian berita yang akan muncul di Google News. Untuk muncul di Google News, website memerlukan sitemap khsusus yang akan di-crawl oleh web crawler nantinya.

4.Seperti yang sudah sedikit disinggung di atas, Anda bisa memblokir atau melarang web crawler untuk melakukan crawling menggunakan robots.txt.Kenapa diblokir? Sebab, pada kondisi tertentu, ada konten yang tak perlu masuk indeks. Misalnya adalah konten duplikat. Konten duplikat ini justru bisa membuat website Anda dihapus dari indeks. Maka dari itu, sebaiknya konten duplikat ini tak diindeks oleh web crawler.Selain itu, melarang web crawler melakukan crawling pada halaman yang tak penting bisa mengurangi beban website Anda dan mempercepat proses indexing

Komentar

Postingan populer dari blog ini

Sistem informasi pada PT.Unilever Tbk

Role Model

Jika bekerja di desain grafis ingin menjadi apa?