Apa Itu Googlebot
Googlebot adalah perayap Google, yang mengumpulkan dokumen dari Internet dan mengkompilasinya untuk indeks dan kemudian menyediakannya untuk pencarian Google. Ia mengumpulkan dokumen melalui proses otomatis, yang beroperasi sangat mirip browser web. Bot mengirimkan permintaan dan menerima respons dari server.
Jika suatu parameter membolehkan akses bagi Googlebot, hal tersebut memungkinkannya untuk mengunduh sebuah halaman web yang tersedia di URL tersebut dan menyimpannya di dalam indeks Google. Ini adalah cara Googlebot menjelajahi internet secara global dengan menggunakan sumber daya yang tersebar. Daya komputasi Googlebot tersebar di seluruh sistem pusat data yang sangat besar, memungkinkannya untuk merayapi ribuan situs web secara simultan.
Perayap web, yang juga dikenal sebagai spider atau bot, merupakan program otomatis yang melakukan penjelajahan dan pengumpulan data dari internet. Tugasnya melibatkan “merangkak” situs web, mengunduh konten yang ada di dalamnya, dan menyimpannya dalam sebuah database besar.
Peran perayap web sangat vital dalam berbagai aktivitas, termasuk pengindeksan situs web, pemantauan perubahan pada situs web, dan pengumpulan data untuk analisis. Program perayap ini diprogram untuk mengikuti tautan yang ada di dalam situs web dan bergerak ke situs web lainnya.
Googlebot adalah perayap atau robot web yang dimiliki oleh Google, dan mesin pencari lain juga memiliki versi perayap mereka sendiri. Robot ini melakukan penjelajahan halaman web melalui tautan, menemukan serta membaca konten yang baru atau yang telah diperbarui, dan memberikan rekomendasi terkait dengan apa yang seharusnya ditambahkan ke dalam indeks. Indeks tersebut dapat dianggap sebagai inti dari sistem pencarian Google, di mana semua informasi berada. Google menggunakan sejumlah besar komputer untuk menjalankan perayapnya, menjangkau setiap bagian dan sudut web untuk menemukan halaman-halaman tersebut dan menganalisis isinya.
Cara Kerja Googlebot?
Googlebot menggunakan informasi dari peta situs dan basis data tautan yang telah dikumpulkannya selama perayapan sebelumnya untuk menentukan langkah selanjutnya. Setiap kali perayap menemukan tautan baru di sebuah situs, tautan tersebut akan ditambahkan ke daftar halaman yang akan dikunjungi berikutnya. Jika perayap menemukan tautan yang rusak atau mengalami perubahan, informasi tersebut akan dicatat untuk memperbarui indeks. Program ini juga menentukan frekuensi kunjungan ke halaman tersebut. Penting untuk memastikan bahwa situs Anda dapat dijangkau oleh Googlebot agar proses indeksasi berjalan dengan lancar. Jika situs Anda dapat diakses oleh perayap, mereka akan mengunjunginya secara teratur.
Perbedaan Robot dan Crawler
Terdapat beberapa jenis robot yang berbeda. Sebagai contoh, AdSense dan AdsBot bertugas memeriksa kualitas iklan, sementara Aplikasi Seluler Android bertugas memeriksa aplikasi Android. Setiap robot memiliki agen pengguna yang berbeda untuk mengidentifikasinya. Bagi kami, hal ini adalah yang terpenting:
Googlebot (desktop)
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36
Googlebot/2.1 (+http://www.google.com/bot.html)
Googlebot (seluler)
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Video Googlebot
Googlebot-Video/1.0
Berita Googlebot
Googlebot-News
Cara Googlebot Mengunjungi Situs
Untuk memahami seberapa sering Googlebot mengunjungi situs Anda dan aktivitasnya di sana, Anda dapat memeriksa file log situs Anda atau mengakses bagian Perayapan di Google Search Console. Jika Anda ingin melakukan tindakan lanjutan untuk meningkatkan kinerja perayapan situs Anda, Anda dapat menggunakan alat seperti Kibana atau SEO Log File Analyzer dari Screaming Frog.
Google tidak mengungkapkan daftar alamat IP yang digunakan oleh berbagai robot karena alamat ini sering berubah. Untuk memastikan apakah Googlebot yang sebenarnya mengunjungi situs Anda, Anda dapat melakukan pencarian IP terbalik. Penyelenggara spam atau pengguna palsu dapat dengan mudah memalsukan nama agen pengguna, tetapi tidak dapat memalsukan alamat IP. Google menggunakan metode seperti ini untuk memverifikasi keaslian Googlebot.
Anda dapat menggunakan robots.txt untuk mengatur bagaimana Googlebot mengunjungi atau tidak mengunjungi bagian situs Anda. Namun, jika dilakukan secara tidak tepat, Anda mungkin menghentikan perayapan sepenuhnya, menyebabkan situs Anda dihapus dari indeks. Ada cara yang lebih baik untuk mengendalikan indeksasi situs Anda.
Konsep Googlebot
Googlebot pada dasarnya merupakan konsep teknologi perayap yang pada dasarnya adalah algoritma yang beroperasi secara mandiri dan didasarkan pada konsep WWW (world wide web). Internet bisa dianggap sebagai jaringan besar situs web dengan node, tautan, dan hyperlink.
Secara matematis, konsep ini dapat dijelaskan sebagai grafik, di mana setiap node dapat diakses melalui URL. Tautan di situs web mengarah ke subhalaman atau sumber daya lain dengan URL atau domain lain. Oleh karena itu, perayap membedakan antara tautan HREF (hubungan) dan tautan SRC (sumber daya). Kecepatan dan efektivitas perayapan dalam menjelajahi seluruh grafik dijelaskan dalam teori grafik.
Google menggunakan berbagai teknik dalam operasinya. Di satu sisi, mereka menggunakan multi-threading, yang memungkinkan proses perayapan bersamaan dari beberapa proses. Di sisi lain, mereka menggunakan perayap terfokus, yang menargetkan subjek yang dibatasi secara tematis, seperti pencarian situs web untuk jenis tautan, situs web, atau konten tertentu. Google memiliki bot yang khusus untuk merayapi gambar, iklan mesin pencari, dan perangkat seluler.
Googlebot Sebagai Aplikasi Praktis
Webmaster dan pengelola situs memiliki opsi yang berbeda untuk memberikan informasi kepada perayap, atau bahkan menolaknya. Setiap perayap awalnya diidentifikasi dengan istilah “agen pengguna”. Googlebot, misalnya, teridentifikasi dalam file log server sebagai “Googlebot” dengan alamat host “googlebot.com”.
Bing, di sisi lain, menggunakan “BingBot” sebagai nama perayap dan alamatnya adalah “bing.com/bingbot.htm”. Informasi tentang siapa yang mengirim permintaan ke server dapat ditemukan dalam file log. Webmaster memiliki kemampuan untuk menolak akses dari perayap tertentu atau memberikan akses ke mereka. Ini dapat dilakukan melalui file Robots.txt, menggunakan atribut Disallow: /, atau dengan menggunakan meta tag tertentu dalam dokumen HTML. Dengan menambahkan tag meta ke halaman web, seorang webmaster dapat mengatur akses ke informasi di situs web mereka bagi Googlebot sesuai kebutuhan. Contoh dari tag meta ini adalah:
<meta name = “Googlebot” content = “nofollow” />
Webmaster juga dapat menentukan frekuensi di mana Googlebot harus merayapi situs web. Ini biasanya dilakukan melalui Google Search Console. Hal ini disarankan terutama ketika perayap mengakibatkan penurunan kinerja server atau jika situs web mengalami pembaruan sering dan memerlukan perayapan yang lebih sering. Jumlah halaman dari situs web yang dirayapi ditentukan oleh anggaran perayapan.
Googlebot Relevansi dengan SEO
Memahami cara kerja Googlebot sangat krusial dalam strategi optimisasi mesin pencari (SEO) untuk situs web. Ini tidak hanya penting secara teoretis, tetapi lebih utama dalam praktiknya. Disarankan untuk memberikan URL baru kepada perayap (seeding), yang berarti memberikan bot alamat sebagai titik awal. Dengan demikian, bot dapat menemukan konten dan tautan tambahan di situs web lain melalui tautan, dan tautan HREF pada sumber daya tertentu dapat memastikan bot menerima URL baru.
Anda juga dapat memberi tahu Googlebot tentang URL baru dengan mengirimkan ping ke WWW. Dengan waktu, Googlebot akan menemukan URL yang Anda sebutkan. Selain itu, dianjurkan untuk menyediakan peta situs kepada bot. Ini memberikan informasi penting tentang struktur situs web Anda dan membantu bot menentukan URL mana yang harus diikuti selanjutnya. Hal ini terutama bermanfaat ketika situs web yang luas mengalami peluncuran kembali.
Karena Googlebot mampu membaca berbagai jenis konten, bukan hanya teks atau gambar, penting untuk memantau kemampuannya. Google telah menghabiskan beberapa tahun dalam pengembangan kemampuannya untuk membaca konten Flash, halaman web dinamis, kode JavaScript, dan Ajax, dan sebagian berhasil dalam hal ini. Metode khusus seperti GET atau POST sudah dapat diidentifikasi oleh Googlebot, dan sebagian dari konten Flash juga bisa dibaca olehnya.
Optimalkan Googlebot
Meningkatkan kecepatan perayapan situs Anda oleh Googlebot adalah upaya teknis yang bertujuan untuk mengatasi kendala teknis yang mungkin menghambat akses perayap ke situs Anda. Proses ini memang cukup teknis, namun penting untuk dipahami dan dikuasai. Jika Google mengalami kesulitan dalam menjelajahi situs Anda, maka kemungkinan besar situs Anda tidak akan mendapatkan peringkat yang optimal di hasil pencarian. Temukan kesalahan yang ada dan lakukan perbaikan yang diperlukan
Kesimpulan:
Googlebot adalah perayap web yang dimiliki oleh Google dan bertugas untuk mengumpulkan dokumen dari internet, mengkompilasinya untuk indeks, dan membuatnya tersedia untuk pencarian Google. Googlebot melakukan proses ini dengan cara mengirimkan permintaan ke server dan menerima responsnya, mirip dengan cara browser web beroperasi. Perayap web sangat penting dalam berbagai aktivitas seperti pengindeksan situs web, pemantauan perubahan pada situs web, dan pengumpulan data untuk analisis.
Googlebot menggunakan informasi dari peta situs dan basis data tautan yang dikumpulkannya untuk menentukan langkah selanjutnya dalam menjelajahi internet. Googlebot juga menentukan frekuensi kunjungan ke halaman web dan menggunakan berbagai teknik seperti multi-threading dan perayap terfokus untuk menjalankan operasinya.
Perbedaan antara Googlebot dan perayap lainnya seperti AdSense dan Aplikasi Seluler Android terletak pada fokus dan fungsi mereka. Webmaster memiliki kontrol atas akses perayap dengan menggunakan file robots.txt atau tag meta dalam dokumen HTML.
Memahami cara kerja Googlebot penting untuk strategi SEO, karena memastikan situs Anda dapat dijangkau oleh Googlebot merupakan langkah penting untuk mendapatkan peringkat yang optimal di hasil pencarian Google. Optimasi Googlebot melibatkan upaya teknis untuk meningkatkan kecepatan perayapan situs Anda dan memastikan bahwa Googlebot dapat membaca konten situs Anda dengan baik.
Referensi
K. G. Pollock, “Googlebot,” Encyclopedia of Library and Information Sciences, Third Edition, 2010, pp. 2180-2187.
D. Koster, “Crawlers, Spiders, and Robots,” Journal of the American Society for Information Science, vol. 48, no. 4, pp. 304-308, 1997.
M. Thelwall, “A History of Web Crawling and Web Search,” Bulletin of the Association for Information Science and Technology, vol. 42, no. 1, pp. 12-16, 2015.
M. A. Noll and F. Menczer, “Principles of Web Search,” Synthesis Lectures on Information Concepts, Retrieval, and Services, vol. 8, no. 2, pp. 1-101, 2016.
G. Mishne and M. de Rijke, “A Study of Blog Search,” Proceedings of the 16th ACM Conference on Information and Knowledge Management, pp. 289-296, 2007.
Google, “Googlebot,” [Online]. Available: https://developers.google.com/search/docs/advanced/crawling/googlebot. [Accessed: Jan. 15, 2024].
Y. Ruan and J. Wang, “Understanding Googlebot’s Mobile-First Indexing,” Proceedings of the 25th International Conference on World Wide Web Companion, pp. 131-135, 2016.
Tag: Agen pengguna, Algoritma, Cara kerja Googlebot, File robots.txt, Googlebot, Googlebot Sebagai Aplikasi praktis, Googlebot Relevansi dengan SEO, Grafik internet, HTML, Indeks Google, Kecepatan perayapan, Konsep Googlebot, Multi-threading, Optimisasi SEO, Pembacaan konten oleh Googlebot, Pembaruan situs web, Pengertian Googlebot, Pengindeksan situs web, Peran perayap web, Perayap terfokus, Perayap web, Peta Situs, Tag meta, URL
