Deepbot adalah bagian dari perayap web Googlebot, yang merayapi Internet secara berkala untuk menambahkan sebanyak mungkin konten dan situs ke indeks pencarian (pengindeksan). Deepbot berfokus pada kedalaman situs web dan mengikuti semua tautan yang diketahui melalui indeks yang ada. Deepbot secara otomatis berpindah dari tautan ke tautan, menangkap berbagai data (lihat faktor peringkat) dan memasukkannya ke dalam sistem yang kompleks. Semua konten yang ditemui Deepbot dengan proses perayapan mendalam ini ditetapkan ke indeks langkah demi langkah. Basis data ini adalah dasar untuk perhitungan algoritma yang pada akhirnya menghasilkan peringkat. Proses secara langsung mempengaruhi peringkat situs di SERP karena sistem menggunakan catatan baru, yang juga dikenal sebagai Google Dance dan sama saja dengan penyegaran data. Deepbot saat ini mengunjungi situs web dengan selang waktu sekitar satu bulan dan merayapi jutaan dokumen web di Internet selama sekitar satu minggu.
Informasi Umum Deepbot
Situs web dapat direpresentasikan sebagai struktur pohon atau grafik, yang dapat dicari secara otomatis oleh program komputer. Program yang juga disebut dengan istilah bot, spider atau crawler ini memindai struktur website dan konten yang terletak di cabang-cabang (link). Halaman beranda adalah simpul akar tempat beberapa subhalaman dapat diakses. Tautan yang mengarahkan ke subhalaman ini disebut edge. Program komputer terdiri dari sebagian besar algoritma, yang menggambarkan kemungkinan rute dalam struktur ini dan mengatur data apa yang signifikan untuk kemungkinan perubahan peringkat. Dua bagian dari Googlebot, Freshbot dan Deepbot, saat ini diimplementasikan pada tingkat infrastruktur (lihat Google Caffeine).
Bagaimana carakerja Deepbot
Googlebot pada dasarnya terdiri dari dua komponen:
Freshbot: Freshbot berfokus pada konten baru dan dengan demikian pada situs web yang memperbarui konten mereka dalam interval yang sangat singkat. Majalah online, situs berita atau blog, misalnya.
Deepbot: Deepbot memeriksa struktur kedalaman situs web dan mengumpulkan sebanyak mungkin tautan untuk indeks. Deepbot memanen tautan dan mengikutinya sejauh mungkin.
Sementara Freshcrawl menargetkan situs dengan konten yang terus berubah, Deepcrawl dicirikan oleh fakta bahwa semua subhalaman situs web dibaca. Perayapan masuk ke struktur kedalaman situs web. Namun, subhalaman tidak harus menyediakan konten baru, mereka hanya dilacak secara keseluruhan oleh Deepbot dan terdaftar pada indeks terbalik. Tujuan dari Deepbot adalah untuk mendapatkan gambaran vertikal dari struktur dan isi dari sebuah situs web agar dapat menampilkan hasil yang relevan dengan permintaan pencarian nantinya dalam waktu yang sangat singkat. Berkat struktur indeks, Google dapat mengakses kumpulan data tertentu yang dipicu oleh kueri penelusuran dalam milidetik.
Deepbot sebagian mendapat instruksi dari bagian lain perayap Google. Freshbot terus-menerus merayapi Internet dan menambahkan tautan ke indeks yang kemudian dapat dicari oleh Deepbot. Jika konten baru ini diindeks, mungkin ada fluktuasi peringkat, yang oleh para ahli disebut efek Everflux. Ini juga merupakan penyegaran data dan bukan pembaruan algoritme, seperti yang pernah ditekankan Matt Cutts.[2] Hasil pengindeksan akhir akan diselesaikan dari waktu ke waktu setelah Google mengumpulkan data untuk indeks oleh Deepcrawls reguler dan Freshcrawl memperbarui data secara terus-menerus. Prinsip berfungsinya pencarian tautan ini disebut pencarian inkremental. Langkah-langkah kecil meningkatkan sistem terus menerus. Deepbot dan Freshbot juga aktif secara bersamaan di berbagai titik di infrastruktur Internet.
Relevansi untuk latihan
Karena setiap perayapan adalah komunikasi antara klien (bot, perayap, laba-laba) dan server, proses ini setidaknya dapat direkonstruksi sebagian. Setelah bot mengakses situs web, server mendaftarkan akses ini dan mencatatnya di file log. Alamat IP dan agen pengguna menunjukkan bot mana itu. Bot bertindak seperti browser tanpa antarmuka pengguna grafis. Istilah perayapan tanpa kepala telah menjadi lazim untuk tindakan ini. Cara Googlebot melihat situs web dapat dilihat menggunakan alat “Ambil sebagai Google”.
Googlebot juga dapat diverifikasi dengan melakukan pencarian DNS di kedua arah. Ini disarankan, misalnya, untuk mengecualikan robot spam atau spoofing. Pemblokiran alamat IP tertentu dalam jangka panjang tidak mungkin dilakukan karena Google dapat mengubah rentang alamat Googlebots.
Pencarian DNS terbalik: Nama host dan alamat IP dari file log server dapat digunakan untuk mengambil nama domain.
Sekarang diperiksa apakah nama domain googlebot.com atau google.com muncul di file log.
Pencarian DNS biasa: Dengan host perintah dan nama domain yang diambil dari langkah pertama, alamat IP dari nama domain ini sekarang dapat menjadi output.
host 12.345.457.1 66.249.66.1
12.345.457.1.in-addr.arpa domain name pointer crawl-12-345-457-1.googlebot.com.
> host crawl-12-345-457-1.googlebot.com
crawl-12-345-457-1.googlebot.com has address 12.345.457.1
Jika datanya cocok, itu memang Googlebot. Entri lain dari file log juga dapat diperiksa menurut skema ini dan mungkin dikecualikan. Ada beberapa cara untuk mengontrol perayapan dan pengindeksan. File robots.txt harus dianggap sebagai instruksi longgar untuk perayap, atau metatag nofollow, yang memberi tahu perayap untuk tidak mengikuti tautan ini. Secara umum, mengirimkan peta situs ke mesin pencari bermanfaat untuk memberi mereka gambaran umum tentang struktur situs web dan kontennya.
Relevansi dengan optimasi mesin pencari
Hanya dua komponen Deepbot dan Freshbot serta prosedur khusus mereka yang memungkinkan penyertaan dokumen web dalam indeks pencarian Google. Dengan begitu, situs web dan subhalamannya tersedia bagi pengguna Google dan semua konten diperbarui sesegera mungkin. Data yang berbeda dari bidang subjek berikut digunakan untuk perayapan dan pengindeksan:
- pencarian informasi,
- penambangan data,
- pengikisan web,
- serta representasi pengetahuan dalam sistem informasi.
Namun, dapat diasumsikan bahwa Google merahasiakan prosedur, metode, dan infrastruktur ini. Cara Google menganalisis dan mengevaluasi situs web adalah bagian penting dari model bisnis raksasa mesin pencari ini dan terus berkembang sesuai dengan penelitian terbaru. Sementara itu, teknologi sekarang sudah maju hingga para ahli berbicara tentang pengindeksan instan.
Namun, prosedur ini juga memerlukan bandwidth tertentu dari koneksi Internet karena komunikasi HTTP diperlukan. Banyak akses oleh bot dapat meningkatkan pemanfaatan server dan sumber daya untuk pengguna nyata terkadang tidak memadai selama periode ini. Oleh karena itu, disarankan untuk membatasi frekuensi perayapan dalam beberapa kasus. Jumlah kueri per detik dapat dibatasi oleh webmaster, sehingga perayapan tidak memakan terlalu banyak sumber daya.
Selain itu, webmaster dan analis dapat menerima data yang salah di Google Analytics jika pengaturan yang baik untuk perayapan dan pengindeksan belum dilakukan. Pengecualian bot tertentu dari tampilan data disarankan untuk membedakan kunjungan pengguna sebenarnya dari kunjungan yang dilakukan oleh bot, misalnya. Secara umum, mesin pencari dapat diberi tahu dengan berbagai cara situs web dan konten mana yang harus dirayapi dan diindeks dan mana yang tidak.
Sumber Bacaan
https://developers.google.com/search/ docs/advanced/crawling/googlebot
https://developers.google.com/search/ blog/2014/05/understanding-web-pages-better
https://googleblog.blogspot.com/ 2010/06/our-new-search-index-caffeine.html
https://support.google.com/ webmasters/answer/48620?hl=id
https://developers.google.com/ search/docs/advanced/crawling/verifying-googlebot?visit_id

