Panduan SEO komprehensif dengan wawasan dan keahlian mendalam.

Cara Memperbaiki Diindeks Meski Diblokir oleh robots.txt

Terakhir diperbarui: Jan 05, 2023

Disclaimer: Panduan SEO cmlabs ini berisi informasi lengkap tentang SEO, seperti pengantar dan panduan umum. Anda mungkin saja mengunjungi laman SEO Terms di cmlabs.co melalui pihak ketiga atau tautan website asing. Kami tidak bertanggung jawab atas keakuratan atau keandalan informasi apa pun yang ditawarkan oleh situs web pihak ketiga.

Proses indexing halaman website dapat dipantau dari Google Search Console. Dalam prosesnya, mungkin saja ditemui isu halaman yang terindeks namun diblokir oleh file robots.txt. Pada panduan kali ini, kami akan membantu Anda memahami apa saja yang perlu dipahami terkait masalah tersebut.

Untuk menghindari masalah tersebut, Anda dapat mempelajari cara memperbaiki “diindeks, meski diblokir oleh robots.txt”. Simak pembahasan selengkapnya di bawah ini.

Apa itu robots.txt?

Gambar 1: Ilustrasi robot penelusuran atau *web crawler*. Robots.txt digunakan oleh *web crawler* sebagai panduan dalam melakukan *crawling* di sebuah website.

Robots.txt adalah sebuah file berisi kumpulan instruksi yang digunakan oleh web crawler sebagai panduan dalam proses crawling sebuah website. Anda dapat membuat robots.txt untuk memberitahu web crawler mengenai halaman yang boleh ataupun tidak boleh dikunjungi.

File ini bisa digunakan apabila website Anda memiliki beberapa halaman yang dibuat hanya untuk pengguna sehingga Anda tidak ingin web crawler menemukan dan menampilkannya di SERP. Contohnya seperti halaman checkout, atau yang perlu memerlukan akses pembayaran dan hanya bisa diakses setelah log in.

Kenali Isu “indexed, though blocked by robots.txt”

Seperti yang telah Anda ketahui, robots.txt mampu memblokir akses web crawler ke beberapa halaman yang telah Anda tentukan agar tidak ditampilkan di hasil pencarian.

Meskipun begitu, ada saatnya di mana web crawler tidak mengikuti instruksi yang ada di robots.txt sehingga ia tetap melakukan crawling dan indexing ke halaman tersebut.

Anda bisa mengetahui isu tersebut melalui Google Search Console. Peringatan error akan muncul di GSC dengan tulisan “indexed, though blocked by robots.txt” atau “diindeks, meskipun diblokir oleh robots.txt”.

indexed though blocked by robots.txt — Gambar 2: Tampilan peringatan “indexed, though blocked by robots.txt” di Google Search Console.

Jika peringatan error ini muncul, artinya Google telah mengindeks sebuah URL yang diblok di robots.txt. Google menampilkan peringatan pada URL tersebut apabila mereka tidak yakin apakah Anda ingin halaman tersebut diindeks atau tidak.

Hal ini bisa menjadi masalah, terutama jika halaman tersebut menampilkan informasi atau data yang bersifat privasi. Oleh karena itu, ketahui bagaimana cara memperbaiki “diindeks, meski diblokir oleh robots.txt”.

Kegunaan robots.txt dalam Website

Cara search engine bekerja adalah dengan menggunakan sebuah robot penelusuran atau web crawler. Robot ini akan menelusuri setiap website yang ada di internet, menyimpannya ke database atau index mereka, dan menampilkannya ke para pencari.

Peran robots.txt sangatlah penting untuk mengatur proses penelusuran web crawler di website. File ini berguna sebagai panduan di mana web crawler akan mengunjunginya terlebih dahulu sebelum merayapi seluruh halaman lainnya di website.

Dengan adanya robots.txt, Anda bisa memberikan berbagai instruksi seperti atribut ‘nofollow’ untuk memblokir akses robot ke suatu URL dan ‘dofollow’ untuk mempersilahkan robot melakukan perayapan di URL tersebut.

Jika ingin membuat file robots.txt, Anda cukup menggunakan robots.txt generator tools dari cmlabs. Dengan tools ini, Anda bisa membuat file robots.txt dengan mudah dan cepat.

Perhatikan Indexing Halaman

Untuk lebih memahami cara memperbaiki “diindeks, meski diblokir oleh robots.txt”, mari pahami dulu proses indexing sebuah halaman. Indeks sendiri merupakan database atau tempat penyimpanan data milik search engine mengenai seluruh situs web yang ditemukan oleh robot penelusuran.

Website yang ada di indeks search engine telah melalui proses indexing, yaitu proses penyimpanan isi konten halaman website. Tidak hanya URL website saja yang disimpan, tapi juga seluruh konten tekstual, gambar, video, tag, dan atribut yang ada di dalam kode HTML halaman tersebut.

Proses indexing juga menganalisis isi dari konten yang disimpan seperti bahasa yang digunakan, negara asal, peran halaman, dan sebagainya. Web crawler juga akan menganalisis apakah suatu halaman merupakan duplikat dari halaman lainnya atau tidak.

Search engine dapat memutuskan apakah suatu halaman akan diindeks atau tidak. Ada beberapa alasan mengapa search engine memutuskan untuk tidak mengindeks suatu halaman, yaitu:

Adanya meta tag yang memblokir akses web crawler seperti atribut ‘nofollow’.
Konten memiliki kualitas yang rendah atau merupakan duplikasi dari konten lain.
Website memiliki struktur navigasi yang rumit sehingga menyulitkan robot dalam melakukan indexing.

Apabila URL Tidak Perlu Terindeks

Setelah mengetahui kegunaan robots.txt dan cara kerja proses indexing, kini saatnya Anda mempelajari cara memperbaiki “diindeks, meski diblokir oleh robots.txt” di GSC.

Hal yang harus Anda lakukan sebelum mengetahui cara memperbaiki “diindeks, meski diblokir oleh robots.txt” adalah dengan memastikan apakah halaman website yang error tersebut memang perlu diindeks atau tidak.

Hal ini karena tindakan yang akan Anda ambil pada kedua kondisi tersebut akan berbeda. Apabila Anda tidak menginginkan URL tersebut terindeks oleh Google, maka berikut ini beberapa tindakan yang bisa dilakukan:

Periksa File robots.txt

Cara paling mudah untuk mencegah suatu halaman di-crawl adalah dengan memeriksa file robots.txt website Anda. Pastikan bahwa halaman yang ingin Anda blokir memiliki disallow statement.

Walaupun hal ini terlihat sepele, namun sering kali para pengelola website terlupa untuk mengatur statement pada halaman yang ingin diblokir.

Gunakan Noindex Directive

Perlu Anda ketahui bahwa crawling dan indexing merupakan dua proses yang berbeda. Crawling merujuk pada proses penelusuran yang dilakukan web crawler untuk menemukan setiap halaman yang ada di website. Sedangkan indexing dilakukan untuk menganalisis dan menyimpan sebuah halaman.

Jika suatu halaman tetap mendapatkan peringatan “indexed, though blocked by robots.txt”, Anda bisa menggunakan ‘noindex’ meta tag. Dengan adanya meta tag ini, search engine tidak akan mengindeks halaman meskipun halaman tersebut telah di-crawling.

Halaman Terhubung dengan Website Lain

Gambar 4: Ilustrasi rantai atau *link* yang menghubungkan website lain dengan halaman Anda. Apabila ada website lain yang memberikan *backlink* ke halaman Anda, maka *web crawler* masih bisa melakukan *crawling* di halaman tersebut.

Suatu halaman bisa saja di-crawling walaupun sudah diblokir oleh robots.txt. Alasannya karena adanya website lain yang memberikan link. Caranya adalah dengan mengecek terlebih dahulu backlink yang mengarah ke halaman yang tidak ingin dindeks dan menghapusnya.

Apabila URL Perlu Terindeks

Jika suatu halaman mendapatkan peringatan “indexed, though blocked by robots.txt” dan halaman tersebut memang Anda niatkan untuk diindeks, maka Anda harus melakukan pemeriksaan terkait pengaturan crawling di halaman tersebut.

Hal ini karena halaman yang Anda niatkan untuk tampil di SERP justru tidak di-crawl oleh Google, walaupun sudah terindeks. Anda bisa memeriksa pengaturan crawling dengan cara berikut ini:

Periksa Crawl Block di robots.txt

Pertama, periksa pengaturan yang ada di file robots.txt, apakah halaman yang ingin Anda Index justru diblokir aksesnya di robots.txt. Anda bisa mengakses file robots.txt dengan mengetikkan namadomain.com/robots.txt.

Setelahnya, Anda bisa mencari apakah halaman yang ingin Anda indeks memiliki disallow statement. Bentuk dari disallow statement berbentuk seperti ini:

Disallow: /

cmlabs

Apabila disallow dikhususkan untuk user agent tertentu, maka bentuknya seperti ini:

User-agent: *
Disallow: /

cmlabs

Halaman yang memiliki disallow statement tidak akan di-crawl oleh robot sehingga Anda harus mengubah statement pada halaman tersebut menjadi ‘allow’.

Periksa User Agent Block

Website bisa saja memblokir akses sebuah user agent seperti Googlebot atau Ahrefsbot sehingga mereka tidak dapat melakukan crawling. Ketika hal ini terjadi, Anda mungkin masih bisa menemukan website di search engine lain.

Tetapi, website Anda tidak akan ditemukan ketika menggunakan Google atau Ahrefs karena akses kedua user-agent tersebut diblokir. Permasalahan ini bisa terjadi karena adanya blokir pada beberapa sistem di website seperti .htaccess, CDN, firewall, server configuration, dan lain-lain.

Cara terbaik yang bisa Anda lakukan untuk menyelesaikan permasalahan tersebut adalah dengan menghubungi pihak penyedia hosting atau CDN untuk mencari tahu dari mana blocking berasal dan bagaimana Anda bisa mengatasinya.

Periksa Intermittent Block

Intermittent block adalah kondisi dimana penyebab suatu halaman tidak dapat di-crawl sulit dipastikan. Untuk mengatasi hal ini, Anda perlu memeriksa history dari robots.txt website Anda.

Gunakan tools seperti GSC robots.txt Tester untuk melihat versi file sebelumnya dan memeriksa apakah terdapat instruksi yang tidak tepat pada versi tersebut. Solusi penyelesaian pada isu ini bisa beragam dan tergantung pada penyebabnya.

Salah satu penyebab yang sering terjadi adalah karena penggunaan cache. Ketika cache mode pengujian aktif, robots.txt memblokir akses halaman. Namun, saat cache mode live yang aktif, halaman dapat di-crawl.

Untuk menyelesaikan hal tersebut, Anda dapat menghilangkan file robots.txt dari cache pada mode pengujian.

Periksa IP Block

Apabila ketiga hal diatas sudah Anda periksa dan tidak ada masalah yang ditemukan, maka penyebabnya bisa jadi karena adanya pemblokiran pada IP address.

Solusi untuk menyelesaikan permasalah tersebut adalah dengan menghubungi pihak penyedia hosting atau CDN. Pasalnya, kondisi IP block sangatlah sulit untuk dilacak sehingga Anda perlu bantuan untuk menemukan sumber pemblokiran dan cara menyelesaikannya.

Demikian penjelasan mengenai cara memperbaiki “diindeks, meski diblokir oleh robots.txt”. Semoga dengan panduan ini, Anda dapat menyelesaikan permasalahan crawling yang ada pada halaman website.

Apabila Anda membutuhkan penanganan lebih lanjut, Anda bisa menggunakan Jasa SEO yang menyediakan tim profesional untuk membantu proses optimasi SEO, termasuk crawlability website.

cmlabs

Bagaimana pendapat Anda? Apakah Anda menyukai artikel ini?

Cara Memperbaiki Diindeks Meski Diblokir oleh robots.txt

Apa itu robots.txt?

Kenali Isu “indexed, though blocked by robots.txt”

Kegunaan robots.txt dalam Website

Perhatikan Indexing Halaman

Apabila URL Tidak Perlu Terindeks

Periksa File robots.txt

Gunakan Noindex Directive

Halaman Terhubung dengan Website Lain

Apabila URL Perlu Terindeks

Periksa Crawl Block di robots.txt

Periksa User Agent Block

Periksa Intermittent Block

Periksa IP Block

cmlabs

Berlangganan Newsletter kami

Masukkan alamat email anda untuk menerima notifikasi Newsletter kami

Berlangganan Newsletter kami

Masukkan alamat email anda untuk menerima notifikasi Newsletter kami

Butuh bantuan?