Kami menggunakan cookies

Situs ini menggunakan cookies dari cmlabs untuk memberikan dan meningkatkan kualitas layanannya serta menganalisis lalu lintas..

Dimana Anda dapat melihat hasil karya kami?
Tempat kecil membuat kombinasi, namun persilangan yang terjadi didalamnya tidak memberikan banyak kombinasi. Jadi, berhati-hatilah dalam membuat justifikasi, terutama SEO.

Cara Memperbaiki Diindeks Meski Diblokir oleh robots.txt

Terakhir diperbarui: Jan 05, 2023

Cara Memperbaiki Diindeks Meski Diblokir oleh robots.txt
Gambar sampul: Ilustrasi robots.txt yang merupakan file berisi instruksi crawling suatu website. Pelajari cara menggunakannya di panduan ini.

Disclaimer: Panduan SEO cmlabs ini berisi informasi lengkap tentang SEO, seperti pengantar dan panduan umum. Anda mungkin saja mengunjungi laman SEO Terms di cmlabs.co melalui pihak ketiga atau tautan website asing. Kami tidak bertanggung jawab atas keakuratan atau keandalan informasi apa pun yang ditawarkan oleh situs web pihak ketiga.

Proses indexing halaman website dapat dipantau dari Google Search Console. Dalam prosesnya, mungkin saja ditemui isu halaman yang terindeks namun diblokir oleh file robots.txt. Pada panduan kali ini, kami akan membantu Anda memahami apa saja yang perlu dipahami terkait masalah tersebut.

Untuk menghindari masalah tersebut, Anda dapat mempelajari cara memperbaiki “diindeks, meski diblokir oleh robots.txt”. Simak pembahasan selengkapnya di bawah ini.

Apa itu robots.txt?

robot penelusuran
Gambar 1: Ilustrasi robot penelusuran atau web crawler. Robots.txt digunakan oleh web crawler sebagai panduan dalam melakukan crawling di sebuah website.

Robots.txt adalah sebuah file berisi kumpulan instruksi yang digunakan oleh web crawler sebagai panduan dalam proses crawling sebuah website. Anda dapat membuat robots.txt untuk memberitahu web crawler mengenai halaman yang boleh ataupun tidak boleh dikunjungi.

File ini bisa digunakan apabila website Anda memiliki beberapa halaman yang dibuat hanya untuk pengguna sehingga Anda tidak ingin web crawler menemukan dan menampilkannya di SERP. Contohnya seperti halaman checkout, atau yang perlu memerlukan akses pembayaran dan hanya bisa diakses setelah log in.

Kenali Isu “indexed, though blocked by robots.txt”

Seperti yang telah Anda ketahui, robots.txt mampu memblokir akses web crawler ke beberapa halaman yang telah Anda tentukan agar tidak ditampilkan di hasil pencarian.

Meskipun begitu, ada saatnya di mana web crawler tidak mengikuti instruksi yang ada di robots.txt sehingga ia tetap melakukan crawling dan indexing ke halaman tersebut.

Anda bisa mengetahui isu tersebut melalui Google Search Console. Peringatan error akan muncul di GSC dengan tulisan “indexed, though blocked by robots.txt” atau “diindeks, meskipun diblokir oleh robots.txt”. 

indexed though blocked by robots.txt
Gambar 2: Tampilan peringatan “indexed, though blocked by robots.txt” di Google Search Console.

Jika peringatan error ini muncul, artinya Google telah mengindeks sebuah URL yang diblok di robots.txt. Google menampilkan peringatan pada URL tersebut apabila mereka tidak yakin apakah Anda ingin halaman tersebut diindeks atau tidak.

Hal ini bisa menjadi masalah, terutama jika halaman tersebut menampilkan informasi atau data yang bersifat privasi. Oleh karena itu, ketahui bagaimana cara memperbaiki “diindeks, meski diblokir oleh robots.txt”.

Kegunaan robots.txt dalam Website

Cara search engine bekerja adalah dengan menggunakan sebuah robot penelusuran atau web crawler. Robot ini akan menelusuri setiap website yang ada di internet, menyimpannya ke database atau index mereka, dan menampilkannya ke para pencari.

Peran robots.txt sangatlah penting untuk mengatur proses penelusuran web crawler di website. File ini berguna sebagai panduan di mana web crawler akan mengunjunginya terlebih dahulu sebelum merayapi seluruh halaman lainnya di website.

Dengan adanya robots.txt, Anda bisa memberikan berbagai instruksi seperti atribut ‘nofollow’ untuk memblokir akses robot ke suatu URL dan ‘dofollow’ untuk mempersilahkan robot melakukan perayapan di URL tersebut.

Jika ingin membuat file robots.txt, Anda cukup menggunakan robots.txt generator tools dari cmlabs. Dengan tools ini, Anda bisa membuat file robots.txt dengan mudah dan cepat.

Perhatikan Indexing Halaman

Untuk lebih memahami cara memperbaiki “diindeks, meski diblokir oleh robots.txt”, mari pahami dulu proses indexing sebuah halaman. Indeks sendiri merupakan database atau tempat penyimpanan data milik search engine mengenai seluruh situs web yang ditemukan oleh robot penelusuran.

Website yang ada di indeks search engine telah melalui proses indexing, yaitu proses penyimpanan isi konten halaman website. Tidak hanya URL website saja yang disimpan, tapi juga seluruh konten tekstual, gambar, video, tag, dan atribut yang ada di dalam kode HTML halaman tersebut.

Proses indexing juga menganalisis isi dari konten yang disimpan seperti bahasa yang digunakan, negara asal, peran halaman, dan sebagainya. Web crawler juga akan menganalisis apakah suatu halaman merupakan duplikat dari halaman lainnya atau tidak.

Search engine dapat memutuskan apakah suatu halaman akan diindeks atau tidak. Ada beberapa alasan mengapa search engine memutuskan untuk tidak mengindeks suatu halaman, yaitu:

  • Adanya meta tag yang memblokir akses web crawler seperti atribut ‘nofollow’.
  • Konten memiliki kualitas yang rendah atau merupakan duplikasi dari konten lain.
  • Website memiliki struktur navigasi yang rumit sehingga menyulitkan robot dalam melakukan indexing.

Apabila URL Tidak Perlu Terindeks

Setelah mengetahui kegunaan robots.txt dan cara kerja proses indexing, kini saatnya Anda mempelajari cara memperbaiki “diindeks, meski diblokir oleh robots.txt” di GSC.

Hal yang harus Anda lakukan sebelum mengetahui cara memperbaiki “diindeks, meski diblokir oleh robots.txt” adalah dengan memastikan apakah halaman website yang error tersebut memang perlu diindeks atau tidak.

Hal ini karena tindakan yang akan Anda ambil pada kedua kondisi tersebut akan berbeda. Apabila Anda tidak menginginkan URL tersebut terindeks oleh Google, maka berikut ini beberapa tindakan yang bisa dilakukan:

Periksa File robots.txt

robots.txt
Gambar 3: Screenshot tampilan file robots.txt pada website cmlabs. Salah satu cara memperbaiki “diindeks, meski diblokir oleh robots.txt” adalah dengan memeriksa file robots.txt.

Cara paling mudah untuk mencegah suatu halaman di-crawl adalah dengan memeriksa file robots.txt website Anda. Pastikan bahwa halaman yang ingin Anda blokir memiliki disallow statement.

Walaupun hal ini terlihat sepele, namun sering kali para pengelola website terlupa untuk mengatur statement pada halaman yang ingin diblokir.

Gunakan Noindex Directive

Perlu Anda ketahui bahwa crawling dan indexing merupakan dua proses yang berbeda. Crawling merujuk pada proses penelusuran yang dilakukan web crawler untuk menemukan setiap halaman yang ada di website. Sedangkan indexing dilakukan untuk menganalisis dan menyimpan sebuah halaman.

Jika suatu halaman tetap mendapatkan peringatan “indexed, though blocked by robots.txt”, Anda bisa menggunakan ‘noindex’ meta tag. Dengan adanya meta tag ini, search engine tidak akan mengindeks halaman meskipun halaman tersebut telah di-crawling.

Halaman Terhubung dengan Website Lain

Gambar 4: Ilustrasi rantai atau link yang menghubungkan website lain dengan halaman Anda. Apabila ada website lain yang memberikan backlink ke halaman Anda, maka web crawler masih bisa melakukan crawling di halaman tersebut.

Suatu halaman bisa saja di-crawling walaupun sudah diblokir oleh robots.txt. Alasannya karena adanya website lain yang memberikan link. Caranya adalah dengan mengecek terlebih dahulu backlink yang mengarah ke halaman yang tidak ingin dindeks dan menghapusnya.

Apabila URL Perlu Terindeks

Jika suatu halaman mendapatkan peringatan “indexed, though blocked by robots.txt” dan halaman tersebut memang Anda niatkan untuk diindeks, maka Anda harus melakukan pemeriksaan terkait pengaturan crawling di halaman tersebut.

Hal ini karena halaman yang Anda niatkan untuk tampil di SERP justru tidak di-crawl oleh Google, walaupun sudah terindeks. Anda bisa memeriksa pengaturan crawling dengan cara berikut ini:

Periksa Crawl Block di robots.txt

Pertama, periksa pengaturan yang ada di file robots.txt, apakah halaman yang ingin Anda Index justru diblokir aksesnya di robots.txt. Anda bisa mengakses file robots.txt dengan mengetikkan namadomain.com/robots.txt.

Setelahnya, Anda bisa mencari apakah halaman yang ingin Anda indeks memiliki disallow statement. Bentuk dari disallow statement berbentuk seperti ini:

Disallow: /

cmlabs

Apabila disallow dikhususkan untuk user agent tertentu, maka bentuknya seperti ini:

User-agent: *
Disallow: /

cmlabs

Halaman yang memiliki disallow statement tidak akan di-crawl oleh robot sehingga Anda harus mengubah statement pada halaman tersebut menjadi ‘allow’.

Periksa User Agent Block

Website bisa saja memblokir akses sebuah user agent seperti Googlebot atau Ahrefsbot sehingga mereka tidak dapat melakukan crawling. Ketika hal ini terjadi, Anda mungkin masih bisa menemukan website di search engine lain.

Tetapi, website Anda tidak akan ditemukan ketika menggunakan Google atau Ahrefs karena akses kedua user-agent tersebut diblokir. Permasalahan ini bisa terjadi karena adanya blokir pada beberapa sistem di website seperti .htaccess, CDN, firewallserver configuration, dan lain-lain.

Cara terbaik yang bisa Anda lakukan untuk menyelesaikan permasalahan tersebut adalah dengan menghubungi pihak penyedia hosting atau CDN untuk mencari tahu dari mana blocking berasal dan bagaimana Anda bisa mengatasinya.

Periksa Intermittent Block

Intermittent block adalah kondisi dimana penyebab suatu halaman tidak dapat di-crawl sulit dipastikan. Untuk mengatasi hal ini, Anda perlu memeriksa history dari robots.txt website Anda.

Gunakan tools seperti GSC robots.txt Tester untuk melihat versi file sebelumnya dan memeriksa apakah terdapat instruksi yang tidak tepat pada versi tersebut. Solusi penyelesaian pada isu ini bisa beragam dan tergantung pada penyebabnya.

Salah satu penyebab yang sering terjadi adalah karena penggunaan cache. Ketika cache mode pengujian aktif, robots.txt memblokir akses halaman. Namun, saat cache mode live yang aktif, halaman dapat di-crawl.

Untuk menyelesaikan hal tersebut, Anda dapat menghilangkan file robots.txt dari cache pada mode pengujian.

Periksa IP Block

Apabila ketiga hal diatas sudah Anda periksa dan tidak ada masalah yang ditemukan, maka penyebabnya bisa jadi karena adanya pemblokiran pada IP address.

Solusi untuk menyelesaikan permasalah tersebut adalah dengan menghubungi pihak penyedia hosting atau CDN. Pasalnya, kondisi IP block sangatlah sulit untuk dilacak sehingga Anda perlu bantuan untuk menemukan sumber pemblokiran dan cara menyelesaikannya.

Demikian penjelasan mengenai cara memperbaiki “diindeks, meski diblokir oleh robots.txt”. Semoga dengan panduan ini, Anda dapat menyelesaikan permasalahan crawling yang ada pada halaman website.

Apabila Anda membutuhkan penanganan lebih lanjut, Anda bisa menggunakan Jasa SEO yang menyediakan tim profesional untuk membantu proses optimasi SEO, termasuk crawlability website.

Mitra kami yang berharga
Aliansi strategis ini memungkinkan kami untuk menawarkan kepada klien-klien kami berbagai solusi inovatif SEO dan pelayanan yang luar biasa. Pelajari Lanjut
cmlabs

cmlabs

Bagaimana pendapat Anda? Apakah Anda menyukai artikel ini?

Butuh bantuan?

Ceritakan tentang kebutuhan SEO Anda, tim marketing kami akan membantu menemukan solusi terbaik.

Berikut daftar tim kami secara resmi dan diakui, hati-hati terhadap penipuan oknum tidak bertanggung jawab yang mengatasnamakan PT cmlabs Indonesia Digital (cmlabs). Baca lebih lanjut
Marketing Teams

Agita

Marketing

Tanya Saya
Marketing Teams

Irsa

Marketing

Tanya Saya
Marketing Teams

Thalia

Business Development Global

Tanya Saya
Marketing Teams

Robby

Business Development ID

Tanya Saya
Marketing Teams

Yuli

Marketing

Tanya Saya
Marketing Teams

Dwiyan

Business & Partnership

Tanya Saya
Marketing Teams

Rohman

Product & Dev

Tanya Saya
Marketing Teams

Said

Career & Internship

Tanya Saya

Mohon maaf, saat ini tool Mobile Friendly Test tidak dapat diakses karena sedang dalam tahap pemeliharaan sistem sampai pemberitahuan lebih lanjut.

Cek

Tetap up-to-date dengan tool baru kami, cmlabs Surge. Jelajahi tren & event populer!

Cek

Pendapat Anda Berharga! Beri masukan untuk Survei Plagiarism Checker kami?

Cek

Temukan tren bisnis Anda dengan mudah! Kalkulator proyeksi trafik adalah alat yang sempurna untuk membantu Anda memahami permintaan di sektor bisnis Anda. Pilih sektor Anda dan lihat proyeksi trafiknya sekarang!

Cek

Saat ini tidak ada notifikasi...