Cara menghapus data klien sensitif dari indeks Google

Diterbitkan: 2023-08-07

Peringkat kata kunci yang lebih baik. Lebih banyak lalu lintas. Konversi tambahan dari pencarian organik. Ini adalah KPI yang digunakan untuk mengukur kinerja SEO.

Namun di luar metrik pertumbuhan, ada elemen kunci yang diabaikan oleh beberapa konsultan atau agensi saat mengelola kampanye SEO klien:

Mencegah konten klien rahasia muncul di hasil penelusuran Google.

Jika diabaikan, hal ini dapat mengakibatkan pelanggaran kepercayaan atau litigasi mahal yang pada akhirnya dapat mengakhiri hubungan klien.

Semua ini tidak perlu terjadi jika Anda mengetahui betapa mudahnya data klien dapat masuk ke indeks Google dan cara menghindarinya.

Temukan masalah pengindeksan pencarian kritis yang dilewatkan oleh banyak SEO, pemaparan data klien yang tidak disengaja di Google, dan cara untuk mendeindeks konten semacam itu.

Bagaimana saya menemukan data sensitif

Saya seorang konsultan SEO independen penuh waktu yang telah bermitra dengan berbagai perusahaan menengah sejak 2018, telah meningkatkan hasil pencarian organik selama lebih dari 10 tahun.

Saat melakukan audit SEO teknis, saya menggunakan operator pencarian situs (memasuki situs: domain.com) di Google untuk memeriksa hasilnya. Di sini, saya dapat dengan cepat melihat bagaimana nama situs, judul, URL, dan cuplikan terlihat di berbagai kategori halaman.

Saya juga memperhatikan pola dari apa yang diindeks, mungkin menambahkan kata kunci ke operator agar lebih spesifik bila diperlukan.

Untuk sebagian besar klien, terkadang saya akan melihat situs dev/testing/staging diindeks, konten tipis yang menipiskan ekuitas tautan atau merusak kemanjuran perayapan (atau mengarah ke kanibalisasi kata kunci) dan halaman arahan berbayar yang tidak dimaksudkan untuk menentukan peringkat.

Saya sudah mulai mendeteksi, dengan frekuensi yang mengkhawatirkan, sesuatu yang unik untuk klien SaaS:

Halaman biasanya di bawah subdomain yang tidak pernah terpikirkan oleh siapa pun – baik dalam tim pemasaran atau produk – diindeks.

Yang paling tidak berbahaya adalah subdomain pelanggan yang menyesuaikan pengalaman login mereka (misalnya, client.example.com ).

Bahkan di sini, klien mungkin tidak ingin namanya muncul di hasil pencarian. Tergantung pada produk Anda, hal ini dapat mengungkapkan pembeda atau kerentanan terhadap pesaing.

Dalam kasus yang jauh lebih serius, formulir berbasis web dengan data yang dikumpulkan (dari orang tertentu) dapat ditemukan.

Dalam kasus terburuk (dan dengan kueri penelusuran yang tepat), bahkan bidang formulir dapat diakses dan diubah karena kurangnya perlindungan kata sandi.

Meskipun tidak terkait dengan pertumbuhan melalui pencarian organik, saya dengan cepat menunjukkannya. Tampak jelas bagi saya bahwa banyak yang bisa dipertaruhkan di sini.

Setidaknya dalam beberapa kasus, ini menjadi masalah "serba guna" karena saya diminta untuk mengeluarkan data ini dari hasil pencarian lebih cepat dari ASAP.

Seorang CEO menyebutkan bahwa konsultan keamanannya tidak pernah menyebutkan kemungkinan ini. Ini dengan cepat ditemukan melalui langkah dasar yang akan dilakukan sebagian besar SEO dalam audit.

Agar adil, hampir selalu membutuhkan pencarian yang tidak biasa untuk menemukan halaman semacam ini.

Namun pertimbangkan pencarian aneh yang akan dilakukan klien, bahkan mungkin tim kepemimpinan Anda, - belum lagi saingan. (Jangan pernah melupakan statistik abadi bahwa 15% kueri penelusuran di Google adalah unik!)

Meski bukan masalah hukum, data sensitif di hasil pencarian yang ditemukan klien lebih dulu masih bisa membahayakan hubungan Anda.


Dapatkan buletin pencarian harian yang diandalkan pemasar.

Memproses ... tunggu sebentar.

Lihat persyaratan.


Mengapa data ini ada di Google?

Hanya satu tautan yang tidak mencolok ke halaman dari sumber daya apa pun yang diakses oleh mesin telusur, di mana pun di web, yang diperlukan:

  • Apakah halaman tercantum dalam peta situs XML Anda, meskipun tidak ditautkan di situs Anda?
  • Mungkinkah ada referensi di situs Anda di masa lalu atau sesuatu yang luput dari perhatian di JavaScript?
  • Lebih sering daripada tidak, klien menautkan ke halaman – tetapi itu hanya dimaksudkan untuk dilihat oleh orang-orang tertentu, seperti peserta survei, bukan masyarakat umum.

Syukurlah, kesadaran lebih dari setengah pertempuran di sini. Setelah Anda mengetahui halaman yang akan dihapus dari pencarian, Anda dapat dengan cepat memulai proses koreksi, dimulai dengan Google.

Cara cepat mendeindex konten di Google

Temukan pola untuk URL dengan data sensitif yang ditampilkan di hasil penelusuran Google

Misalnya, biasanya memiliki subdomain berjudul data.example.com yang menampung versi berbasis web dari produk SaaS Anda. Anda dapat menggunakan operator pencarian situs untuk memindai halaman hasil.

Gunakan laporan Pengindeksan Halaman di Google Search Console (GSC) untuk melihat semua URL yang diindeks

Ini mungkin tidak menunjukkan semuanya. Menghubungi tim produk Anda tentang hal ini dapat membantu, karena mereka mungkin dapat menyediakan semua yang Anda butuhkan dengan lebih cepat dan akurat.

Laporan pengindeksan halaman

Periksa ulang URL Anda

Konfirmasikan dengan menggunakan alat Inspeksi URL untuk setiap URL, jika memungkinkan atau setidaknya contoh, di GSC seandainya tautan yang Anda temukan tidak lagi berada di lokasi tersebut.

Laporan pengindeksan halaman

Untuk menemukan halaman yang menyinggung, pertimbangkan semua versi URL yang mungkin dikanonikan sesuai dengan apa yang Anda lihat di hasil penelusuran.

Dengan URL kanonis dihapus, versi alternatif dapat diindeks.

Terapkan pola (tombol radio kedua di bawah Permintaan Baru ), kemungkinan subdomain, atau cantumkan setiap URL dengan membuat permintaan baru di alat Penghapusan GSC.

penghapusan GSC

Untuk kumpulan laman terbatas, menggunakan alat Inspeksi URL setelah langkah ini diterapkan dapat mempercepat penghapusan dan juga mengonfirmasi status terbaru. Ini harus dilakukan satu per satu. (Meskipun bukan raksasa Google, setidaknya hari ini, Anda juga harus melakukan ini di alat URL Blokir Microsoft Bing.)

GSC - Penghapusan sementara

Dengan melakukan langkah-langkah ini, penghapusan dari indeks Google hanya akan berlangsung selama enam bulan.

Ini tidak akan mencegah masalah selamanya atau terjadi di mesin telusur lain, jadi Anda harus melakukan langkah terakhir di bawah.

Cara menghapus konten dari Google secara permanen

Dua metode dapat bekerja di sini:

1. Gunakan tag robot meta noindex di bagian kepala halaman tersebut

Anda harus meminta pengembang web Anda menambahkan ini ke templat halaman untuk mereplikasinya di semua halaman.

  • Untuk PDF, gambar, dan konten non-HTML lainnya, Anda dapat menambahkan header HTTP X-Robots-Tag dengan nilai noindex/none. Ini juga berlaku untuk halaman HTML biasa tetapi tidak secepat penerapannya.

Catatan: Jangan gunakan aturan pelarangan robots.txt (kecuali untuk gambar), yang hanya berfungsi jika tidak ada masalah sejak awal. Larangan memblokir perayapan tetapi tidak mengindeks.

2. Gerbang konten

Melindungi halaman web atau file Anda dengan kata sandi akan memastikan bahwa hanya pengguna yang berwenang yang dapat mengaksesnya. Ini juga merupakan cara lain untuk memblokir konten Anda agar tidak muncul di Google.

Mencegah konten sensitif muncul di hasil pencarian

Setelah melakukan salah satu langkah ini, Anda dapat yakin bahwa laman dengan data klien yang sensitif akan dihapus dan tidak masuk kembali ke indeks Google, dengan laman dihapus dalam sehari, umumnya.

Dengan itikad baik, Anda harus memberi tahu klien Anda apa yang sebenarnya terjadi. Ingatlah bahwa tidak ada yang hilang sepenuhnya di web.


Pendapat yang diungkapkan dalam artikel ini adalah dari penulis tamu dan belum tentu Search Engine Land. Penulis staf tercantum di sini.