Bisakah mesin pencari mendeteksi konten AI?

Diterbitkan: 2023-08-04

Ledakan alat AI dalam satu tahun terakhir telah secara dramatis memengaruhi pemasar digital, terutama di bidang SEO.

Mengingat pembuatan konten memakan waktu dan sifat mahal, pemasar telah beralih ke AI untuk mendapatkan bantuan, menghasilkan hasil yang beragam

Terlepas dari masalah etika, satu pertanyaan yang berulang kali muncul adalah, "Bisakah mesin telusur mendeteksi konten AI saya?"

Pertanyaan tersebut dianggap sangat penting karena jika jawabannya adalah "tidak", itu akan membatalkan banyak pertanyaan lain tentang apakah dan bagaimana AI harus digunakan.

Sejarah panjang konten buatan mesin

Meskipun frekuensi pembuatan konten yang dibuat oleh mesin atau yang dibantu belum pernah terjadi sebelumnya, ini tidak sepenuhnya baru dan tidak selalu negatif.

Melanggar cerita terlebih dahulu sangat penting untuk situs web berita, dan mereka telah lama menggunakan data dari berbagai sumber, seperti pasar saham dan seismometer, untuk mempercepat pembuatan konten.

Misalnya, menerbitkan artikel robot yang mengatakan:

“Gempa [magnitudo] terdeteksi di [lokasi, kota] pada [waktu]/[tanggal] pagi ini, gempa bumi pertama sejak [tanggal kejadian terakhir]. Berita lainnya menyusul.”

Pembaruan seperti ini juga bermanfaat bagi pembaca akhir yang perlu mendapatkan informasi ini secepat mungkin.

Di ujung lain spektrum, kami telah melihat banyak implementasi "blackhat" dari konten yang dihasilkan mesin.

Google telah mengutuk penggunaan rantai Markov untuk menghasilkan teks ke pemintalan konten yang mudah dilakukan selama bertahun-tahun, di bawah panji "halaman yang dibuat secara otomatis yang tidak memberikan nilai tambah".

Apa yang sangat menarik, dan sebagian besar merupakan titik kebingungan atau area abu-abu bagi sebagian orang, adalah arti dari "tidak ada nilai tambah".

Bagaimana LLM dapat menambah nilai?

Popularitas konten AI melonjak karena perhatian yang dikumpulkan oleh model bahasa besar (LLM) GPTx dan chatbot AI yang disempurnakan, ChatGPT, yang meningkatkan interaksi percakapan.

Tanpa mempelajari detail teknis, ada beberapa poin penting yang perlu dipertimbangkan tentang alat ini:

Teks yang dihasilkan didasarkan pada distribusi probabilitas

Misalnya, jika Anda menulis, “Menjadi seorang SEO itu menyenangkan karena…,” LLM melihat semua token dan mencoba menghitung kata yang paling mungkin berikutnya berdasarkan set pelatihannya. Singkatnya, Anda dapat menganggapnya sebagai versi yang sangat canggih dari teks prediktif ponsel Anda.

ChatGPT adalah jenis kecerdasan buatan generatif

Ini berarti bahwa output tidak dapat diprediksi. Ada elemen acak, dan mungkin merespons permintaan yang sama secara berbeda.

Saat Anda menghargai kedua poin ini, menjadi jelas bahwa alat seperti ChatGPT tidak memiliki pengetahuan tradisional atau "tahu" apa pun. Kekurangan ini adalah dasar dari semua kesalahan, atau “halusinasi” sebagaimana mereka disebut.

Banyak keluaran yang terdokumentasi menunjukkan bagaimana pendekatan ini dapat menghasilkan hasil yang salah dan menyebabkan ChatGPT berkontradiksi berulang kali.

Contoh dari /r/ChatGPT — *Contoh dari* */r/ChatGPT*

Hal ini menimbulkan keraguan serius tentang konsistensi "nilai tambah" dengan teks yang ditulis AI, mengingat kemungkinan seringnya halusinasi.

Akar penyebabnya terletak pada bagaimana LLM menghasilkan teks, yang tidak akan mudah diselesaikan tanpa pendekatan baru.

Ini adalah pertimbangan penting, terutama untuk topik Uang Anda, Hidup Anda (YMYL), yang secara material dapat merugikan keuangan atau kehidupan orang jika tidak akurat.

Publikasi besar seperti Kesehatan Pria dan CNET kedapatan menerbitkan informasi yang dihasilkan AI yang salah secara faktual tahun ini, menyoroti kekhawatiran tersebut.

Penerbit tidak sendirian dengan masalah ini, karena Google mengalami kesulitan dalam mengekang konten Search Generative Experience (SGE) dengan konten YMYL.

Meskipun Google menyatakan akan berhati-hati dengan jawaban yang dihasilkan dan secara khusus memberikan contoh "tidak akan menunjukkan jawaban atas pertanyaan tentang memberi anak Tylenol karena ada di ruang medis," SGE akan terbukti melakukannya ini dengan hanya mengajukan pertanyaan.

Dapatkan buletin pencarian harian yang diandalkan pemasar.

Lihat persyaratan.

SGE dan MUM Google

Jelas Google yakin ada tempat untuk konten buatan mesin untuk menjawab pertanyaan pengguna. Google telah mengisyaratkan hal ini sejak Mei 2021, ketika mereka mengumumkan MUM, Model Terpadu Multitask mereka.

Salah satu tantangan yang ingin dihadapi MUM didasarkan pada data bahwa rata-rata orang mengeluarkan delapan kueri untuk tugas-tugas kompleks.

Dalam kueri awal, penelusur akan mempelajari beberapa informasi tambahan, mendorong penelusuran terkait, dan memunculkan laman web baru untuk menjawab kueri tersebut.

Google mengusulkan: Bagaimana jika mereka dapat mengambil kueri awal, mengantisipasi pertanyaan tindak lanjut pengguna, dan menghasilkan jawaban lengkap menggunakan pengetahuan indeks mereka?

Jika berhasil, meskipun pendekatan ini mungkin luar biasa bagi pengguna, ini pada dasarnya menghapus banyak strategi kata kunci "ekor panjang" atau volume nol yang diandalkan oleh SEO untuk mendapatkan pijakan dalam SERP.

Dengan asumsi Google dapat mengidentifikasi kueri yang cocok untuk jawaban yang dihasilkan AI, banyak pertanyaan dapat dianggap "terselesaikan".

Hal ini menimbulkan pertanyaan…

Mengapa Google menunjukkan kepada pencari halaman web Anda dengan jawaban yang dibuat sebelumnya ketika mereka dapat mempertahankan pengguna dalam ekosistem pencarian mereka dan menghasilkan jawabannya sendiri?

Google memiliki insentif finansial untuk mempertahankan pengguna dalam ekosistemnya. Kami telah melihat berbagai pendekatan untuk mencapai hal ini, mulai dari cuplikan unggulan hingga membiarkan orang menelusuri penerbangan di SERP.

Misalkan Google menganggap teks yang Anda hasilkan tidak menawarkan nilai melebihi apa yang sudah dapat diberikannya. Dalam hal ini, itu hanya menjadi masalah biaya vs manfaat untuk mesin pencari.

Bisakah mereka menghasilkan lebih banyak pendapatan dalam jangka panjang dengan menyerap biaya pembuatan dan membuat pengguna menunggu jawaban dibandingkan mengirim pengguna dengan cepat dan murah ke halaman yang mereka tahu sudah ada?

Mendeteksi konten AI

Seiring dengan ledakan penggunaan ChatGPT, muncul lusinan "detektor konten AI" yang memungkinkan Anda untuk memasukkan konten teks dan akan menampilkan skor persentase – di situlah letak masalahnya.

Meskipun ada beberapa perbedaan dalam bagaimana berbagai pendeteksi memberi label skor persentase ini, mereka hampir selalu memberikan keluaran yang sama: kepastian persentase bahwa seluruh teks yang disediakan dihasilkan oleh AI.

Hal ini menimbulkan kebingungan ketika persentase diberi label, misalnya, “75% AI / 25% Manusia”.

Banyak orang akan salah paham bahwa ini berarti "teks ditulis 75% oleh AI dan 25% oleh manusia", padahal itu berarti, "Saya 75% yakin bahwa AI menulis 100% teks ini".

Kesalahpahaman ini telah menyebabkan beberapa orang menawarkan saran tentang cara menyesuaikan input teks agar "melewati" detektor AI.

Misalnya, menggunakan tanda seru ganda (!!) adalah karakteristik yang sangat manusiawi, jadi menambahkan ini ke beberapa teks yang dihasilkan AI akan menghasilkan pendeteksi AI yang memberikan skor "99%+ manusia".

Ini kemudian disalahartikan bahwa Anda telah "menipu" detektor.

Tapi itu adalah contoh detektor yang bekerja dengan sempurna karena jalur yang disediakan tidak lagi 100% dihasilkan oleh AI.

Sayangnya, kesimpulan yang menyesatkan tentang kemampuan untuk "menipu" pendeteksi AI ini juga biasanya digabungkan dengan mesin pencari seperti Google yang tidak mendeteksi konten AI yang memberikan rasa aman palsu kepada pemilik situs web.

Kebijakan dan tindakan Google pada konten AI

Pernyataan Google seputar konten AI secara historis cukup kabur untuk memberi mereka ruang gerak terkait penegakan.

Namun, pedoman yang diperbarui diterbitkan tahun ini di Google Search Central yang mengatakan secara eksplisit:

“Fokus kami adalah pada kualitas konten, bukan bagaimana konten diproduksi.”

Bahkan sebelum ini, Google Search Liaison Danny Sullivan ikut serta dalam konservasi Twitter untuk menegaskan bahwa mereka "belum mengatakan bahwa konten AI itu buruk".

Google mencantumkan contoh spesifik tentang bagaimana AI dapat menghasilkan konten yang bermanfaat, seperti skor olahraga, prakiraan cuaca, dan transkrip.

Jelas bahwa Google jauh lebih mementingkan hasil daripada cara mencapainya, menggandakan "untuk menghasilkan konten dengan tujuan utama memanipulasi peringkat dalam hasil pencarian adalah pelanggaran terhadap kebijakan spam kami."

Memerangi manipulasi SERP adalah sesuatu yang telah dialami Google selama bertahun-tahun, mengklaim bahwa kemajuan pada sistem mereka, seperti SpamBrain telah membuat 99% pencarian "bebas spam", yang akan mencakup spam UGC, scraping, cloaking, dan berbagai bentuk konten. generasi.

Banyak orang telah menjalankan tes untuk melihat bagaimana Google bereaksi terhadap konten AI dan di mana mereka membatasi kualitas.

Sebelum peluncuran ChatGPT, saya membuat situs web berisi 10.000 halaman konten yang sebagian besar dihasilkan oleh model GPT3 tanpa pengawasan, menjawab Orang juga bertanya tentang video game.

Dengan tautan minimal, situs tersebut dengan cepat diindeks dan terus berkembang, menghasilkan ribuan pengunjung setiap bulan.

Selama dua pembaruan sistem Google pada tahun 2022, Pembaruan Konten Bermanfaat dan kemudian pembaruan Spam, Google tiba-tiba dan hampir sepenuhnya menutup situs tersebut.

*Data Google Search Console dari situs uji AI*

Salah jika menyimpulkan bahwa "konten AI tidak berfungsi" dari eksperimen semacam itu.

Namun, hal ini menunjukkan kepada saya bahwa pada saat itu, Google:

Tidak mengklasifikasikan konten GPT-3 tanpa pengawasan sebagai "kualitas".
Bisa mendeteksi dan menghapus hasil tersebut dengan rakit sinyal lainnya.

Untuk mendapatkan jawaban akhir, Anda memerlukan pertanyaan yang lebih baik

Berdasarkan pedoman Google, apa yang kita ketahui tentang sistem pencarian, eksperimen SEO, dan akal sehat, "Bisakah mesin pencari mendeteksi konten AI?" kemungkinan adalah pertanyaan yang salah.

Paling-paling, ini adalah pandangan jangka pendek untuk diambil.

Di sebagian besar topik, LLM berjuang untuk secara konsisten menghasilkan konten "berkualitas tinggi" dalam hal akurasi faktual dan memenuhi kriteria EEAT Google, meskipun memiliki akses web langsung untuk informasi di luar data pelatihan mereka.

AI membuat langkah signifikan dalam menghasilkan jawaban untuk kueri yang sebelumnya langka konten. Namun karena Google bertujuan untuk tujuan jangka panjang yang lebih tinggi dengan SGE, tren ini mungkin akan memudar.

Fokusnya diharapkan untuk kembali ke konten ahli yang lebih panjang, dengan sistem Pengetahuan Google memberikan jawaban untuk memenuhi banyak permintaan longtail alih-alih mengarahkan pengguna ke banyak situs kecil.

Pendapat yang diungkapkan dalam artikel ini adalah dari penulis tamu dan belum tentu Search Engine Land. Penulis staf tercantum di sini.

Tambahkan Search Engine Land ke feed Google News Anda.