Perayap, mesin telusur, dan kebatilan perusahaan AI generatif

Diterbitkan: 2023-07-13

Boom produk AI generatif selama beberapa bulan terakhir telah mendorong banyak situs web untuk mengambil tindakan pencegahan.

Kekhawatiran mendasarnya seperti ini:

Produk AI bergantung pada konsumsi konten dalam jumlah besar untuk melatih model bahasa mereka (yang disebut model bahasa besar, atau disingkat LLM), dan konten ini harus datang dari suatu tempat. Perusahaan AI melihat keterbukaan web memungkinkan perayapan skala besar untuk mendapatkan data pelatihan, tetapi beberapa operator situs web tidak setuju, termasuk Reddit, Stack Overflow, dan Twitter.

Jawaban atas pertanyaan menarik ini tidak diragukan lagi akan diajukan ke pengadilan di seluruh dunia.

Artikel ini akan membahas pertanyaan ini, dengan fokus pada aspek bisnis dan teknis. Namun sebelum kita menyelami, beberapa poin:

Meskipun topik ini menyentuh, dan saya sertakan dalam artikel ini, beberapa argumen hukum, saya bukan pengacara, saya bukan pengacara Anda, dan saya tidak memberi Anda nasihat apa pun. Bicaralah dengan kucing pengacara favorit Anda jika Anda memerlukan nasihat hukum.
Saya dulu bekerja di Google bertahun-tahun yang lalu, kebanyakan di pencarian web. Saya tidak berbicara atas nama Google dalam bentuk atau bentuk apa pun, bahkan ketika saya mengutip beberapa contoh Google di bawah ini.
Ini adalah topik yang bergerak cepat. Dijamin bahwa antara saat saya selesai menulis ini dan Anda membacanya, sesuatu yang besar akan terjadi di industri ini, dan dijamin saya akan melewatkan sesuatu!

'Kesepakatan' antara mesin pencari dan situs web

Kita mulai dengan cara kerja mesin pencari modern, seperti Google atau Bing. Dalam istilah yang terlalu disederhanakan, mesin pencari bekerja seperti ini:

Mesin pencari memiliki daftar URL. Setiap URL memiliki metadata (terkadang disebut “sinyal”) yang menunjukkan bahwa URL mungkin penting atau berguna untuk ditampilkan di halaman hasil mesin pencari.
Berdasarkan sinyal ini, mesin telusur memiliki perayap, bot, yang merupakan program yang mengambil URL ini dalam beberapa urutan "kepentingan" berdasarkan sinyal yang ditunjukkan. Untuk tujuan ini, perayap Google disebut Googlebot dan perayap Bing disebut Bingbot (dan keduanya memiliki lebih banyak lagi untuk tujuan lain, seperti iklan). Kedua bot mengidentifikasi diri mereka di header agen pengguna, dan keduanya dapat diverifikasi secara terprogram oleh situs web untuk memastikan bahwa konten disajikan ke bot mesin telusur yang sebenarnya dan bukan spoof.
Setelah konten diambil, itu diindeks. Indeks mesin pencari adalah basis data rumit yang berisi konten halaman beserta sejumlah besar metadata dan sinyal lain yang digunakan untuk mencocokkan dan memberi peringkat konten ke permintaan pengguna. Indeks adalah apa yang sebenarnya dicari saat Anda mengetik kueri di Google atau Bing.

Mesin pencari modern, setidaknya yang sopan dan baik, memberi operator situs web kendali penuh atas perayapan dan pengindeksan.

Protokol Pengecualian Robot adalah bagaimana kontrol ini diterapkan, melalui file robots.txt, dan meta tag atau header di halaman web itu sendiri. Mesin pencari ini secara sukarela mematuhi Protokol Pengecualian Robot, mengambil implementasi Protokol situs web sebagai arahan, perintah mutlak, bukan hanya petunjuk belaka.

Yang penting, posisi default Protokol adalah bahwa semua perayapan dan pengindeksan diizinkan – secara default permisif. Kecuali jika operator situs web secara aktif mengambil langkah-langkah untuk menerapkan pengecualian, situs web dianggap mengizinkan perayapan dan pengindeksan.

Ini memberi kita kerangka dasar kesepakatan antara mesin telusur dan situs web: Secara default, situs web akan dirayapi dan diindeks oleh mesin telusur, yang, pada gilirannya, mengarahkan pencari langsung ke situs web asli dalam hasil penelusuran mereka untuk kueri yang relevan .

Kesepakatan ini pada dasarnya adalah pertukaran ekonomi: biaya produksi, hosting, dan penyajian konten ditanggung oleh situs web, tetapi idenya adalah bahwa lalu lintas yang didapat sebagai imbalannya membayar kembali dengan keuntungan.

Catatan : Saya sengaja mengabaikan banyak argumen terkait di sini, tentang siapa yang memiliki kekuatan lebih dalam pertukaran ini, siapa yang menghasilkan lebih banyak uang, keadilan, dan banyak lagi. Saya tidak meremehkan ini – saya hanya tidak ingin mengalihkan perhatian dari topik inti artikel ini.

Pengindeksan untuk pendekatan lalu lintas ini muncul di tempat lain, misalnya saat mesin telusur diizinkan untuk mengindeks konten di balik paywall. Itu ide yang sama: situs web berbagi konten dengan imbalan ditampilkan dalam hasil pencarian yang mengarahkan pencari kembali ke situs web secara langsung.

Dan pada setiap langkah proses kesepakatan ini, jika penerbit ingin memblokir semua atau sebagian perayapan atau pengindeksan dengan cara apa pun, maka penerbit memiliki beberapa alat yang menggunakan Robot dan Protokol Pengecualian. Apa pun yang masih boleh dirayapi dan diindeks adalah karena situs web mendapat manfaat langsung dari ditampilkan di hasil pencarian.

Argumen ini dalam beberapa bentuk sebenarnya telah digunakan di pengadilan, yang kemudian dikenal sebagai "pertahanan robots.txt" dan pada dasarnya telah dipertahankan; lihat daftar singkat kasus pengadilan ini, banyak yang melibatkan Google, dan tulisan ini dari tahun 2007 yang tidak sepenuhnya menyenangkan.

LLM bukan mesin pencari

Sekarang sudah sangat jelas bahwa LLM adalah monster yang berbeda dari mesin pencari.

Respons model bahasa tidak langsung mengarah kembali ke situs web yang kontennya digunakan untuk melatih model. Tidak ada pertukaran ekonomi seperti yang kita lihat dengan mesin pencari, dan inilah mengapa banyak penerbit (dan penulis) kecewa.

Kurangnya kutipan sumber langsung adalah perbedaan mendasar antara mesin pencari dan LLM, dan ini adalah jawaban atas pertanyaan yang sangat umum tentang "mengapa Google dan Bing diizinkan untuk mengorek konten tetapi bukan OpenAI?" (Saya menggunakan ungkapan yang lebih sopan dari pertanyaan ini.).

Google dan Bing mencoba menampilkan tautan sumber dalam respons AI generatif mereka, tetapi sumber ini, jika ditampilkan sama sekali, bukanlah rangkaian lengkap.

Ini membuka pertanyaan terkait: Mengapa situs web mengizinkan kontennya digunakan untuk melatih model bahasa jika tidak mendapatkan imbalan apa pun?

Itu pertanyaan yang sangat bagus – dan mungkin yang paling penting yang harus kita jawab sebagai masyarakat.

LLM memang memiliki manfaat meskipun ada kekurangan utama dengan generasi LLM saat ini (seperti halusinasi, berbohong kepada operator manusia, dan bias, untuk beberapa nama), dan manfaat ini hanya akan meningkat seiring waktu sementara kekurangannya teratasi.

Namun untuk diskusi ini, poin pentingnya adalah untuk menyadari bahwa pilar mendasar tentang bagaimana web terbuka berfungsi saat ini tidak cocok untuk LLM.

Kekotoran

Itu tampaknya bukan masalah bagi perusahaan AI yang tertarik melatih model besar hanya untuk keuntungan ekonomi mereka sendiri.

OpenAI menggunakan beberapa kumpulan data sebagai input data pelatihan (detail di sini untuk GPT3), dan OpenAI sengaja tidak mengungkapkan kumpulan data pelatihan untuk GPT4.

Meskipun OpenAI menggunakan banyak argumen untuk membenarkan tidak mengungkapkan informasi tentang data pelatihan GPT4 (dibahas di sini), poin kunci bagi kami tetap: Kami tidak tahu konten mana yang digunakan untuk melatihnya, dan OpenAI tidak menunjukkannya dalam respons ChatGPT.

Apakah pengumpulan data OpenAI mematuhi Protokol Pengecualian Robot? Apakah itu termasuk teks berhak cipta, seperti buku teks atau buku lain? Apakah mereka mendapat izin dari situs web atau penerbit mana pun? Mereka tidak mengatakan.

Pendekatan super teduh Brave Software

Jika pendekatan OpenAI bermasalah, Brave Software (pembuat browser Brave dan mesin pencari Brave) mengambil pendekatan dan sikap yang bahkan lebih bermasalah dalam hal pencarian dan data pelatihan AI.

Mesin pencari Brave sangat bergantung pada apa yang disebut Proyek Penemuan Web. Pendekatannya cukup rumit dan didokumentasikan di sini, tetapi saya akan menyoroti satu fakta utama: Brave tampaknya tidak memiliki perayap terpusat yang mereka operasikan, dan tidak ada perayapan yang mengidentifikasi diri mereka sebagai perayap untuk Berani, dan (duduklah untuk ini) Berani menjual konten tergores dengan hak yang diberikan Brave kepada pembeli untuk pelatihan AI.

Ada banyak dalam kalimat itu, jadi mari kita uraikan.

Pencarian berani menggunakan browser Brave sebagai perayap terdistribusi. Seperti yang didokumentasikan dalam artikel bantuan ini, ada pertanyaan dan jawaban FAQ ini:

Apakah Proyek Penemuan Web merupakan perayap?
Di satu sisi, ya. Proses Proyek Penemuan Web mengambil tugas dari perayap web Brave. Setiap beberapa detik atau menit, browser mungkin diminta untuk mengambil halaman web dan mengirim kembali HTML ke Brave . Namun, pengambilan ini tidak memengaruhi riwayat penjelajahan atau cookie Anda—hal ini dilakukan sebagai panggilan API pengambilan pribadi. Untuk keamanan ekstra, domain pekerjaan pengambilan telah dipilih sebelumnya dari kumpulan kecil domain yang tidak berbahaya dan bereputasi baik.
Apa itu Proyek Penemuan Web? – Pencarian Berani

Fetch API adalah fungsionalitas standar web yang dibangun ke dalam mesin browser modern, termasuk yang digunakan Brave. Penggunaan umumnya adalah mengambil konten untuk ditampilkan kepada pengguna di browser. Untuk tujuan kami, kami segera mengetahui bahwa itu adalah browser pengguna yang meminta konten situs web atas nama mesin pencari Brave.

Menariknya, utas Reddit dari Juni 2021 menambahkan lebih banyak detail dan kebingungan. Satu balasan dari perwakilan Brave sangat menarik (menyoroti milik saya):

Kami memiliki perayap sendiri, tetapi tidak berisi string agen pengguna (seperti Brave, browser, juga tidak berisi string agen pengguna unik ) untuk menghindari potensi diskriminasi . Yang mengatakan, kami telah berbicara tentang kemungkinan mengidentifikasi crawler kepada admin yang ingin tahu kapan/di mana crawler mendarat di properti mereka. Kami juga menghormati robots.txt , jadi jika Anda tidak ingin Brave Search merayapi situs Anda, itu tidak akan terjadi.

Ini adalah tambang emas fakta:

Mereka memiliki perayap sendiri, yang mungkin merujuk ke perayap terpusat atau Proyek Penemuan Web berbasis browser terdistribusi.
Perayap ini tidak mengidentifikasi dirinya sebagai perayap, tetapi entah bagaimana ia mematuhi Protokol Pengecualian Robot (dalam bentuk file robots.txt). Bagaimana operator situs web dapat menulis arahan pengecualian robot jika browser tidak mengidentifikasi dirinya sendiri? Token agen pengguna mana (sebutannya) yang akan digunakan dalam file robots.txt untuk menentukan arahan khusus untuk perayap Brave? Saya belum dapat menemukan dokumentasi apa pun dari Brave.
Apa yang mereka sebut diskriminasi sebenarnya adalah cara penerbit mengontrol perayapan. Protokol Pengecualian Robot adalah mekanisme bagi penayang untuk membedakan antara apa yang diizinkan untuk diakses oleh pengguna dan perayap, dan membedakan antara perayap yang berbeda (misalnya, mengizinkan Bingbot untuk merayapi tetapi Googlebot tidak). Dengan mengklaim bahwa mereka ingin menghindari diskriminasi, Brave sebenarnya mengatakan bahwa mereka harus memutuskan apa yang mereka rayapi dan indeks, bukan penerbitnya.

Kembali ke Fetch API: Secara default, Fetch API menggunakan string agen pengguna browser. Kita sudah tahu bahwa browser Brave tidak mengidentifikasi dirinya dengan header agen pengguna yang unik, sebagai gantinya, menggunakan string agen pengguna generik yang dihasilkan oleh mesin browser yang mendasarinya.

String agen pengguna dapat dikustomisasi, untuk browser secara umum dan Fetch API, namun saya belum menemukan indikasi bahwa Brave melakukan itu (dan memang, balasan Reddit yang dikutip di atas secara eksplisit mengatakan tidak ada pengidentifikasi unik).

Selanjutnya, Brave terus menjual data tergores khusus untuk pelatihan AI, bukan hanya sebagai hasil pencarian (misalnya, untuk memberdayakan fitur pencarian situs).

Mengunjungi beranda Brave Search API menunjukkan beberapa tingkatan harga, termasuk beberapa yang disebut "Data untuk AI". Paket data ini mencakup opsi untuk "Data dengan hak penyimpanan" yang memungkinkan pelanggan untuk "Cache/menyimpan data untuk melatih model AI", dengan data termasuk "Cuplikan alternatif ekstra untuk AI" dan dengan "Hak untuk menggunakan data untuk inferensi AI. ”

Singkatnya, berdasarkan pernyataan publik Brave dan kurangnya dokumentasi, Brave merayapi web secara diam-diam, tanpa cara yang jelas untuk mengontrol atau memblokirnya, dan selanjutnya menjual kembali konten yang dirayapi untuk pelatihan AI.

Atau untuk mengulanginya dengan lebih blak-blakan, Brave telah menunjuk dirinya sebagai distributor nirlaba dari konten berhak cipta tanpa lisensi atau izin dari penerbit situs web .

Apakah ini dapat diterima? Saya melihatnya sebagai pengikis busuk sebagai layanan.

Prakarsa Kontrol Penayang Google

Mungkin akan ada perayap web jenis baru yang akan segera hadir, yang khusus untuk AI generatif.

Tampaknya Google telah mengenali ketidakcocokan yang dibahas di atas, bahwa penggunaan konten yang diambil Googlebot untuk penelusuran web mungkin tidak cocok untuk melatih model AI.

Google telah mengumumkan bahwa mereka ingin memulai diskusi komunitas untuk membuat Kontrol Penerbit Web AI (hei, Google, saya mendaftar, izinkan saya masuk!). Saya dengan sepenuh hati mendukung percakapan ini, dan kerja bagus Google karena telah membuka pintu untuk melakukan percakapan ini.

Karena kita berada di masa-masa awal, penting untuk menandai bahwa default dan kemampuan kontrol tersebut akan sangat penting untuk keberhasilan atau kegagalannya. Saya menduga banyak penerbit dan penulis akan memiliki pendapat yang kuat bahwa kita perlu mendengar tentang cara kerja kontrol AI ini.

Bagaimana dengan LLM sumber terbuka?

Aspek penting dari argumen di atas adalah pertukaran ekonomi. Tetapi bagaimana jika organisasi di balik model bahasa tersebut melepaskan model tersebut secara bebas tanpa keuntungan bagi dirinya sendiri?

Ada banyak model sumber terbuka seperti itu, dan mereka dilatih pada kumpulan data yang secara substansial tumpang tindih dengan kumpulan data yang digunakan untuk melatih model kepemilikan komersial. Banyak model sumber terbuka yang cukup baik untuk beberapa kasus penggunaan saat ini, dan semakin baik.

Tetap saja: Apakah benar konten situs web digunakan tanpa izin untuk melatih LLM sumber terbuka?

Itu mungkin pertanyaan yang lebih rumit, dan menurut saya jawabannya saat ini terletak pada apa yang diizinkan oleh Protokol Pengecualian Robot. Ada kemungkinan jawaban yang lebih baik muncul dalam bentuk pendekatan yang dirancang dengan baik dari Google's AI Web Publisher Controls atau beberapa inisiatif serupa lainnya.

Perhatikan ruang ini.

Jadi apa yang bisa dilakukan penerbit sekarang?

Situasi saat ini adalah situasi yang tidak diinginkan atau diterima oleh banyak penerbit. Apa yang bisa mereka lakukan?

Di sini kita perlu kembali ke pemblokiran crawler/bot jadul. Biasanya ada dua jenis perayap:

Perayap yang mengidentifikasi diri mereka sendiri. Mereka mungkin atau mungkin tidak mematuhi Protokol Pengecualian Robot, tetapi setidaknya server memiliki pengidentifikasi untuk memeriksa untuk memutuskan apakah akan memblokir permintaan atau tidak. Contohnya termasuk Googlebot dan Bingbot.
Perayap siluman, yang tidak digunakan untuk mesin telusur sopan. Mereka tidak mengidentifikasi diri mereka sendiri dan/atau tidak mematuhi Protokol Pengecualian Robot. Contohnya adalah scraper spam script kiddie atau crawler Brave Search.

Ada dua hal pelengkap yang dapat Anda lakukan:

Jika perayap mematuhi Protokol Pengecualian Robot, Anda dapat memblokirnya jika menurut Anda konten yang dirayapi dimasukkan ke dalam data pelatihan AI. Ada dua pendekatan di sini:
- Blokir semua perayap dan izinkan hanya perayap yang ingin Anda izinkan untuk kebutuhan Anda (seperti Googlebot dan Bingbot). Ini berbahaya bagi kinerja situs web dalam pencarian organik. Anda harus sangat berhati-hati dengannya, tetapi ini efektif untuk perayap ini.
- Izinkan semua perayapan dan blokir yang ingin Anda blokir. Pendekatan yang lebih permisif ini tidak terlalu berbahaya, tetapi tentu saja konten Anda mungkin tergores oleh AI atau perayap lain yang mungkin tidak Anda inginkan.
Gunakan detektor bot siluman sisi server, dan gunakan untuk memblokir perayap tersebut. Banyak produk dapat melakukan ini. Jika Anda menggunakan jaringan distribusi konten (CDN) seperti yang dilakukan banyak penerbit, kemungkinan fungsi semacam ini tersedia melalui itu (mis. Akamai, Cloudflare, Fastly).

Pendekatan yang saya mulai lakukan dengan situs web yang saya operasikan, dan diskusikan dengan klien, adalah kombinasi opsi (1a) dan (2), yaitu menggunakan file robots.txt terbatas bersama dengan kontrol CDN.

Ini mungkin bukan pendekatan terbaik untuk setiap penerbit, tapi menurut saya ini layak dipertimbangkan secara serius.

Apa artinya semua ini?

Kita sedang menjalani masa-masa yang akan turun sebagai salah satu yang paling berpengaruh dalam sejarah. Orang-orang benar-benar memprediksi malapetaka umat manusia dari AI. Kita semua memiliki peran untuk dimainkan dalam membentuk masa depan.

Untuk bagian kami sebagai pembuat konten asli, kami perlu memikirkan tentang cara merespons, dan mengikuti serta beradaptasi dengan bagian industri yang bergerak cepat ini. Memutuskan bagaimana konten yang kami buat dibuat, didistribusikan, dan dikonsumsi sekarang merupakan perpaduan yang rumit antara strategi, teknologi, keuangan, etika, dan lainnya.

Bagaimanapun Anda merespons, Anda mengambil sikap pada momen bersejarah. Aku merasakan bebanmu.

Pendapat yang diungkapkan dalam artikel ini adalah dari penulis tamu dan belum tentu Search Engine Land. Penulis staf tercantum di sini.

Tambahkan Search Engine Land ke feed Google News Anda.