Robots.txt bukan jawabannya: Mengusulkan tag meta baru untuk LLM/AI

Diterbitkan: 2023-07-18

Sementara Google membuka diskusi tentang memberikan kredit dan mematuhi hak cipta saat melatih model bahasa besar (LLM) untuk produk AI generatif, fokus mereka adalah pada file robots.txt.

Namun, menurut saya, ini adalah alat yang salah untuk dilihat.

Mantan kolega saya Pierre Far menulis artikel yang sangat bagus tentang Perayap, mesin telusur, dan kebatilan perusahaan AI generatif di mana dia menyoroti beberapa tantangan besar yang saat ini dihadapi industri penerbitan online. Mirip dengan artikelnya, saya akan menjaga proposal ini tetap tinggi karena perkembangan di bidang ini sangat cepat.

Mengapa tidak menggunakan robots.txt

Ada beberapa alasan mengapa menggunakan robots.txt adalah titik awal yang salah untuk diskusi tentang cara menghormati hak cipta penerbit.

Tidak semua LLM menggunakan perayap dan mengidentifikasi dirinya sendiri

Beban ada pada operator situs web untuk mengidentifikasi dan memblokir perayap individu, yang dapat menggunakan dan/atau menjual datanya untuk produk AI generatif. Ini menciptakan banyak pekerjaan ekstra (dan tidak perlu), terutama untuk penerbit kecil.

Hal ini juga mengasumsikan bahwa penayang memiliki akses pengeditan ke file robots.txt mereka, yang tidak selalu demikian dengan solusi yang dihosting.

Ini bukan solusi yang berkelanjutan karena jumlah perayap terus bertambah

Ukuran file yang dapat digunakan dari file robots.txt dibatasi hingga 500 kb, menurut standar robots.txt yang baru diusulkan.

Ini berarti penerbit besar mungkin mengalami masalah dengan file robots.txt mereka jika mereka perlu memblokir banyak perayap LLM dan/atau pola URL yang disempurnakan selain bot lainnya.

Pendekatan 'semua atau tidak sama sekali' tidak dapat diterima

Untuk perayap yang lebih besar seperti Googlebot dan Bingbot, tidak ada perbedaan yang dapat dibuat antara data yang digunakan untuk halaman hasil mesin telusur (biasanya terdapat "kesepakatan" antara penerbit dan mesin telusur dalam bentuk "kutipan" dengan aslinya sumber) dan produk IB generatif.

Memblokir Googlebot atau Bingbot untuk produk AI generatif mereka juga memblokir potensi visibilitas di hasil pencarian masing-masing. Ini adalah situasi yang tidak dapat diterima di mana penerbit dipaksa untuk membuat pilihan antara "semua atau tidak sama sekali".

Robots.txt adalah tentang mengelola perayapan sementara diskusi hak cipta adalah tentang bagaimana data digunakan

Yang terakhir adalah tentang fase indeksasi/pemrosesan. Dengan demikian, robots.txt tidak benar-benar relevan dengan diskusi ini melainkan sebagai pilihan terakhir jika tidak ada yang berhasil dan seharusnya tidak menjadi titik awal dari diskusi khusus ini.

File robots.txt berfungsi dengan baik untuk perayap dan tidak perlu diubah untuk tujuan LLM. Ya, perayap LLM perlu mengidentifikasi diri mereka sendiri, tetapi yang benar-benar perlu kita bicarakan adalah pengindeksan/pemrosesan data yang dirayapi.

Menemukan kembali roda

Untungnya, web sudah memiliki beberapa solusi mapan yang dapat digunakan untuk mengelola penggunaan data terkait hak cipta. Ini disebut Creative Commons.

Sebagian besar lisensi Creative Commons akan baik-baik saja untuk tujuan LLM. Menggambarkan:

CC0 memungkinkan LLM untuk mendistribusikan, mencampur ulang, mengadaptasi, dan membangun materi dalam media atau format apa pun tanpa syarat.
CC BY mengizinkan LLM untuk mendistribusikan, mencampur ulang, mengadaptasi, dan membuat materi dalam media atau format apa pun, selama atribusi diberikan kepada pembuatnya. Lisensi memungkinkan untuk penggunaan komersial, tetapi kredit harus diberikan kepada pembuatnya.
CC BY-SA memungkinkan LLM untuk mendistribusikan, mencampur ulang, mengadaptasi, dan membuat materi dalam media atau format apa pun, selama atribusi diberikan kepada pembuatnya. Lisensi memungkinkan untuk penggunaan komersial. Jika LLM mencampur, mengadaptasi, atau membuat materi, itu harus melisensikan materi yang dimodifikasi dengan ketentuan yang identik.
CC BY-NC mengizinkan LLM untuk mendistribusikan, mencampur ulang, mengadaptasi, dan membangun materi dalam media atau format apa pun untuk tujuan nonkomersial hanya selama atribusi diberikan kepada pencipta.
CC BY-NC-SA memungkinkan LLM untuk mendistribusikan, mencampur ulang, mengadaptasi, dan membangun materi dalam media atau format apa pun untuk tujuan nonkomersial hanya selama atribusi diberikan kepada pencipta. Jika LLM mencampur, mengadaptasi, atau membuat berdasarkan materi, mereka harus melisensikan materi yang dimodifikasi dengan ketentuan yang identik.
CC BY-ND mengizinkan LLM untuk menyalin dan mendistribusikan materi dalam media atau format apa pun dalam bentuk yang tidak diadaptasi hanya selama atribusi diberikan kepada pencipta. Lisensi memungkinkan untuk penggunaan komersial dan kredit harus diberikan kepada pencipta, tetapi tidak ada turunan atau adaptasi dari karya yang diizinkan.
CC BY-NC-ND mengizinkan LLM untuk menyalin dan mendistribusikan materi dalam media atau format apa pun hanya dalam bentuk yang tidak diadaptasi, hanya untuk tujuan nonkomersial, dan selama atribusi diberikan kepada pencipta dan tidak ada turunan atau adaptasi dari karya yang diizinkan.

Dua lisensi terakhir sepertinya tidak dapat digunakan untuk LLM.

Namun, lima lisensi pertama berarti bahwa LLM perlu mempertimbangkan bagaimana mereka menggunakan data yang dirayapi/diperoleh dan memastikan mereka mematuhi persyaratan yang diberlakukan saat menggunakan data dari penerbit, seperti atribusi dan saat membagikan produk yang dibuat berdasarkan data tersebut.

Ini akan membebani "sedikit" LLM di dunia daripada "banyak" penerbit.

Tiga lisensi pertama juga mendukung penggunaan data “tradisional”, misalnya, dalam hasil mesin pencari di mana atribusi/kredit diberikan melalui tautan ke situs web asli. Sedangkan lisensi keempat dan kelima juga mendukung penelitian dan pengembangan untuk LLM sumber terbuka.

Catatan tambahan: Perlu diingat bahwa semua perusahaan perangkat lunak yang membangun LLM ini sering menggunakan perangkat lunak sumber terbuka di mana mereka memiliki tantangan lisensi hak cipta yang sama terkait dengan pustaka perangkat lunak dan sistem operasi yang mereka gunakan untuk menghindari pelanggaran hak cipta pada tingkat kode. Jadi mengapa menemukan kembali roda ketika kita dapat menggunakan sistem serupa untuk data yang diproses oleh kode ini?

Tag meta adalah caranya

Setelah penerbit mengidentifikasi lisensi yang sesuai, lisensi ini masih perlu dikomunikasikan. Sekali lagi, di sinilah robots.txt tampaknya merupakan pendekatan yang salah.

Hanya karena halaman harus diblokir dari perayapan untuk mesin telusur tidak berarti halaman tersebut tidak dapat digunakan atau tidak berguna untuk LLM. Ini adalah dua kasus penggunaan yang berbeda.

Karena itu, untuk memisahkan kasus penggunaan ini dan memungkinkan pendekatan yang lebih halus namun juga lebih mudah bagi penayang, sebaiknya gunakan tag meta.

Tag meta adalah potongan kode yang dapat disisipkan pada tingkat halaman, di dalam tema atau konten (saya tahu, ini tidak benar secara teknis, tetapi HTML cukup memaafkan dan dapat digunakan sebagai upaya terakhir ketika penerbit memiliki akses terbatas ke basis kode). Mereka tidak mensyaratkan penerbit untuk memiliki hak akses tambahan selain dapat mengedit HTML dari konten yang dipublikasikan.

Menggunakan tag meta tidak menghentikan perayapan, seperti meta noindex. Namun, ini memungkinkan Anda untuk mengomunikasikan hak penggunaan data yang dipublikasikan.

Dan meskipun ada tag hak cipta yang dapat digunakan – terutama dari Dublin Core, standar hak (proposal yang diabaikan), meta hak cipta (berfokus pada nama pemilik daripada lisensi) dan upaya lain – implementasi yang ada saat ini dari ini di beberapa situs web mungkin bertentangan dengan apa yang kami coba capai di sini.

Jadi tag meta baru mungkin diperlukan, meskipun saya senang menggunakan kembali yang sudah ada atau yang lama, seperti "standar hak", juga. Untuk diskusi ini, saya mengusulkan tag meta baru berikut:

 <meta name="usage-rights" content="CC-BY-SA" />

Selain itu, saya menyarankan agar tag meta ini juga didukung saat digunakan di HTTP Header, seperti noindex yang didukung di X-Robots-Tag, untuk membantu perayap LLM mengelola sumber daya perayapan dengan lebih baik (mereka hanya perlu memeriksa HTTP Header untuk memvalidasi hak pakai).

 X-Robots-Tag: usage-rights: CC-BY-SA

Ini dapat digunakan dalam kombinasi dengan tag meta lainnya. Pada contoh di bawah ini, halaman tidak boleh digunakan untuk hasil pencarian tetapi dapat digunakan untuk LLM komersial selama kredit diberikan ke sumbernya:

 X-Robots-Tag: usage-rights: CC-BY, noindex

Catatan: Nama "hak penggunaan" untuk tag meta adalah proposal dan dapat diubah.

Solusi yang sangat mudah

Memang, ada perayap yang buruk dan aktor yang buruk membangun LLM dan produk AI generatif mereka.

Solusi tag meta yang diusulkan tidak akan mencegah konten digunakan seperti itu, tetapi file robots.txt juga tidak.

Penting untuk diketahui bahwa kedua metode bergantung pada pengakuan dan kepatuhan oleh perusahaan yang menggunakan data untuk produk AI mereka.

Kesimpulan

Semoga artikel ini mengilustrasikan bagaimana menggunakan robots.txt untuk mengelola penggunaan data di LLM, menurut pendapat saya, merupakan pendekatan / titik awal yang salah untuk menangani penggunaan dan hak cipta di era baru LLM dan produk AI generatif ini.

Implementasi tag meta ini akan memungkinkan penerbit menentukan informasi hak cipta pada tingkat halaman menggunakan Creative Commons, tanpa mencegah halaman dirayapi atau diindeks untuk tujuan lain (seperti hasil mesin telusur). Ini juga memungkinkan deklarasi hak cipta dibuat untuk berbagai penggunaan, termasuk LLM, produk AI generatif, dan potensi produk AI di masa mendatang.

Pendapat yang diungkapkan dalam artikel ini adalah dari penulis tamu dan belum tentu Search Engine Land. Penulis staf tercantum di sini.

Tambahkan Search Engine Land ke feed Google News Anda.