Cevap robots.txt değil: LLM/AI için yeni bir meta etiket önermek

Yayınlanan: 2023-07-18

Google, üretken AI ürünleri için büyük dil modelleri (LLM'ler) eğitirken kredi verme ve telif hakkına bağlı kalma konusundaki tartışmayı başlatırken, robots.txt dosyasına odaklanıyorlar.

Ancak, bence, bu bakmak için yanlış bir araçtır.

Eski meslektaşım Pierre Far, şu anda çevrimiçi yayıncılık endüstrisinin karşı karşıya olduğu muazzam zorluklardan bazılarının altını çizdiği, Tarayıcılar, arama motorları ve üretici yapay zeka şirketlerinin pisliği hakkında mükemmel bir makale yazdı. Onun makalesine benzer şekilde, bu alandaki gelişmeler son derece hızlı olduğu için bu öneriyi üst düzeyde tutacağım.

Neden robots.txt kullanmıyorsunuz?

Yayıncıların telif haklarına nasıl saygı gösterileceğine ilişkin tartışma için robots.txt'yi kullanmanın yanlış bir başlangıç ​​noktası olmasının birkaç nedeni vardır.

Tüm LLM'ler tarayıcı kullanmaz ve kendilerini tanımlamaz

Verilerini üretken yapay zeka ürünleri için kullanabilecek ve/veya satabilecek tek tek tarayıcıları belirleme ve engelleme yükü web sitesi operatörünün üzerindedir. Bu, özellikle küçük yayıncılar için çok fazla (ve gereksiz) iş yaratır.

Bu aynı zamanda, yayıncının kendi robots.txt dosyasına düzenleme erişimine sahip olduğunu varsayar; bu, barındırılan çözümlerde her zaman böyle değildir.

Sürüngenlerin sayısı artmaya devam ettiği için bu sürdürülebilir bir çözüm değildir.

Bir robots.txt dosyasının kullanılabilir dosya boyutu, yeni önerilen robots.txt standardına göre 500 kb ile sınırlıdır.

Bu, büyük bir yayıncının, diğer botlara ek olarak çok sayıda LLM tarayıcısını ve/veya rafine edilmiş URL modellerini engellemesi gerekiyorsa, robots.txt dosyasıyla ilgili sorunlarla karşılaşabileceği anlamına gelir.

'Ya hep ya hiç' yaklaşımı kabul edilemez

Googlebot ve Bingbot gibi daha büyük tarayıcılar için, arama motoru sonuç sayfaları için kullanılan veriler arasında hiçbir ayrım yapılamaz (geleneksel olarak, yayıncı ile arama motoru arasında orijinalinden "alıntı" şeklinde bir "anlaşma" vardır). kaynak) ve üretken AI ürünleri.

Üretken yapay zeka ürünleri için Googlebot veya Bingbot'u engellemek, ilgili arama sonuçlarındaki olası görünürlüğü de engeller. Bu, yayıncının “ya hep ya hiç” arasında bir seçim yapmaya zorlandığı kabul edilemez bir durumdur.

Robots.txt tamamen taramayı yönetmekle ilgiliyken, telif hakkı tartışması tamamen verilerin nasıl kullanıldığıyla ilgilidir.

İkincisi, indeksleme/işleme aşaması ile ilgilidir. Bu nedenle, robots.txt bu tartışmayla gerçekten ilgili değil, başka hiçbir şey işe yaramıyorsa ve gerçekten bu özel tartışmanın başlangıç ​​noktası olmamalıysa son başvurulacak bir dosyadır.

Robots.txt dosyaları tarayıcılar için iyi çalışır ve LLM'lerin amaçları doğrultusunda değiştirilmesi gerekmez. Evet, LLM tarayıcılarının kendilerini tanımlamaları gerekir, ancak asıl konuşmamız gereken, taranan verilerin endekslenmesi/işlenmesidir.

Tekerleği yeniden icat etmek

Şans eseri, web'de halihazırda telif haklarıyla ilgili verilerin kullanımını yönetmek için kullanılabilecek bazı köklü çözümler var. Buna Creative Commons denir.

Creative Commons lisanslarının çoğu, LLM'lerin amacı için uygundur. Açıklamak için:

  • CC0, LLM'lerin materyali herhangi bir ortam veya formatta koşulsuz olarak dağıtmasına, yeniden düzenlemesine, uyarlamasına ve üzerine inşa etmesine izin verir.
  • CC BY, yaratıcıya atıf yapıldığı sürece LLM'lerin materyali herhangi bir ortam veya formatta dağıtmasına, yeniden düzenlemesine, uyarlamasına ve materyal üzerine inşa etmesine izin verir. Lisans ticari kullanıma izin verir, ancak yaratıcıya kredi verilmelidir.
  • CC BY-SA, yaratıcısına atıf yapıldığı sürece LLM'lerin materyali herhangi bir ortam veya formatta dağıtmasına, yeniden düzenlemesine, uyarlamasına ve üzerine inşa etmesine izin verir. Lisans ticari kullanıma izin verir. LLM'ler materyali yeniden düzenler, uyarlar veya üzerine inşa ederse, değiştirilen materyali aynı koşullar altında lisanslamalıdır.
  • CC BY-NC, LLM'lerin materyali herhangi bir ortamda veya formatta ticari olmayan amaçlarla dağıtmasına, yeniden düzenlemesine, uyarlamasına ve yalnızca içerik oluşturucuya atıfta bulunulduğu sürece materyal üzerine inşa etmesine izin verir.
  • CC BY-NC-SA, LLM'lerin materyali herhangi bir ortamda veya formatta ticari olmayan amaçlarla dağıtmasına, yeniden düzenlemesine, uyarlamasına ve üzerine inşa etmesine yalnızca yaratıcıya atıfta bulunulduğu sürece izin verir. LLM'ler materyali yeniden düzenler, uyarlar veya üzerine inşa ederse, değiştirilen materyali aynı koşullar altında lisanslamak zorundadırlar.
  • CC BY-ND, LLM'lerin materyali herhangi bir ortamda veya formatta uyarlamadan kopyalamasına ve dağıtmasına, yalnızca yaratıcıya atıfta bulunulduğu sürece izin verir. Lisans ticari kullanıma izin verir ve yaratıcıya kredi verilmelidir, ancak çalışmanın türevlerine veya uyarlamalarına izin verilmez.
  • CC BY-NC-ND, LLM'lerin herhangi bir ortamda veya formatta materyali yalnızca uyarlanmamış biçimde, yalnızca ticari olmayan amaçlarla ve yaratıcıya atıfta bulunulduğu ve çalışmanın hiçbir türevine veya uyarlamasına izin verilmediği sürece kopyalamasına ve dağıtmasına izin verir.

Son iki lisansın LLM'ler için kullanılması pek olası değildir.

Bununla birlikte, ilk beş lisans, LLM'lerin taranan/elde edilen verileri nasıl kullandıklarını dikkate almaları ve ilişkilendirme gibi yayıncılardan alınan verileri kullanırken ve veriler üzerine inşa edilen ürünü paylaşırken getirilen gereksinimlere uymalarını sağlamaları gerektiği anlamına gelir.

Bu, yükü "birçok" yayıncı yerine dünyadaki "birkaç" LLM'ye yükler.

İlk üç lisans, verilerin “geleneksel” kullanımını da destekler; örneğin, atıfın/kredinin orijinal web sitesine bağlantı aracılığıyla verildiği arama motoru sonuçlarında. Dördüncü ve beşinci lisanslar da açık kaynaklı LLM'ler için araştırma ve geliştirmeyi destekler.

Yan not: LLM'ler oluşturan tüm bu yazılım şirketlerinin, kod düzeyinde telif hakkı ihlallerinden kaçınmak için kullandıkları yazılım kitaplıkları ve işletim sistemleriyle ilgili olarak aynı telif hakkı lisansı zorluklarına sahip oldukları açık kaynaklı yazılımları kullandıklarını unutmayın . Öyleyse, bu kodun işlediği veriler için benzer bir sistem kullanabilecekken neden tekerleği yeniden icat edelim?

Meta etiketi yoldur

Bir yayıncı uygun bir lisans belirledikten sonra, bu lisansın yine de iletilmesi gerekir. Yine robots.txt'nin yanlış bir yaklaşım olduğu yer burasıdır.

Bir sayfanın arama motorları için taranmasının engellenmesi, bunun LLM'ler için kullanılamayacağı veya yararlı olmadığı anlamına gelmez. Bunlar iki farklı kullanım durumudur.

Bu nedenle, bu kullanım durumlarını ayırmak ve yayıncılar için daha rafine ancak aynı zamanda daha kolay bir yaklaşım sağlamak için bunun yerine bir meta etiket kullanmanızı öneririm.

Meta etiketler, sayfa düzeyinde, bir tema veya içerik içine eklenebilen kod parçalarıdır (Biliyorum, bu teknik olarak doğru değil, ancak HTML yeterince bağışlayıcıdır ve bir yayıncının sınırlı erişimi olduğunda son çare olarak kullanılabilir. kod tabanına). Yayıncının, yayınlanan içeriğin HTML'sini düzenleyebilme dışında ek erişim haklarına sahip olmasını gerektirmezler.

Meta etiketleri kullanmak, meta noindex gibi taramayı durdurmaz. Ancak, yayınlanan verilerin kullanım haklarını iletmenizi sağlar.

Ve kullanılabilecek mevcut telif hakkı etiketleri olmasına rağmen - özellikle Dublin Core, haklar standardı (terk edilmiş teklif), telif hakkı-meta (lisanstan ziyade sahibinin adına odaklanır) ve diğer girişimler - mevcut mevcut uygulama bazı web sitelerindeki bunlar, burada başarmaya çalıştığımız şeyle çelişebilir.

Bu nedenle yeni bir meta etiket gerekli olabilir, ancak "hak standardı" gibi mevcut veya eski bir meta etiketi de yeniden kullanmaktan memnuniyet duyuyorum. Bu tartışma için aşağıdaki yeni meta etiketi öneriyorum:

 <meta name="usage-rights" content="CC-BY-SA" />

Ek olarak, LLM tarayıcılarının tarama kaynaklarını daha iyi yönetmelerine yardımcı olmak için, X-Robots-Tag'de noindex'in desteklenmesi gibi, bu meta etiketin HTTP Başlıklarında kullanıldığında da desteklenmesini öneririm (yalnızca doğrulamak için HTTP Başlıklarını kontrol etmeleri gerekir) kullanım hakları).

 X-Robots-Tag: usage-rights: CC-BY-SA

Bu, diğer meta etiketlerle birlikte kullanılabilir. Aşağıdaki örnekte, sayfa arama sonuçları için kullanılmamalıdır, ancak kaynağa uzun süre atıfta bulunulduğu için ticari LLM'ler için kullanılabilir:

 X-Robots-Tag: usage-rights: CC-BY, noindex

Not: Meta etiketi için “kullanım hakları” adı bir öneridir ve değiştirilebilir.

Kusursuz çözüm

Elbette, LLM'lerini ve üretken AI ürünlerini oluşturan kötü tarayıcılar ve kötü aktörler var.

Önerilen meta etiket çözümü, içeriğin bu şekilde kullanılmasını engellemez, ancak robots.txt dosyası da engellemez.

Her iki yöntemin de AI ürünleri için verileri kullanan şirketlerin tanınmasına ve uyumluluğuna bağlı olduğunu kabul etmek önemlidir.

Çözüm

Umarız bu makale, LLM'lerde veri kullanımını yönetmek için robots.txt'yi kullanmanın, bence, LLM'lerin ve üretken AI ürünlerinin bu yeni çağında kullanım ve telif haklarıyla başa çıkmak için yanlış yaklaşım/başlangıç ​​noktası olduğunu göstermektedir.

Bu meta etiket uygulaması, sayfanın başka amaçlarla (arama motoru sonuçları gibi) taranmasını veya dizine eklenmesini engellemeden, yayıncıların Creative Commons'ı kullanarak sayfa düzeyinde telif hakkı bilgilerini belirtmesine olanak tanır. Ayrıca, LLM'ler, üretken AI ürünleri ve potansiyel gelecekteki AI ürünleri dahil olmak üzere çeşitli kullanımlar için telif hakkı beyanlarının yapılmasına izin verir.


Bu makalede ifade edilen görüşler konuk yazara aittir ve mutlaka Search Engine Land değildir. Personel yazarları burada listelenir.