Tarayıcılar, arama motorları ve üretken yapay zeka şirketlerinin pisliği

Yayınlanan: 2023-07-13

Üretken AI ürünlerinin son birkaç ayda patlaması, birçok web sitesini karşı önlemler almaya sevk etti.

Temel endişe şu şekildedir:

Yapay zeka ürünleri, dil modellerini (sözde büyük dil modelleri veya kısaca LLM'ler) eğitmek için büyük hacimli içerik tüketmeye bağlıdır ve bu içeriğin bir yerden gelmesi gerekir. AI şirketleri, web'in açıklığının eğitim verilerini elde etmek için büyük ölçekli taramaya izin verdiğini düşünüyor, ancak Reddit, Stack Overflow ve Twitter dahil olmak üzere bazı web sitesi operatörleri aynı fikirde değil.

Bu ilginç soruya verilen bu yanıt, hiç şüphesiz dünyanın dört bir yanındaki mahkemelerde dava konusu olacaktır.

Bu makale, iş ve teknik yönlere odaklanarak bu soruyu inceleyecektir. Ama dalmadan önce birkaç nokta:

  • Bu konuya değinmeme ve bu makaleye bazı yasal argümanlara yer vermeme rağmen, ben bir avukat değilim, ben sizin avukatınız değilim ve size herhangi bir tavsiye vermiyorum. Yasal tavsiyeye ihtiyacınız varsa, en sevdiğiniz avukat kedinizle konuşun.
  • Yıllar önce Google'da, çoğunlukla web aramasında çalışıyordum. Aşağıda bazı Google örneklerinden alıntı yaparken bile, hiçbir şekilde Google adına konuşmuyorum.
  • Bu hızlı hareket eden bir konudur. Bunu yazmayı bitirdiğim ve sizin onu okuduğunuz zaman arasında, sektörde büyük bir şey olacağı garanti edilir ve bir şeyi kaçırmış olacağım garanti edilir!

Arama motorları ve web siteleri arasındaki 'anlaşma'

Google veya Bing gibi modern bir arama motorunun nasıl çalıştığıyla başlıyoruz. Aşırı basitleştirilmiş terimlerle, bir arama motoru şu şekilde çalışır:

  • Arama motorunun bir URL listesi vardır. Her URL'nin, URL'nin arama motorunun sonuç sayfalarında gösterilmesinin önemli veya yararlı olabileceğini gösteren meta verileri (bazen "sinyaller" olarak adlandırılır) vardır.
  • Bu sinyallere dayalı olarak, arama motorunun, sinyallerin gösterdiği şeye bağlı olarak bu URL'leri bir "önem" sırasına göre getiren bir program olan bir tarayıcısı, bir botu vardır. Bu amaçla, Google'ın tarayıcısına Googlebot ve Bing'in tarayıcısına Bingbot adı verilir (ve her ikisinin de reklamlar gibi başka amaçlar için çok daha fazlası vardır). Her iki bot da kendilerini user-agent başlığında tanımlar ve her ikisi de içeriğin sahte değil gerçek arama motoru botuna sunulduğundan emin olmak için web siteleri tarafından programlı olarak doğrulanabilir.
  • İçerik getirildiğinde dizine eklenir. Arama motoru dizinleri, içeriği kullanıcı sorgularıyla eşleştirmek ve sıralamak için kullanılan büyük miktarda meta veri ve diğer sinyallerle birlikte sayfa içeriğini içeren karmaşık veritabanlarıdır. Bir dizin, Google veya Bing'de bir sorgu yazdığınızda gerçekte aranan şeydir.

Modern arama motorları, en azından nazik olanlar, web sitesi operatörüne tarama ve indeksleme üzerinde tam kontrol sağlar.

Robots Hariç Tutma Protokolü, robots.txt dosyası ve web sayfasının kendisindeki meta etiketler veya başlıklar aracılığıyla bu kontrolün nasıl uygulandığıdır. Bu arama motorları, Robotları Hariç Tutma Protokolüne gönüllü olarak uyarlar ve bir web sitesinin Protokolü uygulamasını sadece bir ipucu olarak değil, bir direktif, mutlak bir komut olarak alırlar.

Daha da önemlisi, Protokolün varsayılan konumu, tüm tarama ve dizine eklemeye izin verildiği şeklindedir - varsayılan olarak müsamahakârdır. Web sitesi operatörü, hariç tutmayı uygulamak için aktif olarak adımlar atmadıkça, web sitesinin taramaya ve dizine eklemeye izin verdiği varsayılır.

Bu bize arama motorları ve web siteleri arasındaki anlaşmanın temel çerçevesini verir: Varsayılan olarak, bir web sitesi bir arama motoru tarafından taranır ve dizine eklenir, bu da arama yapanları ilgili sorgular için arama sonuçlarında doğrudan orijinal web sitesine yönlendirir. .

Bu anlaşma temelde ekonomik bir alışveriştir: içeriği üretme, barındırma ve sunma maliyetleri web sitesi tarafından karşılanır, ancak buradaki fikir, karşılığında aldığı trafiğin bunu bir kârla geri ödediğidir.

Not : Bu değiş tokuşta kimin daha fazla güce sahip olduğu, kimin daha fazla para kazandığı, adalet ve çok daha fazlası hakkında bir dizi ilgili tartışmayı kasıtlı olarak görmezden geliyorum. Bunları küçümsemiyorum – sadece bu makalenin ana konusundan uzaklaşmak istemiyorum.

Trafik için bu indeksleme yaklaşımı başka bir yerde, örneğin arama motorlarının bir ödeme duvarının arkasındaki içeriği indekslemesine izin verildiğinde ortaya çıkar. Aynı fikir: web sitesi, arama yapanları doğrudan web sitesine yönlendiren arama sonuçlarında gösterilme karşılığında içerik paylaşıyor.

Ve bu anlaşma sürecinin her adımında, yayıncı herhangi bir şekilde taramanın veya indekslemenin tamamını veya bir kısmını engellemek istiyorsa, yayıncının Robotlar ve Hariç Tutma Protokolünü kullanan çeşitli araçları vardır. Hâlâ taranmasına ve dizine eklenmesine izin verilen herhangi bir şey, web sitesinin arama sonuçlarında gösterilmekten doğrudan fayda sağlamasıdır.

Bu argüman bir şekilde mahkemelerde, "robots.txt savunması" olarak bilinen savunmada kullanıldı ve temel olarak savunuldu; çoğu Google'ı içeren bu kısa dava listesine ve bundan pek memnun olmayan 2007 tarihli bu yazıya bakın.

LLM'ler arama motorları değildir

Bir LLM'nin bir arama motorundan farklı bir canavar olduğu artık çok açık olmalıdır.

Bir dil modelinin yanıtı, içeriği modeli eğitmek için kullanılan web sitelerine doğrudan işaret etmez. Arama motorlarında gördüğümüz gibi ekonomik bir alışveriş yok ve bu yüzden birçok yayıncı (ve yazar) üzülüyor.

Doğrudan kaynak alıntılarının olmaması, bir arama motoru ile bir LLM arasındaki temel farktır ve çok yaygın olan "Google ve Bing'in içeriği kazımasına neden OpenAI'ye izin verilmemeli?" sorusunun yanıtıdır. (Bu sorunun daha kibar bir ifadesini kullanıyorum.).

Google ve Bing, üretici yapay zeka yanıtlarında kaynak bağlantılarını göstermeye çalışıyor, ancak bu kaynaklar gösteriliyorsa bile tam bir set değil.

Bu, ilgili bir soruyu açar: Bir web sitesi, karşılığında hiçbir şey alamıyorsa, içeriğinin bir dil modeli eğitmek için kullanılmasına neden izin versin?

Bu çok iyi bir soru ve muhtemelen toplum olarak cevaplamamız gereken en önemli soru.

LLM'lerin, mevcut nesil LLM'lerdeki (halüsinasyonlar, insan operatörlere yalan söyleme ve önyargılar gibi) büyük eksikliklerine rağmen faydaları vardır ve bu faydalar, eksiklikler giderildikçe zamanla artacaktır.

Ancak bu tartışma için önemli olan nokta, açık web'in şu anda nasıl işlediğine dair temel bir dayanağın LLM'ler için uygun olmadığını fark etmektir.

kalitesizlik

Görünüşe göre bu, yalnızca kendi ekonomik çıkarları için büyük modelleri eğitmekle ilgilenen AI şirketleri için bir sorun değil.

OpenAI, eğitim verisi girdileri olarak çeşitli veri kümelerini kullandı (GPT3 için ayrıntılar burada) ve OpenAI kasıtlı olarak GPT4 için eğitim veri kümelerini ifşa etmiyor.

OpenAI, GPT4'ün eğitim verileri (burada tartışılmıştır) hakkında bilgi vermemeyi haklı çıkarmak için birçok argüman kullansa da bizim için kilit nokta şu: Onu eğitmek için hangi içeriğin kullanıldığını bilmiyoruz ve OpenAI bunu ChatGPT yanıtlarında göstermiyor.

OpenAI'nin veri toplaması Robotları Hariç Tutma Protokolüne uyuyor mu? Ders kitapları veya diğer kitaplar gibi telif hakkıyla korunan metin içeriyor mu? Herhangi bir web sitesinden veya yayıncıdan izin aldılar mı? Söylemiyorlar.

Brave Software'in süper gölgeli yaklaşımı

OpenAI'nin yaklaşımı sorunluysa, Brave Software (Brave tarayıcısının ve Brave arama motorunun üreticisi), arama ve AI eğitim verileri söz konusu olduğunda daha da sorunlu bir yaklaşım ve duruş sergiliyor.

Cesur arama motoru, büyük ölçüde Web Keşfi Projesi olarak adlandırılan şeye bağlıdır. Yaklaşım oldukça ayrıntılı ve burada belgelenmiştir, ancak önemli bir gerçeğin altını çizeceğim: Brave'in çalıştırdıkları merkezi bir tarayıcı yok gibi görünüyor ve taramaların hiçbiri kendilerini Brave için tarayıcı olarak tanımlamıyor ve (bunun için oturun) Brave kazınmış içeriği, Brave'in alıcıya AI eğitimi için verdiği haklarla satar.

Bu cümlede çok şey var, o yüzden onu çözümleyelim.

Brave arama, dağıtılmış tarayıcı olarak Brave tarayıcısını kullanır. Bu yardım makalesinde belgelendiği gibi, şu SSS sorusu ve yanıtı vardır:

Web Discovery Project bir tarayıcı mı?

Bir bakıma evet. Web Discovery Project, getirme işlerini Brave'in web tarayıcısından işler. Her birkaç saniyede veya dakikada bir, tarayıcıya bir web sayfası getirmesi ve HTML'yi Brave'e geri göndermesi talimatı verilebilir . Ancak, bu getirmenin göz atma geçmişiniz veya tanımlama bilgileriniz üzerinde hiçbir etkisi yoktur; özel bir getirme API çağrısı olarak yapılır. Ekstra güvenlik için getirme işi etki alanları, zararsız ve saygın etki alanlarından oluşan küçük bir kümeden önceden seçilir.

Web Keşif Projesi nedir? – Cesur Arama

Fetch API, Brave'in kullandığı da dahil olmak üzere modern tarayıcı motorlarında yerleşik olarak bulunan bir web standardı işlevidir. Yaygın kullanımı, tarayıcıda kullanıcılara gösterilecek içeriği getirmektir. Amaçlarımız açısından, web sitesinin içeriğini Brave'in arama motoru adına talep eden kullanıcının tarayıcısı olduğunu hemen anlarız.

İlginç bir şekilde, Haziran 2021 tarihli bir Reddit dizisi daha fazla ayrıntı ve kafa karışıklığı ekliyor. Bir Brave temsilcisinden gelen bir yanıt çok ilginç (benimkini öne çıkarıyor):

Kendi tarayıcımız var, ancak potansiyel ayrımcılığı önlemek için bir kullanıcı aracısı dizesi içermiyor (tıpkı tarayıcı Brave'in de benzersiz bir kullanıcı aracısı dizesi içermemesi gibi). Bununla birlikte, mülklerine ne zaman/nereye indiğini bilmek isteyen yöneticilere tarayıcıyı potansiyel olarak tanımlamaktan bahsettik. Ayrıca robots.txt dosyasına da saygı duyuyoruz , dolayısıyla Brave Search'ün sitenizi taramasını istemiyorsanız taramaz.

Bu bir gerçekler altın madeni:

  1. Merkezi bir tarayıcıya veya dağıtılmış tarayıcı tabanlı Web Keşif Projesine atıfta bulunabilecek kendi tarayıcılarına sahipler.
  2. Bu tarayıcı kendisini bir tarayıcı olarak tanımlamaz, ancak bir şekilde Robotları Hariç Tutma Protokolüne (robots.txt dosyası biçiminde) uyar. Tarayıcı kendini tanımlamıyorsa, bir web sitesi operatörü nasıl bir robot dışlama yönergesi yazabilir? Robots.txt dosyasında Brave's crawler'a özgü yönergeleri belirtmek için hangi kullanıcı aracısı belirteci (adlandırıldığı gibi) kullanılır? Brave'den herhangi bir belge bulamadım.
  3. Ayrımcılık dedikleri şey aslında yayıncıların taramayı nasıl kontrol edeceğidir. Robotları Hariç Tutma Protokolü, yayıncıların, kullanıcıların ve tarayıcıların erişmesine izin verilenler arasında ayrım yapmasına ve farklı tarayıcılar arasında ayrım yapmasına (örneğin, Bingbot'un tarama yapmasına izin verip Googlebot'un vermemesine) yönelik bir mekanizmadır. Brave, ayrımcılıktan kaçınmak istediklerini iddia ederek, aslında neyi tarayacaklarına ve dizine ekleyeceklerine yayıncının değil, kendilerinin karar vereceğini söylüyor.

Fetch API'ye geri dönersek: Varsayılan olarak Fetch API, tarayıcının kullanıcı aracısı dizesini kullanır. Brave tarayıcısının kendisini benzersiz bir kullanıcı aracısı başlığıyla tanımlamadığını, bunun yerine temeldeki tarayıcı motoru tarafından üretilen genel kullanıcı aracısı dizesini kullandığını zaten biliyoruz.

Kullanıcı aracısı dizesi, genel olarak tarayıcı ve Fetch API için özelleştirilebilir, ancak Brave'in bunu yaptığına dair herhangi bir gösterge bulamadım (ve aslında, yukarıda belirtilen Reddit yanıtı, benzersiz bir tanımlayıcı olmadığını açıkça söylüyor).

Ayrıca Brave, kazınmış verileri yalnızca arama sonuçları olarak değil (örneğin, bir site arama özelliğini güçlendirmek için) özellikle AI eğitimi için satmaya devam ediyor.

Brave Search API ana sayfasının ziyaret edilmesi, bazıları "AI için Veri" olarak adlandırılanlar da dahil olmak üzere çeşitli fiyat katmanlarını gösterir. Bu veri planları, abonenin "AI modellerini eğitmek için verileri önbelleğe almasına/saklamasına" izin veren "Depolama haklarına sahip veriler" seçeneklerini, "AI için ekstra alternatif snippet'ler" ve "AI çıkarımı için verileri kullanma hakları" dahil olmak üzere veriler içerir. ”

Özetle, Brave'in kamuya açık açıklamalarına ve belge eksikliğine dayanarak, Brave, web'i kontrol etmenin veya engellemenin açık bir yolu olmaksızın gizli bir şekilde tarar ve taranan içeriği yapay zeka eğitimi için yeniden satmaya devam eder.

Veya bunu daha açık bir şekilde yeniden ifade etmek gerekirse, Brave kendisini web sitesi yayıncılarının lisansı veya izni olmadan telif hakkıyla korunan içeriğin kar amacı güden bir distribütörü olarak atadı .

Bu kabul edilebilir mi? Bunu bir hizmet olarak kalitesiz bir kazıyıcı olarak görüyorum.

Google'ın Yayıncı Kontrolleri girişimi

Yakında, özellikle üretken yapay zeka için yeni bir web gezgini türü gelebilir.

Googlebot'un web araması için getirdiği içeriği kullanmanın yapay zeka modellerini eğitmek için uygun olmayabileceğinden, Google'ın yukarıda tartışılan uyumsuzluğu fark ettiği görülüyor.

Google, AI Web Yayıncı Kontrolleri oluşturmak için bir topluluk tartışması başlatmak istediklerini duyurdu (hey, Google, kaydoldum, lütfen beni içeri alın!). Bu sohbetin yapılmasını tüm kalbimle destekliyorum ve Google'ın bu sohbete kapı açtığı için tebrikler.

İlk günlerde olduğumuz için, bu tür kontrollerin varsayılan değerlerinin ve yeteneklerinin başarı veya başarısızlık için kritik öneme sahip olacağını belirtmek önemlidir. Pek çok yayıncı ve yazarın, bu AI kontrollerinin nasıl çalışması gerektiğine dair duymamız gereken güçlü fikirlere sahip olduğundan şüpheleniyorum.

Peki ya açık kaynaklı LLM'ler?

Yukarıdaki argümanın önemli bir yönü ekonomik mübadeledir. Peki ya dil modelinin arkasındaki organizasyon, kendisine fayda sağlamadan modeli özgürce serbest bırakırsa?

Bu tür birçok açık kaynak modeli vardır ve bunlar, ticari tescilli modelleri eğitmek için kullanılan veri kümeleriyle büyük ölçüde örtüşen veri kümeleri üzerinde eğitilirler. Birçok açık kaynak modeli şu anda bazı kullanım durumları için yeterince iyi ve daha da iyiye gidiyorlar.

Yine de: Bir web sitesinin içeriğinin açık kaynaklı LLM eğitimi için izinsiz kullanılması doğru mu?

Bu muhtemelen daha aldatıcı bir soru ve bence yanıt şu anda Robotları Hariç Tutma Protokolünün izin verdiği şeye bağlı. Google'ın AI Web Yayıncı Kontrollerinden veya benzer başka bir girişimden iyi tasarlanmış bir yaklaşım şeklinde daha iyi bir yanıtın ortaya çıkması mümkündür.

Bu alanı izle.

Peki bir yayıncı şimdi ne yapabilir?

Bu mevcut durum, birçok yayıncının ne istemediği ne de kabul ettiği bir durumdur. Ne yapabilirler?

Burada eski okul paletli/bot engellemeye geri dönmemiz gerekiyor. Genellikle iki tür tarayıcı vardır:

  1. Kendilerini tanımlayan tarayıcılar. Robotlar Hariç Tutma Protokolüne uyabilir veya uymayabilir, ancak en azından sunucunun, isteğin engellenip engellenmeyeceğine karar vermek için kontrol etmesi gereken bir tanımlayıcısı vardır. Örnekler arasında Googlebot ve Bingbot bulunur.
  2. Kibar arama motorları için kullanılmayan gizli tarayıcılar. Kendilerini tanıtmazlar ve/veya Robotları Hariç Tutma Protokolüne uymazlar. Örnekler, herhangi bir komut dosyası çocuğunun spam kazıyıcısı veya Cesur Arama'nın tarayıcısıdır.

Yapabileceğiniz iki tamamlayıcı şey vardır:

  1. Tarayıcı, Robotlar Hariç Tutma Protokolü'ne uyuyorsa, taradığı içeriğin AI eğitim verilerini beslediğini düşünüyorsanız onu engelleyebilirsiniz. Burada iki yaklaşım vardır:
    • Tüm tarayıcıları engelleyin ve yalnızca ihtiyaçlarınız için izin vermek istediklerinize (Googlebot ve Bingbot gibi) izin verin. Bu, bir web sitesinin organik aramadaki performansı için tehlikelidir. Bununla son derece dikkatli olmanız gerekir, ancak bu sürüngenler için etkilidir.
    • Tüm taramaya izin verin ve engellemek istediklerinizi engelleyin. Bu daha müsamahakar yaklaşım daha az tehlikelidir, ancak elbette içeriğiniz yapay zeka veya istemediğiniz diğer tarayıcılar tarafından kazınabilir.
  2. Bir sunucu tarafı gizli bot dedektörü kullanın ve bu tarayıcıları engellemek için kullanın. Birçok ürün bunu yapabilir. Pek çok yayıncının yaptığı gibi bir içerik dağıtım ağı (CDN) kullanıyorsanız, bu tür işlevselliklere büyük olasılıkla bu ağ aracılığıyla erişilebilir (örn. Akamai, Cloudflare, Fastly).

Çalıştırdığım ve müşterilerle tartıştığım web sitelerinde benimsemeye başladığım yaklaşım, (1a) ve (2) seçeneklerinin bir kombinasyonu, yani CDN kontrolleriyle birlikte kısıtlayıcı bir robots.txt dosyası kullanmaktır.

Bu, her yayıncı için en iyi yaklaşım olmayabilir, ancak bence ciddi olarak düşünmeye değer.

Bütün bunlar ne anlama geliyor?

Tarihin en etkili dönemlerinden biri olarak geçecek zamanlardan geçiyoruz. İnsanlar kelimenin tam anlamıyla insanlığın kıyametini yapay zekadan tahmin ediyorlar. Geleceğin şekillenmesinde hepimizin oynayacağı bir rol var.

Orijinal içeriğin yaratıcıları olarak kendi payımıza, nasıl yanıt vereceğimizi düşünmeli ve sektörün bu hızlı hareket eden kısmına ayak uydurup uyum sağlamalıyız. Yazdığımız içeriğin nasıl oluşturulacağına, dağıtılacağına ve tüketileceğine karar vermek artık strateji, teknoloji, finans, etik ve daha fazlasının karmaşık bir karışımı.

Nasıl karşılık verirseniz verin, tarihi bir anda tavır alıyorsunuz. Yükünü hissediyorum.


Bu makalede ifade edilen görüşler konuk yazara aittir ve mutlaka Search Engine Land değildir. Personel yazarları burada listelenir.