Robots.txt nu este răspunsul: propunerea unei noi metaetichete pentru LLM/AI

Publicat: 2023-07-18

În timp ce Google deschide discuția cu privire la acordarea de credit și aderarea la drepturile de autor atunci când antrenează modele lingvistice mari (LLM) pentru produse AI generative, se concentrează pe fișierul robots.txt.

Cu toate acestea, după părerea mea, acesta este instrumentul greșit la care să te uiți.

Fostul meu coleg Pierre Far a scris un articol excelent despre crawlerele, motoarele de căutare și nenorocirea companiilor generative de inteligență artificială, unde a evidențiat unele dintre provocările imense cu care se confruntă în prezent industria publicării online. Similar cu articolul său, voi menține această propunere la nivel înalt, deoarece evoluțiile în acest domeniu sunt extrem de rapide.

De ce să nu folosiți robots.txt

Există câteva motive pentru care utilizarea robots.txt este punctul de plecare greșit pentru discuția despre cum să respectați drepturile de autor ale editorilor.

Nu toate LLM-urile folosesc crawler-uri și se identifică

Sarcina de a identifica și de a bloca crawlerele individuale revine operatorului site-ului web, care își pot folosi și/sau vinde datele pentru produse AI generative. Acest lucru creează multă muncă suplimentară (și inutilă), în special pentru editorii mai mici.

Aceasta presupune, de asemenea, că editorul are acces de editare la fișierul robots.txt, ceea ce nu este întotdeauna cazul soluțiilor găzduite.

Aceasta nu este o soluție durabilă, deoarece numărul de crawler continuă să crească

Dimensiunea de fișier utilizabilă a unui fișier robots.txt este limitată la 500 kb, conform noului standard robots.txt propus.

Aceasta înseamnă că un editor mare poate întâmpina probleme cu fișierul robots.txt dacă trebuie să blocheze o mulțime de crawler-uri LLM și/sau modele de adrese URL rafinate, pe lângă alți roboți.

O abordare „totul sau nimic” este inacceptabilă

Pentru crawlerele mai mari, cum ar fi Googlebot și Bingbot, nu se poate face nicio distincție între datele utilizate pentru paginile cu rezultate ale motoarelor de căutare (în mod tradițional, acolo unde există un „acord“ între editor și motorul de căutare sub forma unei „citații“ la originalul sursă) și produse AI generative.

Blocarea Googlebot sau Bingbot pentru produsele lor generative AI blochează, de asemenea, orice vizibilitate potențială în rezultatele căutării respective. Aceasta este o situație inacceptabilă în care editorul este forțat să aleagă între „totul sau nimic”.

Robots.txt se referă la gestionarea crawlingului, în timp ce discuția despre drepturile de autor se referă la modul în care sunt utilizate datele

Acesta din urmă este despre faza de indexare/procesare. Ca atare, robots.txt nu este cu adevărat relevant pentru această discuție, ci mai degrabă o ultimă soluție dacă nimic altceva nu funcționează și nu ar trebui să fie într-adevăr punctul de plecare al acestei discuții.

Fișierele Robots.txt funcționează bine pentru crawler-uri și nu trebuie schimbate în scopul LLM-urilor. Da, crawlerele LLM trebuie să se identifice, dar despre ce trebuie să vorbim cu adevărat este indexarea/procesarea datelor accesate cu crawlere.

Reinventezi roata

Din fericire, web-ul are deja câteva soluții bine stabilite care pot fi folosite pentru gestionarea utilizării datelor în ceea ce privește drepturile de autor. Se numește Creative Commons.

Majoritatea licențelor Creative Commons ar funcționa bine în scopul LLM-urilor. Pentru a ilustra:

  • CC0 permite LLM-urilor să distribuie, să remixe, să adapteze și să construiască pe baza materialului în orice mediu sau format, fără condiții.
  • CC BY permite LLM-urilor să distribuie, să remixe, să adapteze și să construiască pe baza materialului în orice mediu sau format, atâta timp cât atribuirea este acordată creatorului. Licența permite utilizarea comercială, dar meritul trebuie acordat creatorului.
  • CC BY-SA permite LLM-urilor să distribuie, să remixe, să adapteze și să construiască pe baza materialului în orice mediu sau format, atâta timp cât atribuirea este atribuită creatorului. Licența permite utilizarea comercială. Dacă LLM-urile remixează, adaptează sau construiesc pe baza materialului, trebuie să licențieze materialul modificat în condiții identice.
  • CC BY-NC permite LLM-urilor să distribuie, să remixe, să adapteze și să dezvolte materialul în orice mediu sau format în scopuri necomerciale numai atâta timp cât atribuirea este atribuită creatorului.
  • CC BY-NC-SA permite LLM-urilor să distribuie, să remixe, să adapteze și să dezvolte materialul în orice mediu sau format în scopuri necomerciale numai atâta timp cât atribuirea este atribuită creatorului. Dacă LLM-urile remixează, adaptează sau construiesc pe baza materialului, ei trebuie să licențieze materialul modificat în condiții identice.
  • CC BY-ND permite LLM-urilor să copieze și să distribuie materialul în orice mediu sau format într-o formă neadaptată numai atâta timp cât atribuirea este acordată creatorului. Licența permite utilizarea comercială și creditul trebuie acordat creatorului, dar nu sunt permise derivate sau adaptări ale operei.
  • CC BY-NC-ND permite LLM-urilor să copieze și să distribuie materialul în orice mediu sau format numai în formă neadaptată, numai în scopuri necomerciale și atâta timp cât atribuirea este atribuită creatorului și nu sunt permise derivate sau adaptări ale lucrării.

Este puțin probabil ca ultimele două licențe să fie utilizabile pentru LLM-uri.

Cu toate acestea, primele cinci licențe înseamnă că LLM-urile trebuie să ia în considerare modul în care utilizează datele accesate cu crawlere/obținute și să se asigure că respectă cerințele impuse utilizării datelor de la editori, cum ar fi atribuirea și atunci când partajează produsul construit pe baza datelor.

Acest lucru ar pune povara celor „puțină” LLM-uri din lume, în loc de „mulți” editori.

Primele trei licențe acceptă și utilizarea „tradițională” a datelor, de exemplu, în rezultatele motoarelor de căutare, unde atribuirea/creditul este dat prin link-ul către site-ul original. În timp ce a patra și a cincea licență sprijină și cercetarea și dezvoltarea pentru LLM-uri open-source.

Notă secundară: rețineți că toate aceste companii de software care construiesc LLM-uri folosesc adesea software open-source unde au aceleași provocări privind licențele de drepturi de autor în ceea ce privește bibliotecile de software și sistemele de operare pe care le folosesc pentru a evita încălcările drepturilor de autor la nivel de cod. Deci, de ce să reinventăm roata când putem folosi un sistem similar pentru datele procesate de acest cod?

Metaeticheta este calea

Odată ce un editor a identificat o licență adecvată, această licență trebuie în continuare comunicată. Din nou, aici robots.txt pare să fie o abordare greșită.

Doar pentru că o pagină ar trebui să fie blocată de accesarea cu crawlere pentru motoarele de căutare nu înseamnă că nu poate fi folosită sau nu este utilă pentru LLM. Acestea sunt două cazuri de utilizare diferite.

Ca atare, pentru a separa aceste cazuri de utilizare și pentru a permite o abordare mai rafinată, dar și mai ușoară pentru editori, vă recomand să folosim în schimb o metaetichetă.

Metaetichetele sunt bucăți de cod care pot fi inserate la nivel de pagină, în cadrul unei teme sau al conținutului (știu, acest lucru nu este corect din punct de vedere tehnic, dar HTML este suficient de îngăduitor și poate fi folosit ca ultimă soluție atunci când un editor are acces limitat la baza de cod). Acestea nu necesită ca editorul să aibă drepturi de acces suplimentare, altele decât posibilitatea de a edita HTML-ul conținutului publicat.

Utilizarea metaetichetelor nu oprește accesarea cu crawlere, cum ar fi meta noindex. Cu toate acestea, vă permite să comunicați drepturile de utilizare a datelor publicate.

Și, deși există etichete de drepturi de autor existente care pot fi utilizate – în special de la Dublin Core, standardul de drepturi (propunere abandonată), meta de drepturi de autor (se concentrează pe numele proprietarului mai degrabă decât pe licență) și alte încercări – implementarea actuală a acestea de pe unele site-uri web pot intra în conflict cu ceea ce încercăm să realizăm aici.

Așadar, poate fi necesară o nouă metaetichetă, deși sunt bucuros să refolosesc și una existentă sau una veche, cum ar fi „standardul drepturilor“. Pentru această discuție, propun următoarea nouă metaetichetă:

 <meta name="usage-rights" content="CC-BY-SA" />

În plus, recomand ca această metaetichetă să fie acceptată și atunci când este utilizată în anteturile HTTP, cum ar fi noindexul acceptat în X-Robots-Tag, pentru a ajuta crawler-ii LLM să-și gestioneze mai bine resursele de accesare cu crawlere (au nevoie doar să verifice anteturile HTTP pentru a valida drepturile de utilizare).

 X-Robots-Tag: usage-rights: CC-BY-SA

Acesta poate fi folosit în combinație cu alte meta-etichete. În exemplul de mai jos, pagina nu trebuie utilizată pentru rezultatele căutării, dar poate fi folosită pentru LLM-uri comerciale, atâta timp cât se acordă credit sursei:

 X-Robots-Tag: usage-rights: CC-BY, noindex

Notă: numele „drepturi de utilizare” pentru metaeticheta este o propunere și poate fi schimbat.

Soluție sigură

Desigur, există crawler-uri și actori răi care își construiesc LLM-urile și produsele AI generative.

Soluția de metaetichetă propusă nu va împiedica utilizarea conținutului în acest fel, dar nici fișierul robots.txt.

Este important să recunoaștem că ambele metode depind de recunoașterea și conformitatea de către companiile care folosesc datele pentru produsele lor AI.

Concluzie

Sperăm că acest articol ilustrează modul în care utilizarea robots.txt pentru gestionarea utilizării datelor în LLM-uri este, în opinia mea, abordarea/punctul de pornire greșit pentru a trata utilizarea și drepturile de autor în această nouă eră a LLM-urilor și a produselor AI generative.

Această implementare a metaetichetei le-ar permite editorilor să specifice informațiile despre drepturile de autor la nivel de pagină folosind Creative Commons, fără a împiedica accesarea cu crawlere sau indexarea paginii în alte scopuri (cum ar fi rezultatele motorului de căutare). De asemenea, permite să se facă declarații de drepturi de autor pentru diverse utilizări, inclusiv LLM-uri, produse generative AI și potențiale viitoare produse AI.


Opiniile exprimate în acest articol sunt cele ale autorului invitat și nu neapărat Search Engine Land. Autorii personalului sunt enumerați aici.