Robots.txt non è la risposta: proporre un nuovo meta tag per LLM/AI

Pubblicato: 2023-07-18

Mentre Google sta aprendo la discussione sulla concessione di crediti e sul rispetto del copyright durante l'addestramento di modelli di linguaggi di grandi dimensioni (LLM) per prodotti di intelligenza artificiale generativa, il loro focus è sul file robots.txt.

Tuttavia, a mio parere, questo è lo strumento sbagliato da guardare.

Il mio ex collega Pierre Far ha scritto un eccellente articolo su Crawler, motori di ricerca e lo squallore delle società di intelligenza artificiale generativa in cui ha evidenziato alcune delle immense sfide che attualmente l'industria dell'editoria online deve affrontare. Analogamente al suo articolo, manterrò questa proposta di alto livello poiché gli sviluppi in questo campo sono estremamente rapidi.

Perché non utilizzare robots.txt

Ci sono alcuni motivi per cui l'utilizzo di robots.txt è il punto di partenza sbagliato per la discussione su come rispettare il copyright degli editori.

Non tutti gli LLM utilizzano i crawler e si identificano

Spetta al gestore del sito web identificare e bloccare i singoli crawler, che potrebbero utilizzare e/o vendere i propri dati per prodotti di intelligenza artificiale generativa. Questo crea molto lavoro extra (e non necessario), soprattutto per gli editori più piccoli.

Ciò presuppone inoltre che l'editore disponga dell'accesso in modifica al proprio file robots.txt, il che non è sempre il caso delle soluzioni ospitate.

Questa non è una soluzione sostenibile poiché il numero di crawler continua a crescere

La dimensione del file utilizzabile di un file robots.txt è limitata a 500 kb, secondo lo standard robots.txt recentemente proposto.

Ciò significa che un grande editore potrebbe riscontrare problemi con il proprio file robots.txt se ha bisogno di bloccare molti crawler LLM e/o pattern URL perfezionati oltre ad altri bot.

Un approccio "tutto o niente" è inaccettabile

Per i crawler più grandi come Googlebot e Bingbot, non è possibile fare alcuna distinzione tra i dati utilizzati per le pagine dei risultati dei motori di ricerca (tradizionalmente dove esiste un "accordo" tra l'editore e il motore di ricerca sotto forma di "citazione" all'originale fonte) e prodotti di intelligenza artificiale generativa.

Il blocco di Googlebot o Bingbot per i loro prodotti di intelligenza artificiale generativa blocca anche qualsiasi potenziale visibilità nei rispettivi risultati di ricerca. Questa è una situazione inaccettabile in cui l'editore è costretto a fare una scelta tra "tutto o niente".

Robots.txt riguarda la gestione della scansione, mentre la discussione sul copyright riguarda l'utilizzo dei dati

Quest'ultimo riguarda la fase di indicizzazione/elaborazione. In quanto tale, robots.txt non è realmente rilevante per questa discussione, ma piuttosto un'ultima risorsa se nient'altro funziona e non dovrebbe davvero essere il punto di partenza di questa particolare discussione.

I file Robots.txt funzionano correttamente per i crawler e non devono essere modificati ai fini degli LLM. Sì, i crawler LLM devono identificarsi, ma ciò di cui dobbiamo veramente parlare è l'indicizzazione/elaborazione dei dati sottoposti a scansione.

Reinventare la ruota

Fortunatamente, il Web dispone già di alcune soluzioni consolidate che possono essere utilizzate per gestire l'utilizzo dei dati in relazione ai diritti d'autore. Si chiama Creative Commons.

La maggior parte delle licenze Creative Commons andrebbe bene ai fini degli LLM. Illustrare:

  • CC0 consente agli LLM di distribuire, remixare, adattare e sviluppare il materiale in qualsiasi supporto o formato senza condizioni.
  • CC BY consente agli LLM di distribuire, remixare, adattare e sviluppare il materiale in qualsiasi mezzo o formato, purché l'attribuzione sia data al creatore. La licenza consente l'uso commerciale, ma il credito deve essere dato al creatore.
  • CC BY-SA consente agli LLM di distribuire, remixare, adattare e sviluppare il materiale in qualsiasi mezzo o formato, purché l'attribuzione sia data al creatore. La licenza consente l'uso commerciale. Se LLM remixa, adatta o costruisce sul materiale, deve concedere in licenza il materiale modificato a condizioni identiche.
  • CC BY-NC consente agli LLM di distribuire, remixare, adattare e sviluppare il materiale in qualsiasi supporto o formato per scopi non commerciali solo a condizione che l'attribuzione sia data al creatore.
  • CC BY-NC-SA consente agli LLM di distribuire, remixare, adattare e sviluppare il materiale in qualsiasi supporto o formato per scopi non commerciali solo a condizione che l'attribuzione sia data al creatore. Se gli LLM remixano, adattano o costruiscono sul materiale, devono concedere in licenza il materiale modificato a condizioni identiche.
  • CC BY-ND consente agli LLM di copiare e distribuire il materiale in qualsiasi supporto o formato in forma non adattata solo a condizione che l'attribuzione sia data al creatore. La licenza consente l'uso commerciale e il credito deve essere dato al creatore, ma non sono consentiti derivati ​​o adattamenti dell'opera.
  • CC BY-NC-ND consente agli LLM di copiare e distribuire il materiale in qualsiasi supporto o formato solo in forma non adattata, solo per scopi non commerciali e purché l'attribuzione sia data al creatore e non siano consentiti derivati ​​o adattamenti dell'opera.

È improbabile che le ultime due licenze siano utilizzabili per gli LLM.

Tuttavia, le prime cinque licenze implicano che gli LLM devono considerare il modo in cui utilizzano i dati scansionati/ottenuti e assicurarsi di aderire ai requisiti imposti sull'utilizzo dei dati dagli editori, come l'attribuzione e la condivisione del prodotto basato sui dati.

Ciò metterebbe l'onere sui "pochi" LLM nel mondo invece che sui "molti" editori.

Le prime tre licenze supportano anche l'utilizzo "tradizionale" dei dati, ad esempio nei risultati dei motori di ricerca in cui l'attribuzione/credito viene fornito tramite il collegamento al sito Web originale. Mentre la quarta e la quinta licenza supportano anche la ricerca e lo sviluppo per LLM open source.

Nota a margine: tieni presente che tutte queste società di software che costruiscono LLM utilizzano spesso software open source in cui hanno le stesse sfide di licenza di copyright per quanto riguarda le librerie software e i sistemi operativi che utilizzano per evitare violazioni del copyright a livello di codice. Allora perché reinventare la ruota quando possiamo usare un sistema simile per i dati elaborati da questo codice?

Il meta tag è la strada

Una volta che un editore ha identificato una licenza appropriata, questa licenza deve ancora essere comunicata. Ancora una volta, è qui che robots.txt sembra essere l'approccio sbagliato.

Solo perché una pagina deve essere bloccata dalla scansione per i motori di ricerca non significa che non possa essere utilizzata o non sia utile per gli LLM. Questi sono due diversi casi d'uso.

Pertanto, per separare questi casi d'uso e consentire un approccio più raffinato ma anche più semplice per gli editori, consiglio di utilizzare invece un meta tag.

I meta tag sono pezzi di codice che possono essere inseriti a livello di pagina, all'interno di un tema o del contenuto (lo so, questo non è tecnicamente corretto, ma l'HTML è abbastanza indulgente e può essere utilizzato come ultima risorsa quando un editore ha un accesso limitato alla base di codice). Non richiedono all'editore di disporre di diritti di accesso aggiuntivi oltre alla possibilità di modificare l'HTML del contenuto pubblicato.

L'uso dei meta tag non interrompe la scansione, come il meta noindex. Tuttavia, consente di comunicare i diritti di utilizzo dei dati pubblicati.

E sebbene esistano tag di copyright esistenti che possono essere utilizzati, in particolare da Dublin Core, rights-standard (proposta abbandonata), copyright-meta (si concentra sul nome del proprietario piuttosto che sulla licenza) e altri tentativi, l'attuale implementazione esistente di questi su alcuni siti Web potrebbero essere in conflitto con ciò che cerchiamo di realizzare qui.

Quindi potrebbe essere necessario un nuovo meta tag, anche se sono felice di riutilizzarne uno esistente o vecchio, come "rights-standard". Per questa discussione, sto proponendo il seguente nuovo meta tag:

 <meta name="usage-rights" content="CC-BY-SA" />

Inoltre, raccomando che questo meta tag sia supportato anche quando utilizzato nelle intestazioni HTTP, come noindex è supportato in X-Robots-Tag, per aiutare i crawler LLM a gestire meglio le proprie risorse di scansione (devono solo controllare le intestazioni HTTP per convalidare i diritti di utilizzo).

 X-Robots-Tag: usage-rights: CC-BY-SA

Questo può essere utilizzato in combinazione con altri meta tag. Nell'esempio seguente, la pagina non deve essere utilizzata per i risultati di ricerca, ma può essere utilizzata per LLM commerciali a condizione che venga data credito alla fonte:

 X-Robots-Tag: usage-rights: CC-BY, noindex

Nota: il nome "diritti di utilizzo" per il meta tag è una proposta e può essere modificato.

Soluzione infallibile

Certo, ci sono cattivi crawler e cattivi attori che costruiscono i loro LLM e prodotti di intelligenza artificiale generativa.

La soluzione di meta tag proposta non impedirà l'utilizzo del contenuto in questo modo, ma nemmeno il file robots.txt.

È importante riconoscere che entrambi i metodi dipendono dal riconoscimento e dalla conformità da parte delle aziende che utilizzano i dati per i loro prodotti di intelligenza artificiale.

Conclusione

Si spera che questo articolo illustri come l'utilizzo di robots.txt per la gestione dell'utilizzo dei dati negli LLM sia, a mio avviso, l'approccio/punto di partenza sbagliato per gestire l'utilizzo e i diritti d'autore in questa nuova era di LLM e prodotti di intelligenza artificiale generativa.

Questa implementazione del meta tag consentirebbe agli editori di specificare le informazioni sul copyright a livello di pagina utilizzando Creative Commons, senza impedire la scansione o l'indicizzazione della pagina per altri scopi (come i risultati dei motori di ricerca). Consente inoltre di effettuare dichiarazioni di copyright per vari usi, inclusi LLM, prodotti di intelligenza artificiale generativa e potenziali prodotti di intelligenza artificiale futuri.


Le opinioni espresse in questo articolo sono quelle dell'autore ospite e non necessariamente Search Engine Land. Gli autori dello staff sono elencati qui.