Robots.txt não é a resposta: Propondo uma nova meta tag para LLM/AI

Publicados: 2023-07-18

Enquanto o Google está abrindo a discussão sobre dar crédito e aderir aos direitos autorais ao treinar modelos de linguagem grande (LLMs) para produtos de IA generativos, seu foco está no arquivo robots.txt.

No entanto, na minha opinião, esta é a ferramenta errada para se olhar.

Meu ex-colega Pierre Far escreveu um excelente artigo sobre Crawlers, mecanismos de busca e as empresas de IA generativas, onde destacou alguns dos imensos desafios enfrentados atualmente pela indústria de publicação online. Semelhante ao seu artigo, manterei esta proposta de alto nível, pois os desenvolvimentos neste campo são extremamente rápidos.

Por que não usar robots.txt

Existem algumas razões pelas quais usar robots.txt é o ponto de partida errado para a discussão sobre como respeitar os direitos autorais dos editores.

Nem todos os LLMs usam rastreadores e se identificam

O ônus recai sobre o operador do site para identificar e bloquear rastreadores individuais, que podem usar e/ou vender seus dados para produtos generativos de IA. Isso cria muito trabalho extra (e desnecessário), especialmente para editoras menores.

Isso também pressupõe que o editor tenha acesso de edição ao arquivo robots.txt, o que nem sempre é o caso de soluções hospedadas.

Esta não é uma solução sustentável, pois o número de crawlers continua a crescer

O tamanho utilizável de um arquivo robots.txt é limitado a 500 kb, de acordo com o novo padrão robots.txt proposto.

Isso significa que um grande editor pode ter problemas com seu arquivo robots.txt se precisar bloquear vários rastreadores LLM e/ou padrões de URL refinados, além de outros bots.

Uma abordagem de 'tudo ou nada' é inaceitável

Para rastreadores maiores como o Googlebot e o Bingbot, nenhuma distinção pode ser feita entre os dados usados para as páginas de resultados do mecanismo de pesquisa (tradicionalmente onde há um "acordo" entre o editor e o mecanismo de pesquisa na forma de uma "citação" ao original fonte) e produtos de IA generativos.

Bloquear o Googlebot ou o Bingbot para seus produtos de IA generativos também bloqueia qualquer visibilidade potencial em seus respectivos resultados de pesquisa. Esta é uma situação inaceitável em que o editor é forçado a fazer uma escolha entre “tudo ou nada”.

Robots.txt é sobre gerenciamento de rastreamento, enquanto a discussão de direitos autorais é sobre como os dados são usados

O último é sobre a fase de indexação/processamento. Como tal, robots.txt não é realmente relevante para esta discussão, mas sim um último recurso se nada mais funcionar e realmente não deve ser o ponto de partida desta discussão em particular.

Os arquivos robots.txt funcionam bem para rastreadores e não precisam ser alterados para fins de LLMs. Sim, os rastreadores LLM precisam se identificar, mas o que realmente precisamos falar é sobre a indexação/processamento dos dados rastreados.

Reinventando a roda

Felizmente, a web já possui algumas soluções bem estabelecidas que podem ser utilizadas para gerenciar o uso de dados no que diz respeito aos direitos autorais. Chama-se Creative Commons.

A maioria das licenças Creative Commons serviriam bem para fins de LLMs. Ilustrar:

O CC0 permite que os LLMs distribuam, remixem, adaptem e desenvolvam o material em qualquer meio ou formato sem condições.
A CC BY permite que os LLMs distribuam, remixem, adaptem e desenvolvam o material em qualquer meio ou formato, desde que a atribuição seja dada ao criador. A licença permite o uso comercial, mas o crédito deve ser dado ao criador.
A CC BY-SA permite que os LLMs distribuam, remixem, adaptem e desenvolvam o material em qualquer meio ou formato, desde que a atribuição seja dada ao criador. A licença permite o uso comercial. Se os LLMs remixarem, adaptarem ou desenvolverem o material, devem licenciar o material modificado sob termos idênticos.
O CC BY-NC permite que os LLMs distribuam, remixem, adaptem e desenvolvam o material em qualquer meio ou formato para fins não comerciais apenas desde que a atribuição seja dada ao criador.
CC BY-NC-SA permite que os LLMs distribuam, remixem, adaptem e construam sobre o material em qualquer meio ou formato para fins não comerciais apenas desde que a atribuição seja dada ao criador. Se os LLMs remixarem, adaptarem ou desenvolverem o material, eles devem licenciar o material modificado sob termos idênticos.
CC BY-ND permite que os LLMs copiem e distribuam o material em qualquer meio ou formato de forma não adaptada, desde que a atribuição seja dada ao criador. A licença permite o uso comercial e o crédito deve ser dado ao criador, mas nenhum derivado ou adaptação da obra é permitido.
CC BY-NC-ND permite que os LLMs copiem e distribuam o material em qualquer meio ou formato apenas em formato não adaptado, apenas para fins não comerciais, e desde que a atribuição seja dada ao criador e nenhum derivado ou adaptação do trabalho seja permitido.

É improvável que as duas últimas licenças sejam usadas para LLMs.

No entanto, as cinco primeiras licenças significam que os LLMs precisam considerar como usam os dados rastreados/obtidos e garantir que cumpram os requisitos impostos ao usar os dados dos editores, como atribuição e ao compartilhar o produto criado com base nos dados.

Isso colocaria o fardo sobre os “poucos” LLMs no mundo, em vez dos “muitos” editores.

As três primeiras licenças também suportam o uso “tradicional” dos dados, por exemplo, em resultados de mecanismos de busca onde a atribuição/crédito é dado através do link para o site original. Enquanto a quarta e a quinta licença também oferecem suporte à pesquisa e desenvolvimento de LLMs de código aberto.

Observação lateral: lembre-se de que todas essas empresas de software que constroem LLMs geralmente usam software de código aberto, onde têm os mesmos desafios de licença de direitos autorais em relação às bibliotecas de software e sistemas operacionais que usam para evitar violações de direitos autorais em nível de código. Então, por que reinventar a roda quando podemos usar um sistema semelhante para os dados que esse código processa?

A meta tag é o caminho

Depois que um editor identifica uma licença apropriada, essa licença ainda precisa ser comunicada. Novamente, é aqui que o robots.txt parece ser a abordagem errada.

Só porque uma página deve ser impedida de rastrear para mecanismos de pesquisa, não significa que ela não possa ser usada ou não seja útil para LLMs. Estes são dois casos de uso diferentes.

Dessa forma, para separar esses casos de uso e permitir uma abordagem mais refinada, mas também mais fácil para os editores, recomendo o uso de uma metatag.

Meta tags são pedaços de código que podem ser inseridos em nível de página, dentro de um tema ou conteúdo (eu sei, isso não é tecnicamente correto, mas o HTML perdoa o suficiente e pode ser usado como último recurso quando um editor tem acesso limitado para a base de código). Eles não exigem que o editor tenha direitos de acesso adicionais além de poder editar o HTML do conteúdo publicado.

O uso de meta tags não interrompe o rastreamento, como o meta noindex. No entanto, permite comunicar os direitos de utilização dos dados publicados.

E embora existam marcas de direitos autorais que podem ser usadas – notadamente do Dublin Core, rights-standard (proposta abandonada), copyright-meta (foca no nome do proprietário em vez da licença) e outras tentativas – a atual implementação existente de estes em alguns sites podem entrar em conflito com o que tentamos realizar aqui.

Portanto, uma nova meta tag pode ser necessária, embora eu também tenha prazer em reutilizar uma já existente ou antiga, como “rights-standard“. Para esta discussão, estou propondo a seguinte nova meta tag:

 <meta name="usage-rights" content="CC-BY-SA" />

Além disso, recomendo que essa meta tag também seja suportada quando usada em cabeçalhos HTTP, como o noindex é suportado em X-Robots-Tag, para ajudar os rastreadores de LLMs a gerenciar melhor seus recursos de rastreamento (eles só precisam verificar os cabeçalhos HTTP para validar os direitos de uso).

 X-Robots-Tag: usage-rights: CC-BY-SA

Isso pode ser usado em combinação com outras meta tags. No exemplo abaixo, a página não deve ser usada para resultados de pesquisa, mas pode ser usada para LLMs comerciais, desde que seja dado crédito à fonte:

 X-Robots-Tag: usage-rights: CC-BY, noindex

Nota: O nome “direitos de uso” para a meta tag é uma proposta e pode ser alterado.

Solução infalível

Concedido, existem rastreadores ruins e atores ruins construindo seus LLMs e produtos de IA generativos.

A solução de meta tag proposta não impedirá que o conteúdo seja usado dessa forma, mas o arquivo robots.txt também não.

É importante reconhecer que ambos os métodos dependem do reconhecimento e cumprimento pelas empresas que utilizam os dados para seus produtos de IA.

Conclusão

Espero que este artigo ilustre como o uso de robots.txt para gerenciar o uso de dados em LLMs é, na minha opinião, a abordagem/ponto de partida errado para lidar com uso e direitos autorais nesta nova era de LLMs e produtos de IA generativos.

Essa implementação de metatag permitiria que os editores especificassem informações de direitos autorais no nível da página usando o Creative Commons, sem impedir que a página fosse rastreada ou indexada para outros fins (como resultados de mecanismos de pesquisa). Ele também permite que declarações de direitos autorais sejam feitas para vários usos, incluindo LLMs, produtos generativos de IA e possíveis futuros produtos de IA.

As opiniões expressas neste artigo são do autor convidado e não necessariamente do Search Engine Land. Os autores da equipe estão listados aqui.

Adicione Search Engine Land ao seu feed do Google Notícias.