Robots.txt n'est pas la réponse : proposer une nouvelle balise méta pour LLM/AI

Publié: 2023-07-18

Alors que Google ouvre la discussion sur le crédit et le respect du droit d'auteur lors de la formation de grands modèles de langage (LLM) pour les produits d'IA générative, ils se concentrent sur le fichier robots.txt.

Cependant, à mon avis, ce n'est pas le bon outil à regarder.

Mon ancien collègue Pierre Far a écrit un excellent article sur les Crawlers, les moteurs de recherche et la splendeur des entreprises d'IA générative où il a souligné certains des immenses défis auxquels est actuellement confrontée l'industrie de l'édition en ligne. Semblable à son article, je maintiendrai cette proposition de haut niveau car les développements dans ce domaine sont extrêmement rapides.

Pourquoi ne pas utiliser robots.txt

Il existe plusieurs raisons pour lesquelles l'utilisation de robots.txt n'est pas le bon point de départ pour la discussion sur la manière de respecter le droit d'auteur des éditeurs.

Tous les LLM n'utilisent pas des crawlers et ne s'identifient pas

Il incombe à l'opérateur du site Web d'identifier et de bloquer les robots d'exploration individuels, qui peuvent utiliser et/ou vendre leurs données pour des produits d'IA générative. Cela crée beaucoup de travail supplémentaire (et inutile), en particulier pour les petits éditeurs.

Cela suppose également que l'éditeur dispose d'un accès en modification à son fichier robots.txt, ce qui n'est pas toujours le cas avec les solutions hébergées.

Ce n'est pas une solution durable car le nombre de crawlers ne cesse de croître

La taille de fichier utilisable d'un fichier robots.txt est limitée à 500 Ko, selon la nouvelle norme robots.txt proposée.

Cela signifie qu'un grand éditeur peut rencontrer des problèmes avec son fichier robots.txt s'il doit bloquer un grand nombre de robots d'exploration LLM et/ou des modèles d'URL raffinés en plus d'autres bots.

Une approche « tout ou rien » est inacceptable

Pour les plus grands crawlers comme Googlebot et Bingbot, aucune distinction ne peut être faite entre les données utilisées pour les pages de résultats des moteurs de recherche (traditionnellement, lorsqu'il existe un "accord" entre l'éditeur et le moteur de recherche sous la forme d'une "citation" à l'original source) et des produits d'IA générative.

Le blocage de Googlebot ou Bingbot pour leurs produits d'IA générative bloque également toute visibilité potentielle dans leurs résultats de recherche respectifs. Il s'agit d'une situation inacceptable où l'éditeur est contraint de faire un choix entre « tout ou rien ».

Robots.txt concerne la gestion de l'exploration tandis que la discussion sur le droit d'auteur concerne la manière dont les données sont utilisées.

Ce dernier concerne la phase d'indexation/traitement. En tant que tel, robots.txt n'est pas vraiment pertinent pour cette discussion mais plutôt un dernier recours si rien d'autre ne fonctionne et ne devrait vraiment pas être le point de départ de cette discussion particulière.

Les fichiers Robots.txt fonctionnent correctement pour les robots d'exploration et n'ont pas besoin d'être modifiés pour les besoins des LLM. Oui, les crawlers LLM doivent s'identifier, mais ce dont nous avons vraiment besoin de parler, c'est de l'indexation/du traitement des données crawlées.

Réinventer la roue

Heureusement, le Web dispose déjà de solutions bien établies qui peuvent être utilisées pour gérer l'utilisation des données en matière de droits d'auteur. Il s'appelle Creative Commons.

La plupart des licences Creative Commons conviendraient aux fins des LLM. Pour illustrer:

CC0 permet aux LLM de distribuer, remixer, adapter et développer le matériel sur n'importe quel support ou format sans conditions.
CC BY permet aux LLM de distribuer, remixer, adapter et s'appuyer sur le matériel sur n'importe quel support ou format, à condition que l'attribution soit donnée au créateur. La licence permet une utilisation commerciale, mais le crédit doit être accordé au créateur.
CC BY-SA permet aux LLM de distribuer, remixer, adapter et s'appuyer sur le matériel sur n'importe quel support ou format, à condition que l'attribution soit donnée au créateur. La licence permet une utilisation commerciale. Si les LLM remixent, adaptent ou s'appuient sur le matériel, ils doivent concéder sous licence le matériel modifié selon des conditions identiques.
CC BY-NC permet aux LLM de distribuer, remixer, adapter et s'appuyer sur le matériel sur n'importe quel support ou format à des fins non commerciales uniquement tant que l'attribution est donnée au créateur.
CC BY-NC-SA permet aux LLM de distribuer, remixer, adapter et s'appuyer sur le matériel sur n'importe quel support ou format à des fins non commerciales uniquement tant que l'attribution est donnée au créateur. Si les LLM remixent, adaptent ou s'appuient sur le matériel, ils doivent concéder sous licence le matériel modifié selon des conditions identiques.
CC BY-ND permet aux LLM de copier et de distribuer le matériel sur n'importe quel support ou format sous une forme inadaptée uniquement tant que l'attribution est donnée au créateur. La licence permet une utilisation commerciale et le crédit doit être accordé au créateur, mais aucun dérivé ou adaptation de l'œuvre n'est autorisé.
CC BY-NC-ND permet aux LLM de copier et de distribuer le matériel sur n'importe quel support ou format sous une forme non adaptée uniquement, à des fins non commerciales uniquement, et tant que l'attribution est donnée au créateur et qu'aucun dérivé ou adaptation de l'œuvre n'est autorisé.

Il est peu probable que les deux dernières licences soient utilisables pour les LLM.

Cependant, les cinq premières licences signifient que les LLM doivent réfléchir à la manière dont ils utilisent les données explorées/obtenues et s'assurer qu'ils respectent les exigences imposées lors de l'utilisation des données des éditeurs, telles que l'attribution et le partage du produit basé sur les données.

Cela mettrait la charge sur les « quelques » LLM dans le monde au lieu des « nombreux » éditeurs.

Les trois premières licences prennent également en charge l'utilisation "traditionnelle" des données, par exemple, dans les résultats des moteurs de recherche où l'attribution/le crédit est donné via le lien vers le site Web d'origine. Alors que la quatrième et la cinquième licence soutiennent également la recherche et le développement de LLM open source.

Remarque complémentaire : gardez à l'esprit que toutes ces sociétés de logiciels qui créent des LLM utilisent souvent des logiciels open source où elles ont les mêmes problèmes de licence de droit d'auteur en ce qui concerne les bibliothèques de logiciels et les systèmes d'exploitation qu'elles utilisent pour éviter les violations de droits d'auteur au niveau du code. Alors pourquoi réinventer la roue alors que nous pouvons utiliser un système similaire pour les données traitées par ce code ?

La balise meta est le moyen

Une fois qu'un éditeur a identifié une licence appropriée, cette licence doit encore être communiquée. Encore une fois, c'est là que robots.txt semble être la mauvaise approche.

Ce n'est pas parce qu'une page doit être empêchée d'explorer les moteurs de recherche qu'elle ne peut pas être utilisée ou qu'elle n'est pas utile pour les LLM. Ce sont deux cas d'utilisation différents.

En tant que tel, pour séparer ces cas d'utilisation et permettre une approche plus raffinée mais aussi plus facile pour les éditeurs, je recommande d'utiliser une balise méta à la place.

Les balises méta sont des morceaux de code qui peuvent être insérés au niveau de la page, dans un thème ou dans le contenu (je sais, ce n'est pas techniquement correct, mais le HTML est suffisamment indulgent et peut être utilisé en dernier recours lorsqu'un éditeur a un accès limité à la base de code). Ils n'imposent pas à l'éditeur d'avoir des droits d'accès supplémentaires autres que la possibilité d'éditer le HTML du contenu publié.

L'utilisation de balises méta n'arrête pas l'exploration, comme la méta noindex. Toutefois, il vous permet de communiquer les droits d'utilisation des données publiées.

Et bien qu'il existe des balises de copyright existantes qui peuvent être utilisées - notamment de Dublin Core, rights-standard (proposition abandonnée), copyright-meta (se concentre sur le nom du propriétaire plutôt que sur la licence) et d'autres tentatives - la mise en œuvre actuelle de ceux-ci sur certains sites Web peuvent entrer en conflit avec ce que nous essayons d'accomplir ici.

Ainsi, une nouvelle balise méta peut être nécessaire, bien que je sois heureux de réutiliser une balise existante ou ancienne, telle que "rights-standard". Pour cette discussion, je propose la nouvelle balise meta suivante :

 <meta name="usage-rights" content="CC-BY-SA" />

De plus, je recommande que cette balise méta soit également prise en charge lorsqu'elle est utilisée dans les en-têtes HTTP, comme le noindex est pris en charge dans X-Robots-Tag, pour aider les crawlers LLM à mieux gérer leurs ressources de crawl (il leur suffit de vérifier les en-têtes HTTP pour valider les droits d'utilisation).

 X-Robots-Tag: usage-rights: CC-BY-SA

Cela peut être utilisé en combinaison avec d'autres balises META. Dans l'exemple ci-dessous, la page ne doit pas être utilisée pour les résultats de recherche, mais peut être utilisée pour les LLM commerciaux tant que le crédit est accordé à la source :

 X-Robots-Tag: usage-rights: CC-BY, noindex

Remarque : Le nom "droits d'utilisation" de la balise META est une proposition et peut être modifié.

Solution infaillible

Certes, il y a de mauvais crawlers et de mauvais acteurs qui construisent leurs LLM et leurs produits d'IA générative.

La solution de balise META proposée n'empêchera pas le contenu d'être utilisé de cette façon, mais le fichier robots.txt non plus.

Il est important de reconnaître que les deux méthodes dépendent de la reconnaissance et de la conformité des entreprises utilisant les données pour leurs produits d'IA.

Conclusion

J'espère que cet article illustre comment l'utilisation de robots.txt pour gérer l'utilisation des données dans les LLM est, à mon avis, la mauvaise approche/point de départ pour traiter l'utilisation et les droits d'auteur dans cette nouvelle ère des LLM et des produits d'IA générative.

Cette implémentation de balises méta permettrait aux éditeurs de spécifier les informations de copyright au niveau de la page à l'aide de Creative Commons, sans empêcher la page d'être explorée ou indexée à d'autres fins (comme les résultats des moteurs de recherche). Il permet également de faire des déclarations de droits d'auteur pour diverses utilisations, y compris les LLM, les produits d'IA générative et les futurs produits d'IA potentiels.

Les opinions exprimées dans cet article sont celles de l'auteur invité et pas nécessairement Search Engine Land. Les auteurs du personnel sont répertoriés ici.

Ajoutez Search Engine Land à votre fil d'actualités Google.