Robots.txt no es la respuesta: proponer una nueva metaetiqueta para LLM/AI
Publicado: 2023-07-18Si bien Google está abriendo la discusión sobre dar crédito y adherirse a los derechos de autor al entrenar modelos de lenguaje grande (LLM) para productos de IA generativa, su enfoque está en el archivo robots.txt.
Sin embargo, en mi opinión, esta es la herramienta equivocada para mirar.
Mi antiguo colega Pierre Far escribió un excelente artículo sobre rastreadores, motores de búsqueda y la sordidez de las empresas de IA generativa, donde destacó algunos de los inmensos desafíos que enfrenta actualmente la industria editorial en línea. Al igual que en su artículo, mantendré esta propuesta de alto nivel ya que los desarrollos en este campo son extremadamente rápidos.
¿Por qué no usar robots.txt?
Hay algunas razones por las que usar robots.txt es un punto de partida incorrecto para la discusión sobre cómo respetar los derechos de autor de los editores.
No todos los LLM usan rastreadores y se identifican a sí mismos
El operador del sitio web tiene la responsabilidad de identificar y bloquear rastreadores individuales, que pueden usar y/o vender sus datos para productos de IA generativa. Esto genera mucho trabajo adicional (e innecesario), especialmente para las editoriales más pequeñas.
Esto también supone que el editor tiene acceso de edición a su archivo robots.txt, lo que no siempre es el caso con las soluciones alojadas.
Esta no es una solución sostenible ya que el número de rastreadores continúa creciendo.
El tamaño de archivo utilizable de un archivo robots.txt está limitado a 500 kb, de acuerdo con el estándar robots.txt recientemente propuesto.
Esto significa que un gran editor puede tener problemas con su archivo robots.txt si necesita bloquear muchos rastreadores LLM y/o patrones de URL refinados además de otros bots.
Un enfoque de 'todo o nada' es inaceptable
Para los rastreadores más grandes como Googlebot y Bingbot, no se puede hacer ninguna distinción entre los datos que se utilizan para las páginas de resultados del motor de búsqueda (tradicionalmente donde hay un "acuerdo" entre el editor y el motor de búsqueda en forma de una "cita" al original fuente) y productos de IA generativa.
El bloqueo de Googlebot o Bingbot para sus productos de IA generativa también bloquea cualquier visibilidad potencial en sus respectivos resultados de búsqueda. Esta es una situación inaceptable en la que el editor se ve obligado a elegir entre "todo o nada".
Robots.txt se trata de administrar el rastreo, mientras que la discusión sobre derechos de autor se trata de cómo se usan los datos.
Este último se trata de la fase de indexación/procesamiento. Como tal, robots.txt no es realmente relevante para esta discusión, sino más bien un último recurso si nada más funciona y realmente no debería ser el punto de partida de esta discusión en particular.
Los archivos Robots.txt funcionan bien para los rastreadores y no es necesario cambiarlos para los LLM. Sí, los rastreadores de LLM deben identificarse, pero de lo que realmente debemos hablar es de la indexación/procesamiento de los datos rastreados.
Reinventando la rueda
Afortunadamente, la web ya tiene algunas soluciones bien establecidas que se pueden usar para administrar el uso de datos con respecto a los derechos de autor. Se llama Creative Commons.
La mayoría de las licencias Creative Commons funcionarían bien para los LLM. Para ilustrar:
- CC0 permite a los LLM distribuir, remezclar, adaptar y desarrollar el material en cualquier medio o formato sin condiciones.
- CC BY permite que los LLM distribuyan, remezclen, adapten y desarrollen el material en cualquier medio o formato, siempre que se le dé la atribución al creador. La licencia permite el uso comercial, pero se debe dar crédito al creador.
- CC BY-SA permite que los LLM distribuyan, remezclen, adapten y desarrollen el material en cualquier medio o formato, siempre que se le otorgue la atribución al creador. La licencia permite el uso comercial. Si los LLM remezclan, adaptan o construyen sobre el material, deben licenciar el material modificado bajo términos idénticos.
- CC BY-NC permite que los LLM distribuyan, remezclen, adapten y desarrollen el material en cualquier medio o formato con fines no comerciales siempre y cuando se le otorgue la atribución al creador.
- CC BY-NC-SA permite que los LLM distribuyan, remezclen, adapten y desarrollen el material en cualquier medio o formato con fines no comerciales siempre y cuando se le otorgue la atribución al creador. Si los LLM remezclan, adaptan o construyen sobre el material, deben licenciar el material modificado bajo términos idénticos.
- CC BY-ND permite a los LLM copiar y distribuir el material en cualquier medio o formato en forma no adaptada siempre que se le dé la atribución al creador. La licencia permite el uso comercial y se debe dar crédito al creador, pero no se permiten derivados o adaptaciones de la obra.
- CC BY-NC-ND permite a los LLM copiar y distribuir el material en cualquier medio o formato solo sin adaptarlo, solo con fines no comerciales, y siempre que se atribuya al creador y no se permitan derivados o adaptaciones del trabajo.
Es poco probable que las dos últimas licencias se puedan utilizar para LLM.
Sin embargo, las primeras cinco licencias significan que los LLM deben considerar cómo usan los datos rastreados/obtenidos y asegurarse de cumplir con los requisitos establecidos para el uso de los datos de los editores, como la atribución y el uso compartido del producto basado en los datos.
Esto pondría la carga sobre los "pocos" LLM en el mundo en lugar de los "muchos" editores.
Las primeras tres licencias también admiten el uso "tradicional" de los datos, por ejemplo, en los resultados de los motores de búsqueda donde la atribución/crédito se otorga a través del enlace al sitio web original. Mientras que la cuarta y la quinta licencia también respaldan la investigación y el desarrollo de LLM de código abierto.
Nota al margen: tenga en cuenta que todas estas empresas de software que crean LLM a menudo usan software de código abierto donde tienen los mismos desafíos de licencia de derechos de autor con respecto a las bibliotecas de software y los sistemas operativos que usan para evitar violaciones de derechos de autor a nivel de código. Entonces, ¿por qué reinventar la rueda cuando podemos usar un sistema similar para los datos que procesa este código?
La metaetiqueta es el camino
Una vez que un editor ha identificado una licencia adecuada, esta licencia aún debe comunicarse. Nuevamente, aquí es donde robots.txt parece ser el enfoque equivocado.
El hecho de que se deba bloquear el rastreo de una página para los motores de búsqueda no significa que no se pueda usar o que no sea útil para los LLM. Estos son dos casos de uso diferentes.
Como tal, para separar estos casos de uso y permitir un enfoque más refinado pero también más fácil para los editores, recomiendo que usemos una metaetiqueta en su lugar.
Las metaetiquetas son fragmentos de código que se pueden insertar a nivel de página, dentro de un tema o contenido (lo sé, esto no es técnicamente correcto, pero HTML es lo suficientemente indulgente y se puede usar como último recurso cuando un editor tiene acceso limitado a la base del código). No requieren que el editor tenga derechos de acceso adicionales además de poder editar el HTML del contenido publicado.
El uso de etiquetas meta no detiene el rastreo, como el meta noindex. No obstante, le permite comunicar los derechos de uso de los datos publicados.
Y aunque existen etiquetas de derechos de autor que se pueden usar, en particular de Dublin Core, estándar de derechos (propuesta abandonada), meta de derechos de autor (se centra en el nombre del propietario en lugar de la licencia) y otros intentos, la implementación actual existente de estos en algunos sitios web pueden entrar en conflicto con lo que tratamos de lograr aquí.
Por lo tanto, puede ser necesaria una nueva metaetiqueta, aunque también estoy feliz de reutilizar una existente o antigua, como "estándar de derechos". Para esta discusión, propongo la siguiente metaetiqueta nueva:
<meta name="usage-rights" content="CC-BY-SA" />
Además, recomiendo que esta metaetiqueta también sea compatible cuando se usa en encabezados HTTP, como noindex es compatible con X-Robots-Tag, para ayudar a los rastreadores de LLM a administrar mejor sus recursos de rastreo (solo necesitan verificar los encabezados HTTP para validar los derechos de uso).
X-Robots-Tag: usage-rights: CC-BY-SA
Esto se puede usar en combinación con otras etiquetas meta. En el siguiente ejemplo, la página no debe usarse para resultados de búsqueda, pero puede usarse para LLM comerciales siempre que se dé crédito a la fuente:
X-Robots-Tag: usage-rights: CC-BY, noindex
Nota: El nombre "derechos de uso" para la etiqueta meta es una propuesta y se puede cambiar.
Solución infalible
Por supuesto, hay malos rastreadores y malos actores que construyen sus LLM y productos de IA generativa.
La solución de metaetiqueta propuesta no evitará que el contenido se use de esa manera, pero tampoco lo hará el archivo robots.txt.
Es importante reconocer que ambos métodos dependen del reconocimiento y cumplimiento por parte de las empresas que utilizan los datos para sus productos de IA.
Conclusión
Con suerte, este artículo ilustra cómo el uso de robots.txt para administrar el uso de datos en LLM es, en mi opinión, el enfoque/punto de partida incorrecto para lidiar con el uso y los derechos de autor en esta nueva era de LLM y productos de IA generativa.
Esta implementación de metaetiquetas permitiría a los editores especificar información de derechos de autor en el nivel de la página utilizando Creative Commons, sin evitar que la página se rastree o indexe para otros fines (como resultados de motores de búsqueda). También permite que se realicen declaraciones de derechos de autor para varios usos, incluidos LLM, productos de IA generativa y posibles productos de IA futuros.
Las opiniones expresadas en este artículo pertenecen al autor invitado y no necesariamente a Search Engine Land. Los autores del personal se enumeran aquí.