Rastreadores, motores de búsqueda y la sordidez de las empresas de IA generativa

Publicado: 2023-07-13

El auge de los productos de IA generativa en los últimos meses ha llevado a muchos sitios web a tomar contramedidas.

La preocupación básica es así:

Los productos de IA dependen del consumo de grandes volúmenes de contenido para entrenar sus modelos de lenguaje (los llamados modelos de lenguaje grande, o LLM para abreviar), y este contenido tiene que provenir de alguna parte. Las empresas de inteligencia artificial consideran que la apertura de la web permite el rastreo a gran escala para obtener datos de capacitación, pero algunos operadores de sitios web no están de acuerdo, incluidos Reddit, Stack Overflow y Twitter.

Esta respuesta a esta interesante pregunta sin duda será objeto de litigio en los tribunales de todo el mundo.

Este artículo explorará esta cuestión, centrándose en los aspectos comerciales y técnicos. Pero antes de sumergirnos, algunos puntos:

Aunque este tema toca, e incluyo en este artículo, algunos argumentos legales, no soy abogado, no soy su abogado, y no le estoy dando ningún tipo de consejo. Hable con su gato abogado favorito si necesita asesoramiento legal.
Solía trabajar en Google hace muchos años, principalmente en la búsqueda web. No hablo en nombre de Google de ninguna manera, incluso cuando cito algunos ejemplos de Google a continuación.
Este es un tema de rápido movimiento. ¡Está garantizado que entre el momento en que terminé de escribir esto y usted lo está leyendo, algo importante habría sucedido en la industria, y está garantizado que me habría perdido algo!

El 'trato' entre buscadores y webs

Comenzamos con cómo funciona un motor de búsqueda moderno, como Google o Bing. En términos demasiado simplificados, un motor de búsqueda funciona así:

El motor de búsqueda tiene una lista de URL. Cada URL tiene metadatos (a veces llamados "señales") que indican que la URL puede ser importante o útil para mostrarse en las páginas de resultados del motor de búsqueda.
Según estas señales, el motor de búsqueda tiene un rastreador, un bot, que es un programa que obtiene estas URL en algún orden de "importancia" según lo que indican las señales. Para este propósito, el rastreador de Google se llama Googlebot y el de Bing es Bingbot (y ambos tienen muchos más para otros propósitos, como anuncios). Ambos bots se identifican a sí mismos en el encabezado del agente de usuario, y los sitios web pueden verificar ambos mediante programación para asegurarse de que el contenido se entrega al bot del motor de búsqueda real y no a una falsificación.
Una vez que se recupera el contenido, se indexa. Los índices de los motores de búsqueda son bases de datos complicadas que contienen el contenido de la página junto con una gran cantidad de metadatos y otras señales que se utilizan para hacer coincidir y clasificar el contenido según las consultas de los usuarios. Un índice es lo que realmente se busca cuando escribe una consulta en Google o Bing.

Los motores de búsqueda modernos, al menos los buenos y educados, dan al operador del sitio web control total sobre el rastreo y la indexación.

El Protocolo de Exclusión de Robots es cómo se implementa este control, a través del archivo robots.txt y las metaetiquetas o encabezados en la propia página web. Estos motores de búsqueda obedecen voluntariamente el Protocolo de Exclusión de Robots, tomando la implementación del Protocolo de un sitio web como una directiva, un comando absoluto, no solo una mera sugerencia.

Es importante destacar que la posición predeterminada del Protocolo es que todo el rastreo y la indexación están permitidos; es permisivo de forma predeterminada. A menos que el operador del sitio web tome medidas para implementar la exclusión, se considera que el sitio web permite el rastreo y la indexación.

Esto nos brinda el marco básico del acuerdo entre los motores de búsqueda y los sitios web: de forma predeterminada, un motor de búsqueda rastreará e indexará un sitio web, lo que, a su vez, dirigirá a los buscadores directamente al sitio web original en sus resultados de búsqueda para consultas relevantes. .

Este acuerdo es fundamentalmente un intercambio económico: el sitio web incurre en los costos de producción, hospedaje y servicio del contenido, pero la idea es que el tráfico que obtiene a cambio lo devuelva con una ganancia.

Nota : estoy ignorando intencionalmente una gran cantidad de argumentos relacionados aquí, sobre quién tiene más poder en este intercambio, quién gana más dinero, equidad y mucho más. No los estoy menospreciando, simplemente no quiero distraer la atención del tema central de este artículo.

Este enfoque de indexación para el tráfico surge en otros lugares, por ejemplo, cuando los motores de búsqueda pueden indexar contenido detrás de un muro de pago. Es la misma idea: el sitio web comparte contenido a cambio de que se muestre en los resultados de búsqueda que dirigen a los buscadores directamente al sitio web.

Y en cada paso del proceso de este acuerdo, si el editor quiere bloquear todo o parte del rastreo o la indexación de alguna manera, entonces el editor tiene varias herramientas que utilizan el Protocolo de Exclusión y Robots. Todo lo que aún se permite rastrear e indexar se debe a que el sitio web obtiene un beneficio directo al mostrarse en los resultados de búsqueda.

Este argumento, de alguna forma, se ha utilizado en los tribunales, en lo que se conoce como la "defensa de robots.txt" y básicamente se ha mantenido; consulte esta breve lista de casos judiciales, muchos relacionados con Google, y este artículo de 2007 que no está del todo satisfecho.

Los LLM no son motores de búsqueda

Ahora debería quedar muy claro que un LLM es una bestia diferente de un motor de búsqueda.

La respuesta de un modelo de lenguaje no apunta directamente a los sitios web cuyo contenido se utilizó para entrenar el modelo. No hay un intercambio económico como el que vemos con los motores de búsqueda, y por eso muchos editores (y autores) están molestos.

La falta de citas de fuentes directas es la diferencia fundamental entre un motor de búsqueda y un LLM, y es la respuesta a la pregunta muy común de "¿por qué se debe permitir que Google y Bing extraigan contenido pero no OpenAI?" (Estoy usando una redacción más educada de esta pregunta).

Google y Bing están tratando de mostrar enlaces de origen en sus respuestas generativas de IA, pero estas fuentes, si se muestran, no son el conjunto completo.

Esto abre una pregunta relacionada: ¿Por qué un sitio web debe permitir que su contenido se use para entrenar un modelo de lenguaje si no recibe nada a cambio?

Esa es una muy buena pregunta, y probablemente la más importante que deberíamos responder como sociedad.

Los LLM tienen beneficios a pesar de las principales deficiencias de la generación actual de LLM (como alucinaciones, mentir a los operadores humanos y sesgos, por nombrar algunos), y estos beneficios solo aumentarán con el tiempo mientras se solucionan las deficiencias.

Pero para esta discusión, el punto importante es darse cuenta de que un pilar fundamental de cómo funciona la web abierta en este momento no es adecuado para los LLM.

la sordidez

Aparentemente, eso no es un problema para las empresas de IA que están interesadas en entrenar modelos grandes solo para su propio beneficio económico.

OpenAI usó varios conjuntos de datos como entradas de datos de entrenamiento (detalles aquí para GPT3), y OpenAI intencionalmente no divulga los conjuntos de datos de entrenamiento para GPT4.

Aunque OpenAI usa muchos argumentos para justificar no divulgar información sobre los datos de entrenamiento de GPT4 (discutidos aquí), el punto clave para nosotros sigue siendo: no sabemos qué contenido se usó para entrenarlo, y OpenAI no muestra eso en las respuestas de ChatGPT.

¿La recopilación de datos de OpenAI obedece el Protocolo de exclusión de robots? ¿Incluye texto protegido por derechos de autor, como libros de texto u otros libros? ¿Obtuvieron permiso de algún sitio web o editorial? Ellos no dicen.

El enfoque súper turbio de Brave Software

Si el enfoque de OpenAI es problemático, Brave Software (el fabricante del navegador Brave y el motor de búsqueda Brave) adopta un enfoque y una postura aún más problemáticos cuando se trata de búsqueda y datos de entrenamiento de IA.

El motor de búsqueda Brave depende en gran medida de lo que se llama Web Discovery Project. El enfoque es bastante elaborado y está documentado aquí, pero resaltaré un hecho clave: Brave no parece tener un rastreador centralizado que operen, y ninguno de los rastreos se identifica como rastreadores de Brave, y (siéntate para esto) Brave vende el contenido raspado con los derechos que Brave otorga al comprador para el entrenamiento de IA.

Hay mucho en esa oración, así que analicémoslo.

Brave Search utiliza el navegador Brave como un rastreador distribuido. Como se documenta en este artículo de ayuda, existe esta pregunta y respuesta de preguntas frecuentes:

¿Es el Web Discovery Project un rastreador?
En cierto modo, sí. El Proyecto de Descubrimiento Web procesa trabajos de obtención del rastreador web de Brave. Cada pocos segundos o minutos, se le puede indicar al navegador que busque una página web y envíe el HTML de vuelta a Brave . Sin embargo, esta obtención no tiene ningún impacto en su historial de navegación o cookies: se realiza como una llamada de API de obtención privada. Para mayor seguridad, los dominios del trabajo de búsqueda se preseleccionan de un pequeño conjunto de dominios inocuos y de buena reputación.
¿Qué es el Proyecto de Descubrimiento Web? – Búsqueda valiente

Fetch API es una funcionalidad estándar web integrada en los motores de navegador modernos, incluido el que usa Brave. Su uso común es obtener contenido para mostrar a los usuarios en el navegador. Para nuestros propósitos, sabemos de inmediato que es el navegador de un usuario que solicita el contenido del sitio web en nombre del motor de búsqueda de Brave.

Curiosamente, un hilo de Reddit de junio de 2021 agrega más detalles y confusión. Una respuesta de un representante de Brave es muy interesante (destaca la mía):

Tenemos nuestro propio rastreador, pero no contiene una cadena de agente de usuario (al igual que Brave, el navegador, tampoco contiene una cadena de agente de usuario única ) para evitar posibles discriminaciones . Dicho esto, hemos hablado sobre la posibilidad de identificar el rastreador para los administradores que quisieran saber cuándo y dónde aterriza en sus propiedades. También respetamos el archivo robots.txt , así que si no quieres que Brave Search rastree tu sitio, no lo hará.

Esta es una mina de oro de hechos:

Tienen su propio rastreador, que puede referirse a uno centralizado o al Proyecto de descubrimiento web basado en navegador distribuido.
Este rastreador no se identifica a sí mismo como un rastreador, pero de alguna manera obedece el Protocolo de exclusión de robots (en forma de archivo robots.txt). ¿Cómo puede un operador de sitio web escribir una directiva de exclusión de robots si el navegador no se identifica? ¿Qué token de agente de usuario (como se llama) se usaría en el archivo robots.txt para especificar directivas específicas para el rastreador de Brave? No he podido encontrar ninguna documentación de Brave.
Lo que llaman discriminación es en realidad cómo los editores controlarían el rastreo. El Protocolo de exclusión de robots es un mecanismo para que los editores discriminen entre los usuarios y los rastreadores pueden acceder, y discriminen entre diferentes rastreadores (por ejemplo, permitir que Bingbot rastree pero no Googlebot). Al afirmar que quieren evitar la discriminación, Brave en realidad está diciendo que pueden decidir qué rastrean e indexan, no el editor.

Volviendo a Fetch API: De manera predeterminada, Fetch API usa la cadena de agente de usuario del navegador. Ya sabemos que el navegador Brave no se identifica con un encabezado de agente de usuario único, sino que usa la cadena de agente de usuario genérica producida por el motor del navegador subyacente.

La cadena de agente de usuario se puede personalizar, para el navegador en general y la API Fetch, pero no he encontrado ninguna indicación de que Brave lo haga (y, de hecho, la respuesta de Reddit citada anteriormente dice explícitamente que no hay un identificador único).

Además, Brave continúa vendiendo los datos raspados específicamente para el entrenamiento de IA, no solo como resultados de búsqueda (por ejemplo, para impulsar una función de búsqueda en el sitio).

Visitar la página de inicio de Brave Search API muestra varios niveles de precios, incluidos algunos llamados "Datos para IA". Estos planes de datos incluyen opciones para "Datos con derechos de almacenamiento" que permiten al suscriptor "Guardar en caché/almacenar datos para entrenar modelos de IA", con los datos que incluyen "Fragmentos alternativos adicionales para IA" y con "Derechos para usar datos para inferencia de IA". ”

En resumen, según las declaraciones públicas de Brave y la falta de documentación, Brave rastrea la web de manera sigilosa, sin una forma obvia de controlarla o bloquearla, y luego revende el contenido rastreado para el entrenamiento de IA.

O para reformular esto de manera más directa, Brave se ha designado a sí mismo como un distribuidor con fines de lucro de contenido protegido por derechos de autor sin licencia o permiso de los editores de sitios web .

¿Es esto aceptable? Lo veo como un raspador de mala calidad como un servicio.

Iniciativa de controles de editores de Google

Es posible que pronto haya un nuevo tipo de rastreador web, uno específico para la IA generativa.

Parece que Google ha reconocido la incompatibilidad discutida anteriormente, que usar el contenido que Googlebot obtuvo para la búsqueda web puede no ser adecuado para entrenar modelos de IA.

Google ha anunciado que quiere iniciar un debate comunitario para crear controles de editor web de IA (¡hola, Google, me registré, déjame entrar, por favor!). Apoyo de todo corazón tener esta conversación, y bien hecho Google por abrir la puerta para tener esta conversación.

Como estamos en los primeros días, es importante señalar que los valores predeterminados y las capacidades de dichos controles serán fundamentales para su éxito o fracaso. Sospecho que muchos editores y autores tendrán opiniones firmes sobre cómo deberían funcionar estos controles de IA.

¿Qué pasa con los LLM de código abierto?

Un aspecto importante del argumento anterior es el intercambio económico. Pero, ¿qué pasa si la organización detrás del modelo de lenguaje lanza el modelo libremente sin beneficio para sí misma?

Existen muchos modelos de código abierto de este tipo, y se entrenan en conjuntos de datos que se superponen sustancialmente a los conjuntos de datos utilizados para entrenar modelos patentados comerciales. Muchos modelos de código abierto son lo suficientemente buenos para algunos casos de uso en este momento, y solo están mejorando.

Aún así: ¿Es correcto que el contenido de un sitio web se use sin permiso para capacitar a un LLM de código abierto?

Esa es posiblemente una pregunta más complicada, y creo que la respuesta actualmente se basa en lo que permite el Protocolo de exclusión de robots. Es posible que surja una mejor respuesta en la forma de un enfoque bien diseñado de AI Web Publisher Controls de Google o alguna otra iniciativa similar.

Mira este espacio.

Entonces, ¿qué puede hacer un editor ahora?

Esta situación actual es una que muchos editores no quieren ni aceptan. ¿Qué pueden hacer?

Aquí tenemos que volver al bloqueo de rastreadores/bots de la vieja escuela. En general, hay dos tipos de rastreadores:

Crawlers que se identifican a sí mismos. Pueden o no obedecer el Protocolo de Exclusión de Robots, pero al menos el servidor tiene un identificador para verificar y decidir si bloquear la solicitud o no. Los ejemplos incluyen Googlebot y Bingbot.
Rastreadores sigilosos, que no se utilizan para motores de búsqueda educados. No se identifican y/o no obedecen el Protocolo de Exclusión de Robots. Algunos ejemplos son el rastreador de spam de cualquier script kiddie o el rastreador de Brave Search.

Hay dos cosas complementarias que puedes hacer:

Si el rastreador obedece el Protocolo de exclusión de robots, puede bloquearlo si cree que el contenido que rastrea se alimenta de datos de entrenamiento de IA. Hay dos enfoques aquí:
- Bloquee todos los rastreadores y permita solo los que desee para sus necesidades (como Googlebot y Bingbot). Esto es peligroso para el rendimiento de un sitio web en la búsqueda orgánica. Debe tener mucho cuidado con él, pero es efectivo para estos rastreadores.
- Permita todo el rastreo y bloquee los que desee bloquear. Este enfoque más permisivo es menos peligroso, pero, por supuesto, su contenido puede ser rastreado por IA u otros rastreadores que quizás no desee.
Use un detector de bots sigilosos del lado del servidor y utilícelo para bloquear dichos rastreadores. Muchos productos pueden hacer esto. Si está utilizando una red de distribución de contenido (CDN) como lo hacen muchos editores, es probable que este tipo de funcionalidad esté disponible a través de ella (por ejemplo, Akamai, Cloudflare, Fastly).

El enfoque que estoy empezando a adoptar con los sitios web que manejo y hablo con los clientes es una combinación de opciones (1a) y (2), es decir, usar un archivo robots.txt restrictivo junto con controles de CDN.

Puede que este no sea el mejor enfoque para cada editor, pero creo que vale la pena considerarlo seriamente.

¿Qué significa todo esto?

Estamos viviendo tiempos que pasarán a ser uno de los más influyentes de la historia. La gente está literalmente prediciendo el destino de la humanidad a partir de la IA. Todos tenemos un papel que desempeñar en la configuración del futuro.

Por nuestra parte, como creadores de contenido original, debemos pensar en cómo responder, mantenernos al día y adaptarnos a esta parte de la industria que se mueve rápidamente. Decidir cómo se crea, distribuye y consume el contenido que creamos es ahora una combinación complicada de estrategia, tecnología, finanzas, ética y más.

Independientemente de cómo responda, está adoptando una postura en un momento histórico. Siento tu carga.

Las opiniones expresadas en este artículo pertenecen al autor invitado y no necesariamente a Search Engine Land. Los autores del personal se enumeran aquí.

Agregue Search Engine Land a su fuente de noticias de Google.