Rastreadores, mecanismos de busca e as empresas de IA geradoras

Publicados: 2023-07-13

O boom de produtos generativos de IA nos últimos meses levou muitos sites a tomar contra-medidas.

A preocupação básica é assim:

Os produtos de IA dependem do consumo de grandes volumes de conteúdo para treinar seus modelos de linguagem (os chamados large language models, ou LLMs, para abreviar), e esse conteúdo tem que vir de algum lugar. As empresas de IA veem a abertura da web como permitindo rastreamento em larga escala para obter dados de treinamento, mas alguns operadores de sites discordam, incluindo Reddit, Stack Overflow e Twitter.

Esta resposta a esta pergunta interessante será, sem dúvida, litigada em tribunais de todo o mundo.

Este artigo irá explorar esta questão, focando nos aspectos técnicos e de negócios. Mas antes de mergulharmos, alguns pontos:

  • Embora este tópico aborde, e eu inclua neste artigo, alguns argumentos legais, não sou advogado, não sou seu advogado e não estou lhe dando nenhum tipo de conselho. Converse com seu gato advogado favorito se precisar de aconselhamento jurídico.
  • Eu costumava trabalhar no Google há muitos anos, principalmente em buscas na web. Não falo em nome do Google de forma alguma, mesmo quando cito alguns exemplos do Google abaixo.
  • Este é um tópico em movimento rápido. É garantido que entre o momento em que terminei de escrever isso e você está lendo, algo importante teria acontecido na indústria e com certeza eu teria perdido alguma coisa!

O 'acordo' entre motores de busca e sites

Começamos explicando como funciona um mecanismo de pesquisa moderno, como o Google ou o Bing. Em termos excessivamente simplificados, um mecanismo de pesquisa funciona assim:

  • O mecanismo de pesquisa possui uma lista de URLs. Cada URL tem metadados (às vezes chamados de “sinais”) que indicam que o URL pode ser importante ou útil para ser exibido nas páginas de resultados do mecanismo de pesquisa.
  • Com base nesses sinais, o mecanismo de busca possui um rastreador, um bot, que é um programa que busca essas URLs em alguma ordem de “importância” com base no que os sinais indicam. Para isso, o rastreador do Google se chama Googlebot e o do Bing é Bingbot (e ambos possuem muitos outros para outras finalidades, como anúncios). Ambos os bots se identificam no cabeçalho do agente do usuário e ambos podem ser verificados programaticamente por sites para garantir que o conteúdo esteja sendo servido ao bot real do mecanismo de pesquisa e não a uma falsificação.
  • Uma vez que o conteúdo é buscado, ele é indexado. Os índices dos mecanismos de pesquisa são bancos de dados complicados que contêm o conteúdo da página junto com uma grande quantidade de metadados e outros sinais usados ​​para corresponder e classificar o conteúdo para as consultas do usuário. Um índice é o que realmente é pesquisado quando você digita uma consulta no Google ou Bing.

Os mecanismos de busca modernos, pelo menos os bons e educados, dão ao operador do site controle total sobre o rastreamento e a indexação.

O Protocolo de exclusão de robôs é como esse controle é implementado, por meio do arquivo robots.txt e meta tags ou cabeçalhos na própria página da web. Esses mecanismos de busca obedecem voluntariamente ao Protocolo de Exclusão de Robôs, considerando a implementação do Protocolo por um site como uma diretiva, um comando absoluto, não apenas uma mera dica.

É importante ressaltar que a posição padrão do protocolo é que todo rastreamento e indexação são permitidos – é permissivo por padrão. A menos que o operador do site tome medidas ativas para implementar a exclusão, considera-se que o site permite rastreamento e indexação.

Isso nos dá a estrutura básica do acordo entre os mecanismos de pesquisa e os sites: por padrão, um site será rastreado e indexado por um mecanismo de pesquisa que, por sua vez, direciona os usuários diretamente para o site original em seus resultados de pesquisa para consultas relevantes .

Esse acordo é fundamentalmente uma troca econômica: os custos de produção, hospedagem e veiculação do conteúdo são incorridos pelo site, mas a ideia é que o tráfego obtido em troca pague de volta com lucro.

Observação : estou ignorando intencionalmente toda uma série de argumentos relacionados aqui, sobre quem tem mais poder nessa troca, quem ganha mais dinheiro, justiça e muito mais. Não estou menosprezando isso – só não quero desviar a atenção do tópico principal deste artigo.

Essa abordagem de indexação para tráfego surge em outro lugar, por exemplo, quando os mecanismos de pesquisa têm permissão para indexar conteúdo por trás de um paywall. É a mesma ideia: o site compartilha conteúdo em troca de ser exibido nos resultados de pesquisa que direcionam os usuários diretamente para o site.

E em cada etapa do processo desse acordo, se o editor quiser bloquear todo ou algum rastreamento ou indexação de alguma forma, o editor terá várias ferramentas usando o protocolo de robôs e exclusão. Tudo o que ainda pode ser rastreado e indexado é porque o site obtém um benefício direto de ser exibido nos resultados da pesquisa.

Este argumento, de alguma forma, foi realmente usado em tribunais, no que se tornou conhecido como “defesa robots.txt” e foi basicamente retido; veja esta pequena lista de processos judiciais, muitos envolvendo o Google, e este artigo de 2007 que não está totalmente satisfeito com isso.

LLMs não são mecanismos de pesquisa

Agora deve estar muito claro que um LLM é uma fera diferente de um mecanismo de busca.

A resposta de um modelo de idioma não aponta diretamente para o(s) site(s) cujo conteúdo foi usado para treinar o modelo. Não há troca econômica como vemos nos mecanismos de busca, e é por isso que muitos editores (e autores) estão chateados.

A falta de citações de fontes diretas é a diferença fundamental entre um mecanismo de busca e um LLM, e é a resposta para a pergunta muito comum de “por que o Google e o Bing devem ter permissão para coletar conteúdo, mas não o OpenAI?” (Estou usando uma formulação mais educada desta questão.).

Google e Bing estão tentando mostrar links de fonte em suas respostas de IA generativas, mas essas fontes, se mostradas, não são o conjunto completo.

Isso abre uma questão relacionada: por que um site deve permitir que seu conteúdo seja usado para treinar um modelo de linguagem se não receber nada em troca?

Essa é uma pergunta muito boa – e provavelmente a mais importante que devemos responder como sociedade.

Os LLMs têm benefícios, apesar das principais deficiências da geração atual de LLMs (como alucinações, mentir para os operadores humanos e preconceitos, para citar alguns), e esses benefícios só aumentarão com o tempo enquanto as deficiências forem resolvidas.

Mas para esta discussão, o ponto importante é perceber que um pilar fundamental de como a web aberta funciona agora não é adequado para LLMs.

a mesquinhez

Aparentemente, isso não é um problema para as empresas de IA que estão interessadas em treinar grandes modelos apenas para seu próprio benefício econômico.

A OpenAI usou vários conjuntos de dados como entradas de dados de treinamento (detalhes aqui para GPT3) e a OpenAI intencionalmente não divulga os conjuntos de dados de treinamento para GPT4.

Embora o OpenAI use muitos argumentos para justificar a não divulgação de informações sobre os dados de treinamento do GPT4 (discutidos aqui), o ponto principal para nós permanece: não sabemos qual conteúdo foi usado para treiná-lo e o OpenAI não mostra isso nas respostas do ChatGPT.

A coleta de dados da OpenAI obedece ao Protocolo de Exclusão de Robôs? Inclui texto protegido por direitos autorais, como livros didáticos ou outros livros? Eles obtiveram permissão de algum site ou editor? Eles não dizem.

Abordagem super obscura do Brave Software

Se a abordagem da OpenAI é problemática, a Brave Software (criadora do navegador Brave e do mecanismo de busca Brave) adota uma abordagem e postura ainda mais problemáticas quando se trata de pesquisa e dados de treinamento de IA.

O mecanismo de busca Brave depende muito do que é chamado de Web Discovery Project. A abordagem é bastante elaborada e documentada aqui, mas vou destacar um fato importante: Brave não parece ter um rastreador centralizado que eles operam, e nenhum dos rastreamentos se identifica como rastreadores para Brave e (sente-se para isso) Brave vende o conteúdo copiado com direitos que o Brave dá ao comprador para treinamento de IA.

Há muito nessa frase, então vamos analisá-la.

A pesquisa Brave usa o navegador Brave como um rastreador distribuído. Conforme documentado neste artigo de ajuda, há esta pergunta e resposta do FAQ:

O Web Discovery Project é um rastreador?

De certa forma, sim. Os processos do Web Discovery Project buscam trabalhos do rastreador da Web do Brave. A cada poucos segundos ou minutos, o navegador pode ser instruído a buscar uma página da Web e enviar o HTML de volta ao Brave . No entanto, essa busca não tem impacto em seu histórico de navegação ou cookies - é feita como uma chamada de API de busca privada. Para segurança extra, os domínios de trabalho de busca são pré-selecionados de um pequeno conjunto de domínios inócuos e respeitáveis.

O que é o Projeto Web Discovery? – Busca Corajosa

A Fetch API é uma funcionalidade padrão da Web incorporada aos mecanismos de navegadores modernos, incluindo o que o Brave usa. Seu uso comum é buscar conteúdo para mostrar aos usuários no navegador. Para nossos propósitos, sabemos imediatamente que é o navegador de um usuário solicitando o conteúdo do site em nome do mecanismo de busca do Brave.

Curiosamente, um tópico do Reddit de junho de 2021 adiciona mais detalhes e confusão. Uma resposta de um representante da Brave é muito interessante (destaques meus):

Temos nosso próprio rastreador, mas ele não contém uma string de user-agent (assim como Brave, o navegador, também não contém uma string de user-agent exclusiva ) para evitar possíveis discriminações . Dito isso, conversamos sobre a possível identificação do rastreador para administradores que gostariam de saber quando/onde ele chega em suas propriedades. Também respeitamos o robots.txt , portanto, se você não quiser que o Brave Search rastreie seu site, ele não o fará.

Esta é uma mina de ouro de fatos:

  1. Eles têm seu próprio rastreador, que pode estar se referindo a um rastreador centralizado ou ao Web Discovery Project distribuído baseado em navegador.
  2. Este rastreador não se identifica como um rastreador, mas de alguma forma obedece ao Protocolo de Exclusão de Robôs (na forma do arquivo robots.txt). Como um operador de site pode escrever uma diretiva de exclusão de robôs se o navegador não se identificar? Qual token de agente de usuário (como é chamado) seria usado no arquivo robots.txt para especificar diretivas específicas para o rastreador do Brave? Não consegui encontrar nenhuma documentação do Brave.
  3. O que eles chamam de discriminação é, na verdade, como os editores controlariam o rastreamento. O Protocolo de Exclusão de Robôs é um mecanismo para os editores discriminarem entre o que os usuários e rastreadores podem acessar e discriminar entre diferentes rastreadores (por exemplo, permitir que o Bingbot rastreie, mas não o Googlebot). Ao afirmar que deseja evitar a discriminação, o Brave está na verdade dizendo que eles decidem o que rastrear e indexar, não o editor.

Voltando à API Fetch: Por padrão, a API Fetch usa a string do agente do usuário do navegador. Já sabemos que o navegador Brave não se identifica com um cabeçalho de agente de usuário exclusivo, usando, em vez disso, a string genérica de agente de usuário produzida pelo mecanismo do navegador subjacente.

A string do agente do usuário pode ser personalizada, para o navegador em geral e a API Fetch, mas não encontrei nenhuma indicação de que o Brave faça isso (e, de fato, a resposta do Reddit citada acima diz explicitamente que não há identificador exclusivo).

Além disso, o Brave passa a vender os dados extraídos especificamente para treinamento de IA, não apenas como resultados de pesquisa (por exemplo, para alimentar um recurso de pesquisa de site).

Visitar a página inicial da Brave Search API mostra vários níveis de preços, incluindo alguns chamados “Data for AI”. Esses planos de dados incluem opções para “Dados com direitos de armazenamento” que permitem ao assinante “Cache/armazenar dados para treinar modelos de IA”, com os dados incluindo “Snippets alternativos extras para IA” e com “Direitos de usar dados para inferência de IA. ”

Em resumo, com base nas declarações públicas do Brave e na falta de documentação, o Brave rastreia a web de maneira furtiva, sem uma maneira óbvia de controlá-lo ou bloqueá-lo, e passa a revender o conteúdo rastreado para treinamento de IA.

Ou, para reformular isso de forma mais direta, a Brave se autodenomina uma distribuidora com fins lucrativos de conteúdo protegido por direitos autorais sem licença ou permissão dos editores do site .

Isso é aceitável? Eu vejo isso como um raspador desprezível como um serviço.

Iniciativa de controles do editor do Google

Pode haver um novo tipo de rastreador da Web em breve, especificamente para IA generativa.

Parece que o Google reconheceu a incompatibilidade discutida acima, que usar o conteúdo que o Googlebot buscou para pesquisa na web pode não ser adequado para treinar modelos de IA.

O Google anunciou que deseja iniciar uma discussão na comunidade para criar AI Web Publisher Controls (ei, Google, eu me inscrevi, deixe-me entrar, por favor!). Eu apoio sinceramente ter essa conversa e parabéns ao Google por abrir a porta para essa conversa.

Como estamos nos primeiros dias, é importante sinalizar que os padrões e recursos de tais controles serão críticos para seu sucesso ou falha. Suspeito que muitos editores e autores tenham opiniões fortes de que precisamos ouvir sobre como esses controles de IA devem funcionar.

E os LLMs de código aberto?

Um aspecto importante do argumento acima é a troca econômica. Mas e se a organização por trás do modelo de linguagem liberar o modelo livremente sem benefício para si mesma?

Existem muitos desses modelos de código aberto e eles são treinados em conjuntos de dados que se sobrepõem substancialmente aos conjuntos de dados usados ​​para treinar modelos proprietários comerciais. Muitos modelos de código aberto são bons o suficiente para alguns casos de uso no momento e estão ficando cada vez melhores.

Ainda: é certo que o conteúdo de um site seja usado sem permissão para treinar um LLM de código aberto?

Essa é possivelmente uma pergunta mais complicada, e acho que a resposta atualmente depende do que o Protocolo de Exclusão de Robôs permite. É possível que surja uma resposta melhor na forma de uma abordagem bem projetada dos AI Web Publisher Controls do Google ou alguma outra iniciativa semelhante.

Assista esse espaço.

Então, o que um editor pode fazer agora?

Esta situação atual é aquela que muitos editores não querem nem aceitam. O que é que eles podem fazer?

Aqui, precisamos voltar ao antigo bloqueio de rastreadores/bots. Geralmente, existem dois tipos de rastreadores:

  1. Rastreadores que se identificam. Eles podem ou não obedecer ao Protocolo de Exclusão de Robôs, mas pelo menos o servidor tem um identificador para verificar para decidir se bloqueia a requisição ou não. Exemplos incluem Googlebot e Bingbot.
  2. Rastreadores furtivos, que não são usados ​​para mecanismos de busca educados. Não se identificam e/ou não obedecem ao Protocolo de Exclusão de Robôs. Exemplos são o raspador de spam de qualquer script kiddie ou o rastreador do Brave Search.

Há duas coisas complementares que você pode fazer:

  1. Se o rastreador obedecer ao Protocolo de Exclusão de Robôs, você poderá bloqueá-lo se achar que o conteúdo que ele rastreia se alimenta de dados de treinamento de IA. Existem duas abordagens aqui:
    • Bloqueie todos os rastreadores e permita apenas aqueles que você deseja permitir para suas necessidades (como Googlebot e Bingbot). Isso é perigoso para o desempenho de um site na pesquisa orgânica. Você precisa ter muito cuidado com isso, mas é eficaz para esses rastreadores.
    • Permita todos os rastreamentos e bloqueie aqueles que você deseja bloquear. Essa abordagem mais permissiva é menos perigosa, mas é claro que seu conteúdo pode ser copiado por IA ou outros rastreadores que você pode não querer.
  2. Use um detector de bot furtivo do lado do servidor e use-o para bloquear esses rastreadores. Muitos produtos podem fazer isso. Se você estiver usando uma rede de distribuição de conteúdo (CDN) como muitos editores fazem, é provável que esse tipo de funcionalidade esteja disponível por meio dela (por exemplo, Akamai, Cloudflare, Fastly).

A abordagem que estou começando a adotar com os sites que opero e discuto com os clientes é uma combinação das opções (1a) e (2), ou seja, usar um arquivo robots.txt restritivo junto com os controles CDN.

Essa pode não ser a melhor abordagem para cada editora, mas acho que vale a pena considerá-la seriamente.

O que tudo isso significa?

Estamos vivendo tempos que ficarão marcados como um dos mais influentes da história. As pessoas estão literalmente prevendo a destruição da humanidade a partir da IA. Todos nós temos um papel a desempenhar na formação do futuro.

De nossa parte, como criadores de conteúdo original, precisamos pensar em como responder, acompanhar e nos adaptar a essa parte dinâmica da indústria. Decidir como o conteúdo que criamos é criado, distribuído e consumido agora é uma mistura complicada de estratégia, tecnologia, finanças, ética e muito mais.

Seja como for que você responda, você está se posicionando em um momento histórico. Eu sinto seu fardo.


As opiniões expressas neste artigo são do autor convidado e não necessariamente do Search Engine Land. Os autores da equipe estão listados aqui.