爬蟲、搜索引擎和生成式人工智能公司的污點

已發表: 2023-07-13

過去幾個月生成式人工智能產品的熱潮促使許多網站採取了應對措施。

基本的擔憂是這樣的：

AI產品依賴於消耗大量內容來訓練其語言模型（所謂的大型語言模型，簡稱LLM），而這些內容必須來自某個地方。人工智能公司認為網絡的開放性允許大規模爬行以獲得訓練數據，但一些網站運營商不同意，包括Reddit、Stack Overflow和Twitter。

這個有趣問題的答案無疑會在世界各地的法庭上引起訴訟。

本文將探討這個問題，重點關注業務和技術方面。但在我們深入討論之前，有幾點：

儘管這個主題涉及（我在本文中包含）一些法律論點，但我不是律師，我不是你的律師，我不會給你任何形式的建議。如果您需要法律建議，請與您最喜歡的律師貓交談。
很多年前我曾在谷歌工作，主要從事網絡搜索工作。即使我在下面引用了一些谷歌示例，我也不以任何方式代表谷歌發言。
這是一個快速發展的話題。可以保證，在我寫完這篇文章和您閱讀它之間，行業中會發生一些重大事件，而且我肯定會錯過一些東西！

搜索引擎和網站之間的“交易”

我們從現代搜索引擎（如 Google 或 Bing）的工作原理開始。用過於簡單的術語來說，搜索引擎的工作原理如下：

搜索引擎有一個 URL 列表。每個 URL 都有元數據（有時稱為“信號”），指示該 URL 對於在搜索引擎的結果頁面中顯示可能很重要或有用。
基於這些信號，搜索引擎有一個爬蟲，一個機器人，它是一個根據信號指示的內容按“重要性”順序獲取這些 URL 的程序。為此，Google 的抓取工具稱為 Googlebot，Bing 的抓取工具稱為 Bingbot（兩者都有更多用於其他目的的抓取工具，例如廣告）。兩個機器人都在用戶代理標頭中標識自己，並且都可以由網站以編程方式進行驗證，以確保內容正在提供給真正的搜索引擎機器人，而不是欺騙。
獲取內容後，就會對其建立索引。搜索引擎索引是複雜的數據庫，其中包含頁面內容以及大量元數據和用於將內容與用戶查詢進行匹配和排名的其他信號。索引是當您在 Google 或 Bing 中輸入查詢時實際搜索到的內容。

現代搜索引擎，至少是好的禮貌搜索引擎，使網站運營商能夠完全控制爬行和索引。

機器人排除協議是通過 robots.txt 文件以及網頁本身上的元標記或標頭實現此控制的方式。這些搜索引擎自願遵守機器人排除協議，將網站執行該協議視為指令，絕對的命令，而不僅僅是暗示。

重要的是，協議的默認位置是允許所有爬行和索引 – 默認情況下是允許的。除非網站運營者主動採取措施實施排除，否則該網站將被視為允許爬行和索引。

這為我們提供了搜索引擎和網站之間處理的基本框架：默認情況下，搜索引擎將抓取網站並為其建立索引，而搜索引擎又將搜索者直接指向搜索結果中的原始網站以進行相關查詢。

這筆交易從根本上來說是一種經濟交換：內容的製作、託管和服務成本由網站承擔，但其想法是，網站獲得的流量會以利潤來回報。

注意：我在這裡故意忽略了一系列相關的爭論，比如誰在這個交易中擁有更多的權力，誰賺了更多的錢，公平性等等。 我並不是貶低這些——我只是不想分散對本文核心主題的注意力。

這種流量索引方法出現在其他地方，例如當搜索引擎被允許對付費專區後面的內容進行索引時。這是相同的想法：網站共享內容，以換取在搜索結果中顯示內容，將搜索者直接引導回該網站。

在交易過程的每個步驟中，如果發布商想要以任何方式阻止全部或部分爬行或索引，那麼發布商可以使用多種使用機器人和排除協議的工具。任何仍然允許被抓取和索引的內容是因為網站通過在搜索結果中顯示而獲得直接的好處。

這一論點以某種形式實際上已在法庭上得到使用，即所謂的“robots.txt 辯護”，並且基本上得到了支持；請參閱這份簡短的法庭案件清單，其中許多涉及 Google，以及 2007 年的這篇文章，但對此並不完全滿意。

LLM 不是搜索引擎

現在應該非常清楚，法學碩士與搜索引擎不同。

語言模型的響應不會直接指向其內容用於訓練模型的網站。沒有像我們在搜索引擎中看到的那樣的經濟交換，這就是許多出版商（和作者）感到不安的原因。

缺乏直接來源引用是搜索引擎和法學碩士之間的根本區別，它回答了一個非常常見的問題：“為什麼應該允許 Google 和 Bing 抓取內容而不是 OpenAI？” （我對這個問題使用了更禮貌的措辭。）。

谷歌和必應試圖在其生成式人工智能響應中顯示源鏈接，但這些源即使顯示出來，也不是完整的集合。

這就提出了一個相關問題：如果網站沒有得到任何回報，為什麼應該允許其內容用於訓練語言模型？

這是一個非常好的問題——而且可能是我們作為一個社會應該回答的最重要的問題。

儘管當前一代的法學碩士存在重大缺點（例如幻覺、對人類操作員撒謊和偏見等），但法學碩士確實有好處，而且隨著時間的推移，這些好處只會隨著缺點的解決而增加。

但對於本次討論，重要的一點是要認識到開放網絡目前運作方式的基本支柱並不適合法學碩士。

骯髒

對於那些只為了自身經濟利益而訓練大型模型感興趣的人工智能公司來說，這顯然不是問題。

OpenAI 使用了多個數據集作為訓練數據輸入（GPT3 的詳細信息請參見此處），並且 OpenAI 故意不公開 GPT4 的訓練數據集。

儘管 OpenAI 使用許多論據來證明不披露有關 GPT4 訓練數據的信息（此處討論），但我們的關鍵點仍然是：我們不知道使用哪些內容來訓練它，並且 OpenAI 沒有在 ChatGPT 響應中顯示這一點。

OpenAI 的數據收集是否遵守機器人排除協議？它是否包含受版權保護的文本，例如教科書或其他書籍？他們是否獲得了任何網站或出版商的許可？他們不說。

Brave Software 的超級陰暗做法

如果說 OpenAI 的方法有問題，那麼 Brave Software（Brave 瀏覽器和 Brave 搜索引擎的製造商）在搜索和 AI 訓練數據方面採取的方法和立場甚至更有問題。

Brave 搜索引擎在很大程度上依賴於所謂的網絡發現項目。該方法非常複雜，並在此處進行了記錄，但我將強調一個關鍵事實：Brave 似乎沒有運行集中式爬蟲，並且沒有一個爬蟲將自己標識為 Brave 的爬蟲，並且（請坐下來）Brave出售抓取的內容，並授予買家進行人工智能培訓的權利。

這句話的內容很多，我們來分析一下。

Brave搜索使用Brave瀏覽器作為分佈式爬蟲。如本幫助文章中所述，有以下常見問題解答：

Web Discovery 項目是爬蟲嗎？
在某種程度上，是的。 Web Discovery 項目處理來自 Brave 網絡爬蟲的獲取作業。每隔幾秒或幾分鐘，瀏覽器可能會被指示獲取網頁並將 HTML 發送回 Brave 。但是，此提取不會影響您的瀏覽歷史記錄或 cookie — 它是作為私有提取 API 調用完成的。為了額外的安全性，獲取作業域是從一小組無害且信譽良好的域中預先選擇的。
什麼是網絡發現項目？ – 勇敢的搜索

Fetch API 是一種內置於現代瀏覽器引擎（包括 Brave 使用的引擎）中的 Web 標準功能。它的常見用途是獲取內容以在瀏覽器中向用戶顯示。出於我們的目的，我們立即知道這是用戶的瀏覽器代表 Brave 的搜索引擎請求網站內容。

有趣的是，2021 年 6 月的 Reddit 帖子增加了更多細節和混亂。 Brave 代表的一個回复非常有趣（重點是我的）：

我們有自己的爬蟲，但它不包含用戶代理字符串（就像瀏覽器 Brave也不包含唯一的用戶代理字符串）以避免潛在的歧視。也就是說，我們已經討論過可能向管理員識別爬蟲，他們想知道爬蟲何時/在何處降落在他們的財產上。 我們也尊重 robots.txt ，所以如果您不希望 Brave Search 抓取您的網站，它也不會。

這是事實的金礦：

他們有自己的爬蟲，這可能是指集中式爬蟲，也可能是指基於瀏覽器的分佈式網絡發現項目。
該爬網程序並不將自己標識為爬網程序，但它以某種方式遵守機器人排除協議（以 robots.txt 文件的形式）。如果瀏覽器無法識別自己，網站運營商如何編寫機器人排除指令？ robots.txt 文件中將使用哪個用戶代理令牌（如其名稱）來指定特定於 Brave 爬蟲程序的指令？我無法找到 Brave 的任何文檔。
他們所說的歧視實際上是出版商控制抓取的方式。機器人排除協議是發布者區分允許用戶和爬蟲訪問的內容以及區分不同爬蟲的機制（例如允許 Bingbot 爬行但不允許 Googlebot 爬行）。通過聲稱他們想要避免歧視，Brave 實際上是在說他們可以決定抓取和索引的內容，而不是出版商。

回到 Fetch API：默認情況下，Fetch API 使用瀏覽器的用戶代理字符串。我們已經知道，Brave 瀏覽器不會使用唯一的用戶代理標頭來標識自己，而是使用底層瀏覽器引擎生成的通用用戶代理字符串。

用戶代理字符串可以針對一般瀏覽器和 Fetch API 進行定制，但我沒有發現任何跡象表明 Brave 會這樣做（事實上，上面引用的 Reddit 回復明確表示沒有唯一標識符）。

此外，Brave 繼續出售專門用於人工智能訓練的抓取數據，而不僅僅是作為搜索結果（例如，為網站搜索功能提供支持）。

訪問 Brave Search API 主頁會顯示幾個價格等級，其中包括一些稱為“AI 數據”的價格等級。這些數據計劃包括“具有存儲權限的數據”選項，允許訂閱者“緩存/存儲數據以訓練人工智能模型”，數據包括“人工智能的額外備用片段”和“使用數據進行人工智能推理的權利”。 ”

綜上所述，根據 Brave 的公開聲明和缺乏文檔，Brave 以隱秘的方式抓取網絡，沒有明顯的方式來控製或阻止它，並繼續轉售抓取的內容用於 AI 訓練。

或者更直白地說， Brave 在未經網站出版商許可或許可的情況下，將自己指定為受版權保護的內容的營利性分銷商。

這是可以接受的嗎？我認為它是一種卑鄙的刮刀服務。

Google 的發布商控制計劃

可能很快就會出現一種新型的網絡爬蟲，一種專門用於生成人工智能的網絡爬蟲。

谷歌似乎已經認識到上面討論的不兼容性，即使用 Googlebot 為網絡搜索獲取的內容可能不適合訓練人工智能模型。

谷歌已經宣布他們希望啟動社區討論來創建人工智能網絡發布者控件（嘿，谷歌，我註冊了，請讓我加入！）。我全心全意地支持進行這次對話，谷歌做得很好，為進行這次對話打開了大門。

由於我們還處於早期階段，重要的是要指出此類控件的默認值和功能對其成功或失敗至關重要。我懷疑許多出版商和作者都會有強烈的意見，我們需要聽到這些人工智能控件應該如何工作。

開源法學碩士怎麼樣？

上述論點的一個重要方面是經濟交換。但是，如果語言模型背後的組織自由地發布模型而不給自己帶來好處怎麼辦？

有許多這樣的開源模型，它們所訓練的數據集與用於訓練商業專有模型的數據集基本上重疊。目前許多開源模型對於某些用例來說已經足夠好了，而且它們只會變得更好。

仍然：未經許可使用網站內容來培訓開源法學碩士是否正確？

這可能是一個更棘手的問題，我認為答案目前取決於機器人排除協議所允許的內容。谷歌的 AI Web Publisher Controls 或其他類似舉措可能會以精心設計的方法的形式出現更好的答案。

關注此空間。

那麼出版商現在可以做什麼呢？

這種現狀是很多出版商不願意也不願意接受的。他們能做什麼？

在這裡，我們需要回到老式的爬蟲/機器人攔截。爬蟲一般有兩種類型：

能夠識別自己身份的爬蟲。 它們可能遵守也可能不遵守機器人排除協議，但至少服務器有一個標識符可以檢查以決定是否阻止請求。示例包括 Googlebot 和 Bingbot。
隱形爬蟲，不用於禮貌的搜索引擎。 他們不表明自己的身份和/或不遵守機器人排除協議。例如任何腳本小子的垃圾郵件抓取工具或 Brave Search 的爬蟲。

您可以做兩件互補的事情：

如果爬蟲遵守機器人排除協議，並且您認為它爬取的內容會進入人工智能訓練數據，則可以阻止它。這裡有兩種方法：
- 阻止所有抓取工具並僅允許您希望允許的抓取工具（例如 Googlebot 和 Bingbot）。這對於網站在自然搜索中的性能來說是危險的。您需要非常小心，但它對這些爬蟲很有效。
- 允許所有爬行並阻止您想要阻止的爬行。這種更寬鬆的方法危險性較小，但當然您的內容可能會被人工智能或您可能不想要的其他爬蟲抓取。
使用服務器端隱形機器人檢測器，並用它來阻止此類爬蟲。許多產品都可以做到這一點。如果您像許多發布商一樣使用內容分發網絡 (CDN)，則很可能可以通過該網絡使用此類功能（例如 Akamai、Cloudflare、Fastly）。

我開始對我運營的網站採取並與客戶討論的方法是選項 (1a) 和 (2) 的組合，即使用限制性 robots.txt 文件和 CDN 控件。

這可能不是每個出版商的最佳方法，但我認為值得認真考慮。

這是什麼意思呢？

我們所生活的時代將成為歷史上最有影響力的時代之一。人們確實通過人工智能預測了人類的末日。我們每個人都可以在塑造未來的過程中發揮作用。

作為原創內容的創作者，我們需要思考如何應對、跟上和適應這個快速發展的行業。現在，決定如何創建、分發和消費我們創作的內容是戰略、技術、財務、道德等因素的複雜結合。

無論你如何回應，你都是在歷史性時刻表明立場。我感受到你的負擔。

本文表達的觀點是客座作者的觀點，並不一定是搜索引擎土地的觀點。 此處列出了工作人員作者。

將搜索引擎土地添加到您的 Google 新聞提要中。