Robots.txt 不是答案:為 LLM/AI 提出新的元標記

已發表: 2023-07-18

雖然谷歌正在就在為生成人工智能產品訓練大型語言模型(LLM)時給予認可和遵守版權展開討論,但他們的重點是robots.txt文件。

然而,在我看來,這是一個錯誤的工具。

我的前同事 Pierre Far 寫了一篇關於爬蟲、搜索引擎和生成型人工智能公司的優秀文章,他在其中強調了在線出版行業目前面臨的一些巨大挑戰。 與他的文章類似,我將保持該提案的高水平,因為該領域的發展速度非常快。

為什麼不使用robots.txt

有幾個原因可以解釋為什麼使用 robots.txt 是討論如何尊重出版商版權的錯誤起點。

並非所有法學碩士都使用爬蟲程序並表明自己的身份

網站運營商有責任識別和阻止單個爬蟲,這些爬蟲可能會使用和/或出售其數據來生成人工智能產品。 這會產生大量額外(且不必要)的工作,特別是對於小型出版商而言。

這還假設發布商對其 robots.txt 文件具有編輯權限,但託管解決方案並非總是如此。

隨著爬蟲數量持續增長,這不是一個可持續的解決方案

根據新提出的 robots.txt 標準,robots.txt 文件的可用文件大小限制為 500 kb。

這意味著,如果大型發布商除了其他機器人之外還需要阻止大量 LLM 爬網程序和/或精煉 URL 模式,他們的 robots.txt 文件可能會遇到問題。

“全有或全無”的做法是不可接受的

對於像 Googlebot 和 Bingbot 這樣的大型爬蟲來說,用於搜索引擎結果頁面的數據之間沒有區別(傳統上,出版商和搜索引擎之間以對原始數據的“引用”形式存在“協議”)來源)和生成式人工智能產品。

阻止 Googlebot 或 Bingbot 的生成人工智能產品也會阻止其各自搜索結果中的任何潛在可見性。 這是一種不可接受的情況,出版商被迫在“全有或全無”之間做出選擇。

Robots.txt 的重點是管理爬行,而版權討論的重點是如何使用數據

後者是關於索引/處理階段。 因此,robots.txt 與此討論並不真正相關,而是在沒有其他方法有效的情況下的最後手段,並且實際上不應該成為此特定討論的起點。

Robots.txt 文件對於爬蟲來說工作得很好,並且不需要為了 LLM 的目的而進行更改。 是的,LLM爬蟲需要識別自己的身份,但我們真正需要討論的是爬取數據的索引/處理。

重新發明輪子

幸運的是,網絡已經擁有一些完善的解決方案,可用於管理版權方面的數據使用。 它被稱為知識共享。

大多數知識共享許可對於法學碩士來說都可以很好地發揮作用。 為了顯示:

  • CC0 允許法學碩士無條件地以任何媒介或格式分發、重新混合、改編和構建材料。
  • CC BY 允許法學碩士以任何媒介或格式分發、重新混合、改編和構建材料,只要註明作者的出處。 該許可證允許商業用途,但必須註明創作者。
  • CC BY-SA 允許法學碩士以任何媒介或格式分發、重新混合、改編和構建材料,只要註明作者的出處。 該許可證允許商業用途。 如果法學碩士重新混合、改編或在材料的基礎上進行構建,則必鬚根據相同的條款許可修改後的材料。
  • CC BY-NC 允許法學碩士以任何媒介或格式分發、重新混合、改編和構建材料,僅用於非商業目的,只要註明創作者的歸屬即可。
  • CC BY-NC-SA 允許法學碩士以任何媒介或格式分發、重新混合、改編和構建材料,僅用於非商業目的,只要註明創作者的歸屬即可。 如果法學碩士重新混合、改編或在材料的基礎上進行構建,他們必鬚根據相同的條款許可修改後的材料。
  • CC BY-ND 允許法學碩士以任何媒介或格式以未經改編的形式複制和分發材料,前提是註明作者的出處。 該許可證允許商業用途,並且必須向創作者提供信用,但不允許對作品進行衍生或改編。
  • CC BY-NC-ND 允許法學碩士以任何媒介或格式以未經改編的形式複制和分發材料,僅用於非商業目的,只要註明作者歸屬,並且不允許對作品進行衍生或改編。

最後兩個許可證不太可能用於法學碩士。

然而,前五個許可證意味著法學碩士需要考慮如何使用爬取/獲取的數據,並確保遵守使用發布者數據時的要求,例如歸屬以及共享基於數據構建的產品時的要求。

這將給世界上“少數”法學碩士而不是“許多”出版商帶來負擔。

前三個許可證還支持數據的“傳統”使用,例如,在搜索引擎結果中,通過原始網站的鏈接給出歸屬/信用。 而第四個和第五個許可證也支持開源法學碩士的研究和開發。

旁注:請記住,所有這些構建法學碩士的軟件公司通常都使用開源軟件,他們在使用軟件庫和操作系統方面面臨相同的版權許可挑戰,以避免代碼級別的版權侵犯。 那麼,當我們可以使用類似的系統來處理此代碼處理的數據時,為什麼要重新發明輪子呢?

元標籤就是這樣

一旦發布者確定了適當的許可證,仍需要傳達該許可證。 同樣,這就是 robots.txt 似乎是錯誤方法的地方。

僅僅因為一個頁面應該被阻止被搜索引擎抓取並不意味著它不能被使用或者對法學碩士沒有用處。 這是兩個不同的用例。

因此,為了區分這些用例並為發布商提供更精緻且更簡單的方法,我建議我們使用元標記。

元標籤是可以在頁面級別、主題或內容中插入的代碼片段(我知道,這在技術上是不正確的,但 HTML 足夠寬容,可以作為發布者訪問權限有限時的最後手段)到代碼庫)。 除了能夠編輯已發佈內容的 HTML 之外,它們不要求發布者俱有其他訪問權限。

使用元標記不會停止爬行,就像元 noindex 一樣。 但是,它允許您傳達已發布數據的使用權利。

儘管有現有的版權標籤可以使用——特別是都柏林核心、版權標準(放棄提案)、版權元(重點關注所有者的名稱而不是許可證)和其他嘗試——但當前的現有實現某些網站上的這些內容可能與我們在此嘗試實現的目標相衝突。

因此,可能需要一個新的元標記,儘管我也很樂意重複使用現有的或舊的元標記,例如“rights-standard”。 對於本次討論,我建議使用以下新元標記:

 <meta name="usage-rights" content="CC-BY-SA" />

另外,我建議在HTTP headers中使用時也支持這個meta標籤,就像X-Robots-Tag中支持noindex一樣,以幫助LLM爬蟲更好地管理他們的爬行資源(他們只需要檢查HTTP headers來驗證)使用權)。

 X-Robots-Tag: usage-rights: CC-BY-SA

這可以與其他元標記結合使用。 在下面的示例中,該頁面不應用於搜索結果,但可以用於商業法學碩士,只要註明來源即可:

 X-Robots-Tag: usage-rights: CC-BY, noindex

注意:元標記的名稱“使用權”是一個提案,可以更改。

萬無一失的解決方案

誠然,有一些糟糕的爬蟲和不良演員在構建他們的法學碩士和生成式人工智能產品。

建議的元標記解決方案不會阻止內容以這種方式使用,但 robots.txt 文件也不會。

重要的是要承認,這兩種方法都取決於使用人工智能產品數據的公司的認可和合規性。

結論

希望本文能夠說明如何使用 robots.txt 來管理法學碩士中的數據使用,在我看來,在法學碩士和生成人工智能產品的新時代處理使用和版權的方法/起點是錯誤的。

這種元標記的實現將使發布者能夠使用知識共享在頁面級別指定版權信息,而不會阻止頁面被爬網或索引用於其他目的(例如搜索引擎結果)。 它還允許為各種用途做出版權聲明,包括法學碩士、生成式人工智能產品和潛在的未來人工智能產品。


本文表達的觀點是客座作者的觀點,並不一定是搜索引擎土地的觀點。 此處列出了工作人員作者。