Robots.txt は答えではありません: LLM/AI の新しいメタタグの提案

公開: 2023-07-18

Google は、生成 AI 製品用の大規模言語モデル (LLM) をトレーニングする際のクレジットの付与と著作権の遵守に関する議論を開始していますが、焦点は robots.txt ファイルにあります。

しかし、私の意見では、これは間違ったツールです。

私の元同僚の Pierre Far は、クローラー、検索エンジン、生成 AI 企業の卑劣な行為に関する優れた記事を書き、オンライン出版業界が現在直面している計り知れない課題のいくつかを強調しました。彼の記事と同様に、この分野の開発は非常にペースが速いため、私はこの提案をハイレベルなままにしておきます。

robots.txt を使用しない理由

robots.txt の使用が、発行者の著作権を尊重する方法に関する議論の出発点として間違っている理由はいくつかあります。

すべての LLM がクローラーを使用して自身を識別するわけではありません

生成 AI 製品にデータを使用および/または販売する可能性のある個々のクローラーを特定してブロックするのは、Web サイト運営者の負担です。これにより、特に小規模な出版社にとっては、多くの余分な (そして不必要な) 作業が発生します。

また、これは発行者が robots.txt ファイルへの編集アクセス権を持っていることを前提としていますが、ホストされたソリューションでは必ずしもそうであるとは限りません。

クローラーの数は増え続けるため、これは持続可能なソリューションではありません

新しく提案された robots.txt 標準によれば、robots.txt ファイルの使用可能なファイルサイズは 500 kb に制限されています。

これは、大規模なパブリッシャーが、他のボットに加えて、多数の LLM クローラーや洗練された URL パターンをブロックする必要がある場合に、robots.txt ファイルで問題が発生する可能性があることを意味します。

「全か無か」のアプローチは受け入れられない

Googlebot や Bingbot のような大規模なクローラーの場合、検索エンジンの結果ページに使用されるデータを区別することはできません (伝統的に、オリジナルへの「引用」という形でパブリッシャーと検索エンジンの間に「合意」が存在します)出典）および生成 AI 製品。

Googlebot または Bingbot の生成 AI 製品をブロックすると、それぞれの検索結果での潜在的な可視性もブロックされます。これは、出版社が「すべてか何もか」の選択を迫られる、容認できない状況です。

Robots.txt はクロールの管理に関するものですが、著作権に関する議論はデータの使用方法に関するものです。

後者はインデックス作成/処理フェーズに関するものです。そのため、robots.txt はこの議論にはあまり関係ありませんが、他に何もうまくいかない場合の最後の手段であり、実際にはこの特定の議論の出発点であるべきではありません。

robots.txt ファイルはクローラーに対して適切に機能するため、LLM の目的で変更する必要はありません。はい、LLM クローラーは自身を識別する必要がありますが、実際に説明する必要があるのは、クロールされたデータのインデックス作成と処理です。

車輪の再発明

幸いなことに、Web には、著作権に関してデータの使用を管理するために使用できる確立されたソリューションがいくつかあります。それはクリエイティブ・コモンズと呼ばれます。

ほとんどのクリエイティブコモンズライセンスは、LLM の目的に適しています。説明する：

CC0 を使用すると、LLM は、条件なしであらゆる媒体またはフォーマットで素材を配布、リミックス、適応、構築することができます。
CC BY により、LLM は、作成者に帰属が与えられる限り、あらゆる媒体または形式で素材を配布、リミックス、翻案、構築することができます。ライセンスでは商用利用が許可されていますが、作成者のクレジットを表示する必要があります。
CC BY-SA により、LLM は、作成者に帰属が与えられる限り、あらゆる媒体または形式で素材を配布、リミックス、翻案、構築することができます。ライセンスにより商用利用が許可されます。 LLM が素材をリミックス、改作、または構築する場合、変更された素材を同一の条件でライセンス供与する必要があります。
CC BY-NC では、作成者の帰属が明示されている場合に限り、LLM が非営利目的で、あらゆる媒体または形式で素材を配布、リミックス、翻案、構築することが許可されます。
CC BY-NC-SA では、作成者に帰属が示されている場合に限り、LLM が非営利目的で、あらゆる媒体または形式で素材を配布、リミックス、翻案、構築することが許可されています。 LLM が素材をリミックス、改作、または構築する場合、変更された素材を同一の条件でライセンス供与する必要があります。
CC BY-ND では、作成者に帰属が示されている場合に限り、LLM が素材を改変されていない形式であらゆる媒体または形式でコピーおよび配布することが許可されます。ライセンスでは商用利用が許可されており、作成者のクレジットを表示する必要がありますが、作品の派生作品や翻案は許可されません。
CC BY-NC-ND では、LLM は非営利目的に限り、作成者に帰属が示され、作品の派生作品や翻案が許可されていない限り、素材を未加工の形式であらゆる媒体または形式でコピーおよび配布することが許可されています。

最後の 2 つのライセンスは LLM には使用できない可能性があります。

ただし、最初の 5 つのライセンスは、LLM がクロール/取得したデータの使用方法を検討し、帰属やデータに基づいて構築された製品を共有するときなど、発行者からのデータを使用する際に課せられる要件を遵守する必要があることを意味します。

これにより、世界中の「多数」のパブリッシャーではなく、「少数」の LLM に負担がかかることになります。

最初の 3 つのライセンスは、たとえば、元の Web サイトへのリンクを通じて帰属/クレジットが表示される検索エンジンの結果など、データの「従来の」使用法もサポートしています。一方、4 番目と 5 番目のライセンスは、オープンソース LLM の研究開発もサポートしています。

補足: LLM を構築しているこれらすべてのソフトウェア会社は、オープンソースソフトウェアを使用していることが多く、コードレベルでの著作権侵害を回避するために使用するソフトウェアライブラリとオペレーティングシステムに関して同じ著作権ライセンスの問題があることに留意してください。 このコードが処理するデータに同様のシステムを使用できるのに、なぜ車輪を再発明する必要があるのでしょうか?

メタタグがその方法です

発行者が適切なライセンスを特定した後も、このライセンスを伝える必要があります。ここでも、robots.txt のアプローチが間違っていると思われます。

ページが検索エンジンのクロールからブロックされる必要があるからといって、そのページが LLM にとって使用できない、または役に立たないという意味ではありません。これらは 2 つの異なる使用例です。

したがって、これらのユースケースを分離し、パブリッシャーにとってより洗練された、かつ簡単なアプローチを可能にするために、代わりにメタタグを使用することをお勧めします。

メタタグは、ページレベルでテーマまたはコンテンツ内に挿入できるコードの一部です (これは技術的に正しくないことは承知していますが、HTML は十分な寛容性を備えているため、サイト運営者のアクセスが制限されている場合の最後の手段として使用できます)コードベースに)。発行者は、発行されたコンテンツの HTML を編集できること以外に追加のアクセス権を必要としません。

メタ noindex のように、メタタグを使用してもクロールは停止しません。ただし、公開されたデータの使用権を伝達することはできます。

そして、使用できる既存の著作権タグはありますが、特に Dublin Core、rights-standard (放棄された提案)、copyright-meta (ライセンスではなく所有者の名前に焦点を当てています) およびその他の試みからのものですが、現在の既存の実装は、一部の Web サイトにあるこれらの内容は、ここで達成しようとしていることと矛盾する可能性があります。

したがって、新しいメタタグが必要になる可能性がありますが、「rights-standard」などの既存または古いメタタグも喜んで再利用します。この議論のために、私は次の新しいメタタグを提案します。

 <meta name="usage-rights" content="CC-BY-SA" />

さらに、LLM クローラーがクロールリソースをより適切に管理できるように、X-Robots-Tag で noindex がサポートされているように、HTTP ヘッダーで使用されるときにこのメタタグもサポートされることをお勧めします (検証するには HTTP ヘッダーをチェックするだけで済みます)。使用権）。

 X-Robots-Tag: usage-rights: CC-BY-SA

他のメタタグと組み合わせて使用できます。以下の例では、ページは検索結果には使用できませんが、ソースに長いクレジットが与えられているため、商用 LLM には使用できます。

 X-Robots-Tag: usage-rights: CC-BY, noindex

注: メタタグの名前「usage-rights」は提案であり、変更される可能性があります。

確実なソリューション

確かに、LLM や生成 AI 製品を構築する悪質なクローラーや悪質な行為者が存在します。

提案されているメタタグソリューションはコンテンツのそのような使用を妨げませんが、robots.txt ファイルも同様です。

どちらの方法も、AI 製品にデータを使用する企業の認識とコンプライアンスに依存していることを認識することが重要です。

結論

私の意見では、LLM と生成 AI 製品のこの新しい時代において、使用法と著作権に対処する上で、robots.txt を使用して LLM でのデータ使用を管理することが、間違ったアプローチ/出発点であることを、この記事で説明できれば幸いです。

このメタタグの実装により、サイト運営者は、他の目的 (検索エンジンの結果など) でページがクロールされたりインデックス付けされたりすることを妨げることなく、クリエイティブコモンズを使用してページレベルで著作権情報を指定できるようになります。また、LLM、生成 AI 製品、将来の可能性のある AI 製品など、さまざまな用途に対して著作権宣言を行うこともできます。

この記事で表明された意見はゲスト著者の意見であり、必ずしも Search Engine Land とは限りません。 スタッフの著者はここにリストされています。

Search Engine Land を Google ニュースフィードに追加します。