Robots.txt는 답이 아닙니다: LLM/AI를 위한 새로운 메타 태그 제안

게시 됨: 2023-07-18

Google은 생성 AI 제품을 위한 대규모 언어 모델(LLM)을 교육할 때 크레딧 제공 및 저작권 준수에 대한 논의를 시작하는 동안 robots.txt 파일에 초점을 맞춥니다.

그러나 제 생각에는 이것은 보기에 잘못된 도구입니다.

나의 전 동료인 Pierre Far는 크롤러, 검색 엔진 및 생성 AI 회사의 비열함에 대한 훌륭한 기사를 작성하여 현재 온라인 출판 업계가 직면하고 있는 엄청난 과제 중 일부를 강조했습니다. 그의 기사와 유사하게 이 분야의 개발이 매우 빠르게 진행되고 있으므로 이 제안을 높은 수준으로 유지할 것입니다.

robots.txt를 사용하지 않는 이유

게시자의 저작권을 존중하는 방법에 대한 논의에서 robots.txt를 사용하는 것이 잘못된 시작점인 몇 가지 이유가 있습니다.

모든 LLM이 크롤러를 사용하고 자신을 식별하는 것은 아닙니다.

웹 사이트 운영자는 생성 AI 제품을 위해 데이터를 사용 및/또는 판매할 수 있는 개별 크롤러를 식별하고 차단해야 합니다. 이는 특히 소규모 게시자의 경우 많은 추가(불필요한) 작업을 생성합니다.

이것은 또한 게시자가 robots.txt 파일에 대한 편집 액세스 권한을 가지고 있다고 가정합니다. 이는 호스팅된 솔루션의 경우 항상 그런 것은 아닙니다.

크롤러 수가 계속 증가함에 따라 이는 지속 가능한 솔루션이 아닙니다.

새로 제안된 robots.txt 표준에 따르면 robots.txt 파일의 사용 가능한 파일 크기는 500kb로 제한됩니다.

즉, 대규모 퍼블리셔가 다른 봇 외에도 많은 LLM 크롤러 및/또는 정제된 URL 패턴을 차단해야 하는 경우 robots.txt 파일에 문제가 발생할 수 있습니다.

'전부 아니면 전무' 접근 방식은 용납할 수 없습니다.

Googlebot 및 Bingbot과 같은 더 큰 크롤러의 경우 검색 엔진 결과 페이지에 사용되는 데이터를 구분할 수 없습니다(전통적으로 원본에 대한 "인용" 형태로 게시자와 검색 엔진 간에 "계약"이 있는 경우). 소스) 및 생성 AI 제품.

생성 AI 제품에 대해 Googlebot 또는 Bingbot을 차단하면 해당 검색 결과의 잠재적인 가시성도 차단됩니다. 이는 퍼블리셔가 "전부 아니면 전무" 사이에서 선택을 강요당하는 용납할 수 없는 상황입니다.

Robots.txt는 크롤링 관리에 관한 것이고 저작권 토론은 데이터 사용 방법에 관한 것입니다.

후자는 인덱싱/처리 단계에 관한 것입니다. 따라서 robots.txt는 이 토론과 실제로 관련이 없으며 다른 방법이 작동하지 않고 실제로 이 특정 토론의 시작점이 되어서는 안 되는 경우 최후의 수단입니다.

robots.txt 파일은 크롤러에서 잘 작동하며 LLM을 위해 변경할 필요가 없습니다. 예, LLM 크롤러는 자신을 식별해야 하지만 실제로 이야기해야 할 것은 크롤링된 데이터의 인덱싱/처리입니다.

바퀴의 재발명

다행스럽게도 웹에는 이미 저작권과 관련된 데이터 사용을 관리하는 데 사용할 수 있는 잘 구축된 솔루션이 있습니다. 크리에이티브 커먼즈라고 합니다.

대부분의 크리에이티브 커먼즈 라이선스는 LLM의 목적에 적합합니다. 예를 들면:

  • CC0을 통해 LLM은 조건 없이 모든 매체 또는 형식의 자료를 배포, 리믹스, 적응 및 구축할 수 있습니다.
  • CC BY를 사용하면 작성자에게 귀속이 부여되는 한 LLM이 모든 매체 또는 형식의 자료를 배포, 리믹스, 적응 및 구축할 수 있습니다. 라이센스는 상업적 사용을 허용하지만 제작자에게 크레딧을 제공해야 합니다.
  • CC BY-SA를 통해 LLM은 제작자에게 귀속이 부여되는 한 모든 매체 또는 형식의 자료를 배포, 리믹스, 적응 및 구축할 수 있습니다. 라이센스는 상업적 사용을 허용합니다. LLM이 자료를 리믹스, 개작 또는 구축하는 경우 수정된 자료에 대해 동일한 조건으로 라이선스를 부여해야 합니다.
  • CC BY-NC는 창작자에게 귀속이 주어진 경우에만 LLM이 비상업적 목적으로 모든 매체 또는 형식의 자료를 배포, 리믹스, 개작 및 구축할 수 있도록 허용합니다.
  • CC BY-NC-SA는 창작자에게 귀속이 주어진 경우에만 LLM이 비상업적 목적으로 모든 매체 또는 형식의 자료를 배포, 리믹스, 개작 및 구축할 수 있도록 허용합니다. LLM이 자료를 리믹스, 개작 또는 구축하는 경우 수정된 자료에 대해 동일한 조건으로 라이선스를 부여해야 합니다.
  • CC BY-ND는 작성자에게 귀속이 부여되는 한 LLM이 모든 매체 또는 형식의 자료를 적응되지 않은 형태로 복사하고 배포할 수 있도록 허용합니다. 이 라이센스는 상업적 사용을 허용하며 창작자에게 크레딧을 제공해야 하지만 저작물의 파생물이나 개작물은 허용되지 않습니다.
  • CC BY-NC-ND는 창작자에게 권한을 부여하고 작업의 파생물이나 개작물이 허용되지 않는 한 LLM이 비상업적인 목적으로만 적응되지 않은 형식으로 모든 매체 또는 형식으로 자료를 복사하고 배포할 수 있도록 허용합니다.

마지막 두 라이선스는 LLM에 사용할 가능성이 낮습니다.

그러나 처음 5개의 라이선스는 LLM이 크롤링/획득한 데이터를 사용하는 방법을 고려하고 게시자로부터 데이터를 사용할 때 부여된 요구 사항(예: 속성 및 데이터 기반 제품 공유 시)을 준수해야 함을 의미합니다.

이것은 "많은" 퍼블리셔가 아닌 세계의 "소수의" LLM에 부담을 줄 것입니다.

처음 3개의 라이선스는 예를 들어 원래 웹사이트에 대한 링크를 통해 귀속/크레딧이 제공되는 검색 엔진 결과에서 데이터의 "전통적인" 사용을 지원합니다. 네 번째 및 다섯 번째 라이선스는 오픈 소스 LLM에 대한 연구 및 개발도 지원합니다.

참고: LLM을 구축하는 이러한 모든 소프트웨어 회사는 종종 코드 수준에서 저작권 위반을 피하기 위해 사용하는 소프트웨어 라이브러리 및 운영 체제와 관련하여 동일한 저작권 라이선스 문제가 있는 오픈 소스 소프트웨어를 사용한다는 점을 명심하십시오. 그렇다면 이 코드가 처리하는 데이터에 유사한 시스템을 사용할 수 있는데 왜 바퀴를 재발명할까요?

메타 태그는 방법입니다

게시자가 적절한 라이선스를 식별한 후에도 이 라이선스를 전달해야 합니다. 다시 말하지만 여기에서 robots.txt는 잘못된 접근 방식인 것 같습니다.

페이지가 검색 엔진에 대한 크롤링에서 차단되어야 한다고 해서 해당 페이지를 사용할 수 없거나 LLM에 유용하지 않다는 의미는 아닙니다. 이들은 서로 다른 두 가지 사용 사례입니다.

따라서 이러한 사용 사례를 구분하고 게시자에게 보다 정교하면서도 쉬운 접근 방식을 허용하려면 대신 메타 태그를 사용하는 것이 좋습니다.

메타 태그는 테마 또는 콘텐츠 내에서 페이지 수준에 삽입할 수 있는 코드 조각입니다(기술적으로 정확하지는 않지만 HTML은 충분히 관용적이며 게시자가 액세스가 제한된 경우 최후의 수단으로 사용할 수 있습니다. 코드 베이스). 게시자는 게시된 콘텐츠의 HTML을 편집할 수 있는 것 외에 추가 액세스 권한을 가질 필요가 없습니다.

메타 태그를 사용해도 meta noindex처럼 크롤링이 중지되지 않습니다. 그러나 게시된 데이터의 사용 권한을 전달할 수 있습니다.

그리고 사용할 수 있는 기존 저작권 태그가 있지만 - 특히 Dublin Core, rights-standard(포기된 제안), copyright-meta(라이선스보다는 소유자의 이름에 초점을 맞춤) 및 기타 시도에서 - 현재 구현된 일부 웹사이트에 있는 이것들은 우리가 여기에서 달성하려고 하는 것과 충돌할 수 있습니다.

따라서 새 메타 태그가 필요할 수 있습니다. "rights-standard"와 같은 기존 또는 이전 메타 태그도 재사용할 수 있어 기쁩니다. 이 논의를 위해 다음과 같은 새로운 메타 태그를 제안합니다.

 <meta name="usage-rights" content="CC-BY-SA" />

또한 LLM 크롤러가 크롤링 리소스를 더 잘 관리하도록 돕기 위해 X-Robots-Tag에서 noindex가 지원되는 것처럼 HTTP 헤더에서 사용될 때 이 메타 태그도 지원하는 것이 좋습니다(인증을 위해 HTTP 헤더만 확인하면 됨). 사용 권한).

 X-Robots-Tag: usage-rights: CC-BY-SA

이것은 다른 메타 태그와 함께 사용할 수 있습니다. 아래 예에서 페이지는 검색 결과에 사용되어서는 안 되지만 소스에 긴 크레딧이 제공되는 경우 상업용 LLM에 사용할 수 있습니다.

 X-Robots-Tag: usage-rights: CC-BY, noindex

참고: 메타 태그의 "사용 권한"이라는 이름은 제안이며 변경할 수 있습니다.

완벽한 솔루션

물론 LLM과 생성 AI 제품을 구축하는 나쁜 크롤러와 나쁜 행위자가 있습니다.

제안된 메타 태그 솔루션은 콘텐츠가 그런 식으로 사용되는 것을 막지 못하지만 robots.txt 파일도 마찬가지입니다.

두 가지 방법 모두 AI 제품에 데이터를 사용하는 회사의 인식 및 준수에 달려 있음을 인정하는 것이 중요합니다.

결론

바라건대, 이 기사는 LLM에서 데이터 사용을 관리하기 위해 robots.txt를 사용하는 것이 LLM 및 생성 AI 제품의 새로운 시대에서 사용 및 저작권을 처리하기 위한 잘못된 접근/출발점임을 보여줍니다.

이 메타 태그 구현을 통해 게시자는 페이지가 다른 목적(예: 검색 엔진 결과)을 위해 크롤링되거나 색인 생성되는 것을 방지하지 않고 크리에이티브 커먼즈를 사용하여 페이지 수준에서 저작권 정보를 지정할 수 있습니다. 또한 LLM, 생성 AI 제품 및 잠재적인 미래 AI 제품을 포함하여 다양한 용도로 저작권 선언을 할 수 있습니다.


이 기사에 표현된 의견은 게스트 작성자의 의견이며 반드시 검색 엔진 랜드가 아닙니다. 교직원 저자는 여기에 나열됩니다.