Robots.txt ไม่ใช่คำตอบ: การเสนอเมตาแท็กใหม่สำหรับ LLM/AI
เผยแพร่แล้ว: 2023-07-18ในขณะที่ Google กำลังเปิดการอภิปรายเกี่ยวกับการให้เครดิตและการปฏิบัติตามลิขสิทธิ์เมื่อฝึกอบรมโมเดลภาษาขนาดใหญ่ (LLM) สำหรับผลิตภัณฑ์ AI เชิงสร้างสรรค์ พวกเขามุ่งเน้นที่ไฟล์ robots.txt
อย่างไรก็ตาม ในความคิดของฉัน นี่เป็นเครื่องมือที่ไม่ถูกต้องในการดู
ปิแอร์ ฟาร์ อดีตเพื่อนร่วมงานของฉันเขียนบทความที่ยอดเยี่ยมเกี่ยวกับโปรแกรมรวบรวมข้อมูล เครื่องมือค้นหา และบริษัท AI เชิงสร้างสรรค์ ซึ่งเขาได้เน้นย้ำถึงความท้าทายอันยิ่งใหญ่ที่อุตสาหกรรมสิ่งพิมพ์ออนไลน์กำลังเผชิญอยู่ในปัจจุบัน เช่นเดียวกับบทความของเขา ฉันจะรักษาข้อเสนอนี้ไว้ในระดับสูงเนื่องจากการพัฒนาในด้านนี้ดำเนินไปอย่างรวดเร็วมาก
ทำไมไม่ใช้ robots.txt
มีเหตุผลบางประการที่ทำให้การใช้ robots.txt เป็นจุดเริ่มต้นที่ไม่ถูกต้องสำหรับการอภิปรายเกี่ยวกับการเคารพลิขสิทธิ์ของผู้เผยแพร่
ไม่ใช่ LLM ทั้งหมดที่ใช้โปรแกรมรวบรวมข้อมูลและระบุตัวเอง
ภาระอยู่ที่ผู้ดำเนินการเว็บไซต์ในการระบุและบล็อกโปรแกรมรวบรวมข้อมูลแต่ละรายการ ซึ่งอาจใช้และ/หรือขายข้อมูลของตนสำหรับผลิตภัณฑ์ AI กำเนิด สิ่งนี้ทำให้เกิดงานพิเศษ (และไม่จำเป็น) จำนวนมาก โดยเฉพาะอย่างยิ่งสำหรับผู้เผยแพร่รายเล็ก
นอกจากนี้ยังถือว่าผู้เผยแพร่มีสิทธิ์แก้ไขไฟล์ robots.txt ของตน ซึ่งไม่เป็นเช่นนั้นเสมอไปสำหรับโซลูชันที่โฮสต์
นี่ไม่ใช่วิธีแก้ปัญหาที่ยั่งยืนเนื่องจากจำนวนโปรแกรมรวบรวมข้อมูลยังคงเติบโต
ขนาดไฟล์ที่ใช้ได้ของไฟล์ robots.txt ถูกจำกัดไว้ที่ 500 kb ตามมาตรฐานของ robots.txt ที่เสนอใหม่
ซึ่งหมายความว่าผู้เผยแพร่โฆษณารายใหญ่อาจประสบปัญหากับไฟล์ robots.txt หากจำเป็นต้องบล็อกโปรแกรมรวบรวมข้อมูล LLM จำนวนมากและ/หรือรูปแบบ URL ที่ปรับแต่งเพิ่มเติมจากบอทอื่นๆ
แนวทาง 'ทั้งหมดหรือไม่มีเลย' เป็นสิ่งที่ยอมรับไม่ได้
สำหรับโปรแกรมรวบรวมข้อมูลขนาดใหญ่ เช่น Googlebot และ Bingbot จะไม่มีความแตกต่างระหว่างข้อมูลที่ใช้สำหรับหน้าผลลัพธ์ของเครื่องมือค้นหา (แต่เดิมจะมี "ข้อตกลง" ระหว่างผู้เผยแพร่และเครื่องมือค้นหาในรูปของ "การอ้างอิง" กับต้นฉบับ แหล่งที่มา) และผลิตภัณฑ์ AI กำเนิด
การบล็อก Googlebot หรือ Bingbot สำหรับผลิตภัณฑ์ AI กำเนิดของพวกเขายังบล็อกการเปิดเผยที่เป็นไปได้ในผลการค้นหาที่เกี่ยวข้อง นี่เป็นสถานการณ์ที่ยอมรับไม่ได้ที่ผู้จัดพิมพ์ถูกบังคับให้เลือกระหว่าง "ทั้งหมดหรือไม่มีเลย"
Robots.txt เป็นข้อมูลเกี่ยวกับการจัดการการรวบรวมข้อมูล ในขณะที่การสนทนาเกี่ยวกับลิขสิทธิ์นั้นเกี่ยวกับวิธีการใช้ข้อมูล
ส่วนหลังเกี่ยวกับขั้นตอนการจัดทำดัชนี/การประมวลผล ด้วยเหตุนี้ robots.txt จึงไม่เกี่ยวข้องกับการสนทนานี้จริงๆ แต่เป็นทางเลือกสุดท้ายหากไม่มีอะไรทำงาน และไม่ควรเป็นจุดเริ่มต้นของการสนทนาเฉพาะนี้
ไฟล์ Robots.txt ทำงานได้ดีสำหรับโปรแกรมรวบรวมข้อมูลและไม่จำเป็นต้องเปลี่ยนเพื่อวัตถุประสงค์ของ LLM ใช่ โปรแกรมรวบรวมข้อมูล LLM จำเป็นต้องระบุตัวเอง แต่สิ่งที่เราต้องพูดถึงจริงๆ คือการจัดทำดัชนี/การประมวลผลข้อมูลที่รวบรวมข้อมูล
คิดค้นล้อใหม่
โชคดีที่เว็บมีโซลูชันที่เป็นที่ยอมรับอยู่แล้ว ซึ่งสามารถใช้ในการจัดการการใช้ข้อมูลที่เกี่ยวข้องกับลิขสิทธิ์ได้ เรียกว่าครีเอทีฟคอมมอนส์
ใบอนุญาตครีเอทีฟคอมมอนส์ส่วนใหญ่จะใช้ได้ดีสำหรับวัตถุประสงค์ของ LLM เพื่ออธิบาย:
- CC0 อนุญาตให้ LLM แจกจ่าย รีมิกซ์ ดัดแปลง และสร้างเนื้อหาในสื่อหรือรูปแบบใดก็ได้โดยไม่มีเงื่อนไข
- CC BY อนุญาตให้ LLM แจกจ่าย รีมิกซ์ ดัดแปลง และสร้างจากเนื้อหาในสื่อหรือรูปแบบใดก็ได้ ตราบเท่าที่ระบุแหล่งที่มาให้กับผู้สร้าง ใบอนุญาตอนุญาตให้ใช้ในเชิงพาณิชย์ แต่ต้องให้เครดิตแก่ผู้สร้างสรรค์
- CC BY-SA อนุญาตให้ LLM แจกจ่าย รีมิกซ์ ดัดแปลง และสร้างจากเนื้อหาในสื่อหรือรูปแบบใดก็ได้ ตราบเท่าที่ระบุแหล่งที่มาให้กับผู้สร้าง ใบอนุญาตอนุญาตให้ใช้ในเชิงพาณิชย์ หาก LLM เรียบเรียง ดัดแปลง หรือต่อยอดจากเนื้อหา จะต้องให้สิทธิ์ใช้งานเนื้อหาที่ดัดแปลงภายใต้เงื่อนไขที่เหมือนกัน
- CC BY-NC อนุญาตให้ LLM แจกจ่าย รีมิกซ์ ดัดแปลง และสร้างจากเนื้อหาในสื่อหรือรูปแบบใดๆ เพื่อวัตถุประสงค์ที่ไม่ใช่เชิงพาณิชย์ ตราบใดที่ระบุแหล่งที่มาให้กับผู้สร้าง
- CC BY-NC-SA อนุญาตให้ LLM แจกจ่าย รีมิกซ์ ดัดแปลง และสร้างจากเนื้อหาในสื่อหรือรูปแบบใดๆ เพื่อวัตถุประสงค์ที่ไม่ใช่เชิงพาณิชย์ ตราบใดที่ระบุแหล่งที่มาให้กับผู้สร้าง หาก LLM ทำการรีมิกซ์ ดัดแปลง หรือต่อยอดจากเนื้อหา พวกเขาจะต้องอนุญาตสิทธิ์ในเนื้อหาที่ดัดแปลงภายใต้เงื่อนไขที่เหมือนกัน
- CC BY-ND อนุญาตให้ LLM คัดลอกและแจกจ่ายเนื้อหาในสื่อหรือรูปแบบใดๆ ในรูปแบบที่ไม่ได้ดัดแปลง ตราบใดที่ระบุแหล่งที่มาให้กับผู้สร้าง ใบอนุญาตอนุญาตให้ใช้ในเชิงพาณิชย์และต้องให้เครดิตแก่ผู้สร้างสรรค์ แต่ไม่อนุญาตให้ดัดแปลงหรือดัดแปลงผลงาน
- CC BY-NC-ND อนุญาตให้ LLM คัดลอกและแจกจ่ายเนื้อหาในสื่อหรือรูปแบบใดๆ ในรูปแบบที่ไม่ได้ดัดแปลงเท่านั้น เพื่อวัตถุประสงค์ที่ไม่ใช่เชิงพาณิชย์เท่านั้น และตราบใดที่มีการระบุแหล่งที่มาให้กับผู้สร้างและไม่อนุญาตให้ลอกแบบหรือดัดแปลงงาน
ใบอนุญาตสองใบล่าสุดไม่น่าจะใช้ได้กับ LLM
อย่างไรก็ตาม ใบอนุญาตห้าใบแรกหมายความว่า LLM จำเป็นต้องพิจารณาว่าพวกเขาใช้ข้อมูลที่รวบรวม/ได้รับมาอย่างไร และตรวจสอบให้แน่ใจว่าพวกเขาปฏิบัติตามข้อกำหนดที่ใช้ข้อมูลจากผู้เผยแพร่ เช่น การแสดงที่มาและเมื่อแบ่งปันผลิตภัณฑ์ที่สร้างขึ้นจากข้อมูล
สิ่งนี้จะสร้างภาระให้กับ LLM "ไม่กี่" ในโลกแทนที่จะเป็นผู้จัดพิมพ์ "จำนวนมาก"
ใบอนุญาตสามใบแรกยังรองรับการใช้ข้อมูล "แบบดั้งเดิม" เช่น ในผลลัพธ์ของเครื่องมือค้นหาที่มีการระบุที่มา/เครดิตผ่านลิงก์ไปยังเว็บไซต์ดั้งเดิม ในขณะที่ใบอนุญาตใบที่สี่และใบที่ห้ายังสนับสนุนการวิจัยและพัฒนาสำหรับ LLM แบบโอเพ่นซอร์สอีกด้วย
หมายเหตุด้านข้าง: โปรดทราบว่าบริษัทซอฟต์แวร์เหล่านี้ทั้งหมด ที่สร้าง LLM มักจะใช้ซอฟต์แวร์โอเพ่นซอร์สที่พวกเขามีความท้าทายด้านสิทธิ์การใช้งานลิขสิทธิ์เดียวกันกับไลบรารีซอฟต์แวร์และระบบปฏิบัติการที่พวกเขาใช้เพื่อหลีกเลี่ยงการละเมิดลิขสิทธิ์ในระดับรหัส เหตุใดจึงต้องสร้างวงล้อขึ้นใหม่เมื่อเราสามารถใช้ระบบที่คล้ายกันสำหรับข้อมูลที่รหัสนี้ประมวลผล
เมตาแท็กเป็นวิธี
เมื่อผู้เผยแพร่ระบุใบอนุญาตที่เหมาะสมแล้ว ใบอนุญาตนี้ยังคงต้องมีการสื่อสาร นี่เป็นอีกครั้งที่ robots.txt ดูเหมือนจะเป็นแนวทางที่ไม่ถูกต้อง
เพียงเพราะหน้าหนึ่งควรถูกบล็อกจากการรวบรวมข้อมูลสำหรับเครื่องมือค้นหาไม่ได้หมายความว่าหน้านั้นใช้ไม่ได้หรือไม่มีประโยชน์สำหรับ LLM นี่เป็นกรณีการใช้งานที่แตกต่างกันสองกรณี
ด้วยเหตุนี้ หากต้องการแยกกรณีการใช้งานเหล่านี้ออกและช่วยให้ผู้เผยแพร่มีแนวทางที่ละเอียดยิ่งขึ้นแต่ยังง่ายกว่าด้วย ฉันขอแนะนำให้เราใช้เมตาแท็กแทน
เมตาแท็กคือชิ้นส่วนของโค้ดที่สามารถแทรกในระดับหน้า ภายในธีมหรือเนื้อหา (ฉันรู้ว่านี่ไม่ถูกต้องทางเทคนิค แต่ HTML ก็พอให้อภัยได้ และสามารถใช้เป็นทางเลือกสุดท้ายเมื่อผู้เผยแพร่เข้าถึงได้อย่างจำกัด เข้ากับฐานรหัส) พวกเขาไม่ต้องการให้ผู้เผยแพร่มีสิทธิในการเข้าถึงเพิ่มเติมนอกเหนือจากความสามารถในการแก้ไข HTML ของเนื้อหาที่เผยแพร่
การใช้เมตาแท็กไม่ได้หยุดการรวบรวมข้อมูล เช่น meta noindex อย่างไรก็ตาม จะช่วยให้คุณสื่อสารสิทธิ์การใช้งานข้อมูลที่เผยแพร่ได้
และแม้ว่าจะมีแท็กลิขสิทธิ์ที่มีอยู่ซึ่งสามารถใช้ได้ โดยเฉพาะจาก Dublin Core, มาตรฐานสิทธิ์ (ข้อเสนอที่ถูกละทิ้ง), ลิขสิทธิ์เมตา (เน้นชื่อเจ้าของมากกว่าใบอนุญาต) และความพยายามอื่นๆ สิ่งเหล่านี้ในบางเว็บไซต์อาจขัดแย้งกับสิ่งที่เราพยายามทำให้สำเร็จที่นี่
ดังนั้นอาจจำเป็นต้องใช้เมตาแท็กใหม่ แม้ว่าฉันยินดีที่จะใช้เมตาแท็กที่มีอยู่หรือเก่า เช่น “rights-standard” ซ้ำเช่นกัน สำหรับการสนทนานี้ ฉันขอเสนอเมตาแท็กใหม่ต่อไปนี้:
<meta name="usage-rights" content="CC-BY-SA" />
นอกจากนี้ ฉันขอแนะนำว่าเมตาแท็กนี้ยังรองรับเมื่อใช้ในส่วนหัว HTTP เช่นเดียวกับที่ noindex ได้รับการสนับสนุนใน X-Robots-Tag เพื่อช่วยให้โปรแกรมรวบรวมข้อมูลของ LLM จัดการทรัพยากรการรวบรวมข้อมูลได้ดีขึ้น (พวกเขาจำเป็นต้องตรวจสอบส่วนหัว HTTP เท่านั้นเพื่อตรวจสอบความถูกต้อง สิทธิการใช้งาน)
X-Robots-Tag: usage-rights: CC-BY-SA
สามารถใช้ร่วมกับเมตาแท็กอื่นๆ ในตัวอย่างด้านล่าง ไม่ควรใช้หน้านี้สำหรับผลการค้นหา แต่สามารถใช้สำหรับ LLM เชิงพาณิชย์ได้ เนื่องจากมีการให้เครดิตที่ยาวนานแก่แหล่งที่มา:
X-Robots-Tag: usage-rights: CC-BY, noindex
หมายเหตุ: ชื่อ “สิทธิ์การใช้งาน” สำหรับเมตาแท็กเป็นข้อเสนอและสามารถเปลี่ยนแปลงได้
วิธีแก้ปัญหาที่เข้าใจผิดได้
จริงอยู่ มีโปรแกรมรวบรวมข้อมูลที่ไม่ดีและนักแสดงที่ไม่ดีที่สร้าง LLM และผลิตภัณฑ์ AI กำเนิดของพวกเขา
โซลูชันเมตาแท็กที่เสนอจะไม่ป้องกันเนื้อหาจากการใช้ในลักษณะนั้น แต่จะไม่ป้องกันไฟล์ robots.txt
สิ่งสำคัญคือต้องรับทราบว่าทั้งสองวิธีขึ้นอยู่กับการยอมรับและการปฏิบัติตามโดยบริษัทที่ใช้ข้อมูลสำหรับผลิตภัณฑ์ AI ของตน
บทสรุป
หวังว่าบทความนี้จะแสดงให้เห็นว่าการใช้ robots.txt เพื่อจัดการการใช้ข้อมูลใน LLM นั้นเป็นอย่างไร ในความคิดของฉัน แนวทาง/จุดเริ่มต้นที่ไม่ถูกต้องในการจัดการกับการใช้งานและลิขสิทธิ์ในยุคใหม่ของ LLM และผลิตภัณฑ์ AI เชิงสร้างสรรค์
การใช้เมตาแท็กนี้จะทำให้ผู้เผยแพร่สามารถระบุข้อมูลลิขสิทธิ์ที่ระดับเพจโดยใช้ Creative Commons โดยไม่ขัดขวางเพจจากการรวบรวมข้อมูลหรือจัดทำดัชนีเพื่อวัตถุประสงค์อื่น (เช่น ผลลัพธ์ของเครื่องมือค้นหา) นอกจากนี้ยังอนุญาตให้มีการประกาศลิขสิทธิ์สำหรับการใช้งานต่างๆ รวมถึง LLM ผลิตภัณฑ์กำเนิด AI และผลิตภัณฑ์ AI ในอนาคตที่อาจเกิดขึ้น
ความคิดเห็นที่แสดงในบทความนี้เป็นความคิดเห็นของผู้เขียนรับเชิญและไม่จำเป็นต้องเป็น Search Engine Land ผู้เขียนเจ้าหน้าที่อยู่ที่นี่