Robots.txt ليس هو الحل: اقتراح علامة وصفية جديدة لـ LLM / AI

نشرت: 2023-07-18

بينما تفتح Google النقاش حول منح الائتمان والالتزام بحقوق النشر عند تدريب نماذج اللغات الكبيرة (LLMs) لمنتجات الذكاء الاصطناعي التوليدية ، فإن تركيزها ينصب على ملف robots.txt.

ومع ذلك ، في رأيي ، هذه هي الأداة الخاطئة للنظر إليها.

كتب زميلي السابق بيير فار مقالًا ممتازًا عن الزواحف ومحركات البحث وفساد شركات الذكاء الاصطناعي المولدة حيث سلط الضوء على بعض التحديات الهائلة التي تواجه صناعة النشر عبر الإنترنت حاليًا. على غرار مقالته ، سأبقي هذا الاقتراح على مستوى عالٍ لأن التطورات في هذا المجال سريعة للغاية.

لماذا لا تستخدم ملف robots.txt

هناك عدة أسباب تجعل استخدام ملف robots.txt هو نقطة البداية الخاطئة للمناقشة حول كيفية احترام حقوق النشر للناشرين.

لا تستخدم جميع LLM برامج الزحف وتعريف نفسها

يقع العبء على مشغل موقع الويب لتحديد برامج الزحف الفردية وحظرها ، والتي قد تستخدم و / أو تبيع بياناتها لمنتجات الذكاء الاصطناعي التوليدية. ينتج عن هذا الكثير من العمل الإضافي (وغير الضروري) ، خاصة للناشرين الصغار.

يفترض هذا أيضًا أن الناشر لديه حق الوصول للتعديل إلى ملف robots.txt ، وهو ما لا يحدث دائمًا مع الحلول المستضافة.

هذا ليس حلاً مستدامًا حيث يستمر عدد برامج الزحف في النمو

يقتصر حجم الملف القابل للاستخدام لملف robots.txt على 500 كيلوبايت ، وفقًا لمعيار robots.txt المقترح حديثًا.

هذا يعني أن ناشرًا كبيرًا قد يواجه مشكلات في ملف robots.txt الخاص به إذا احتاج إلى حظر الكثير من برامج زحف LLM و / أو أنماط عناوين URL المحسنة بالإضافة إلى برامج الروبوت الأخرى.

نهج "الكل أو لا شيء" غير مقبول

بالنسبة إلى برامج الزحف الأكبر مثل Googlebot و Bingbot ، لا يمكن التمييز بين البيانات المستخدمة لصفحات نتائج محرك البحث (عادةً عندما يكون هناك "اتفاق" بين الناشر ومحرك البحث على شكل "اقتباس" إلى الأصل المصدر) ومنتجات الذكاء الاصطناعي التوليدية.

يؤدي حظر Googlebot أو Bingbot لمنتجات الذكاء الاصطناعي التوليدية إلى حظر أي ظهور محتمل في نتائج البحث الخاصة بهما. هذا موقف غير مقبول حيث يضطر الناشر إلى الاختيار بين "الكل أو لا شيء".

يدور ملف robots.txt حول إدارة الزحف بينما تدور مناقشة حقوق الطبع والنشر حول كيفية استخدام البيانات

يتعلق الأخير بمرحلة الفهرسة / المعالجة. على هذا النحو ، فإن ملف robots.txt ليس وثيق الصلة حقًا بهذه المناقشة بل هو الملاذ الأخير إذا لم ينجح أي شيء آخر ويجب ألا يكون حقًا نقطة البداية لهذه المناقشة المحددة.

تعمل ملفات Robots.txt بشكل جيد مع برامج الزحف ولا تحتاج إلى تغيير لغرض LLMs. نعم ، تحتاج برامج زحف LLM إلى تعريف نفسها ، ولكن ما نحتاج إلى التحدث عنه حقًا هو فهرسة / معالجة البيانات التي تم الزحف إليها.

إعادة اختراع العجلة

لحسن الحظ ، يحتوي الويب بالفعل على بعض الحلول الراسخة التي يمكن استخدامها لإدارة استخدام البيانات فيما يتعلق بحقوق النشر. يطلق عليه المشاع الإبداعي.

ستعمل معظم تراخيص المشاع الإبداعي بشكل جيد لغرض LLMs. لتوضيح:

  • يسمح CC0 لـ LLMs بتوزيع المواد وإعادة مزجها وتكييفها والبناء عليها في أي وسيط أو تنسيق بدون شروط.
  • يسمح CC BY لـ LLMs بتوزيع المواد وإعادة دمجها وتكييفها والبناء عليها بأي وسيط أو تنسيق ، طالما تم منح الإسناد إلى المنشئ. يسمح الترخيص للاستخدام التجاري ، ولكن يجب منح الائتمان للمبدع.
  • يسمح CC BY-SA لـ LLMs بتوزيع المواد وتعديلها وتكييفها والبناء عليها بأي وسيط أو تنسيق ، طالما تم منح الإسناد إلى المنشئ. يسمح الترخيص للاستخدام التجاري. إذا قامت LLMs بإعادة مزج المواد أو تكييفها أو البناء عليها ، فيجب عليها ترخيص المواد المعدلة بشروط متطابقة.
  • يسمح CC BY-NC لـ LLMs بتوزيع المواد وإعادة دمجها وتكييفها والبناء عليها في أي وسيط أو تنسيق لأغراض غير تجارية فقط طالما تم منح الإسناد إلى المنشئ.
  • يسمح CC BY-NC-SA لـ LLM بتوزيع المواد وإعادة مزجها وتكييفها والبناء عليها في أي وسيط أو تنسيق لأغراض غير تجارية فقط طالما تم منح الإسناد إلى المنشئ. إذا قامت LLMs بإعادة مزج المواد أو تكييفها أو البناء عليها ، فيجب عليها ترخيص المواد المعدلة بشروط متطابقة.
  • يسمح CC BY-ND لـ LLMs بنسخ وتوزيع المواد بأي وسيط أو تنسيق في شكل غير مُعدّل فقط طالما تم منح الإسناد إلى المنشئ. يسمح الترخيص بالاستخدام التجاري ويجب منح الائتمان للمبدع ، ولكن لا يُسمح بأي مشتقات أو تعديلات على العمل.
  • يسمح CC BY-NC-ND لـ LLMs بنسخ وتوزيع المواد بأي وسيط أو تنسيق في شكل غير مُعدّل فقط ، للأغراض غير التجارية فقط ، وطالما يتم الإسناد إلى المؤلف ولا يُسمح بأي مشتقات أو تعديلات للعمل.

من غير المحتمل أن يكون الترخيصان الأخيران قابلين للاستخدام في LLMs.

ومع ذلك ، فإن التراخيص الخمسة الأولى تعني أن LLM بحاجة إلى النظر في كيفية استخدام البيانات التي تم الزحف إليها / التي تم الحصول عليها والتأكد من التزامها بالمتطلبات الموضوعة عند استخدام البيانات من الناشرين ، مثل الإحالة وعند مشاركة المنتج المبني على البيانات.

هذا من شأنه أن يضع العبء على "عدد قليل" من LLMs في العالم بدلاً من "العديد" من الناشرين.

تدعم التراخيص الثلاثة الأولى أيضًا الاستخدام "التقليدي" للبيانات ، على سبيل المثال ، في نتائج محرك البحث حيث يتم منح الإسناد / الائتمان من خلال الرابط إلى موقع الويب الأصلي. بينما يدعم الترخيصان الرابع والخامس أيضًا البحث والتطوير لـ LLMs مفتوحة المصدر.

ملاحظة جانبية: ضع في اعتبارك أن جميع شركات البرامج التي تبني LLMs غالبًا ما تستخدم برامج مفتوحة المصدر حيث يكون لديهم نفس تحديات ترخيص حقوق النشر فيما يتعلق بمكتبات البرامج وأنظمة التشغيل التي يستخدمونها لتجنب انتهاكات حقوق النشر على مستوى الكود. فلماذا نعيد اختراع العجلة عندما يمكننا استخدام نظام مشابه للبيانات التي تعالجها هذه الشفرة؟

العلامة الوصفية هي الطريق

بمجرد تحديد الناشر للترخيص المناسب ، لا يزال يتعين إرسال هذا الترخيص. مرة أخرى ، هذا هو المكان الذي يبدو أن ملف robots.txt هو منهج خاطئ.

لا يعني وجوب منع الصفحة من الزحف إلى محركات البحث أنها لا يمكن استخدامها أو أنها ليست مفيدة لـ LLMs. هذان نوعان من حالات الاستخدام المختلفة.

على هذا النحو ، لفصل حالات الاستخدام هذه والسماح بنهج أكثر دقة ولكنه أسهل أيضًا للناشرين ، أوصي باستخدام علامة meta بدلاً من ذلك.

العلامات الوصفية هي أجزاء من التعليمات البرمجية التي يمكن إدراجها على مستوى الصفحة ، داخل موضوع أو محتوى (أعلم أن هذا ليس صحيحًا من الناحية الفنية ، لكن HTML متسامح بدرجة كافية ويمكن استخدامه كملاذ أخير عندما يكون للناشر وصول محدود إلى قاعدة التعليمات البرمجية). فهي لا تتطلب من الناشر الحصول على حقوق وصول إضافية بخلاف القدرة على تحرير HTML للمحتوى المنشور.

لا يؤدي استخدام العلامات الوصفية إلى إيقاف الزحف ، مثل علامة noindex الوصفية. ومع ذلك ، فإنه يسمح لك بإبلاغ حقوق استخدام البيانات المنشورة.

وعلى الرغم من وجود علامات حقوق نشر حالية يمكن استخدامها - لا سيما من Dublin Core ، ومعيار الحقوق (اقتراح مهجور) ، ووصفة حقوق النشر (تركز على اسم المالك بدلاً من الترخيص) ومحاولات أخرى - التنفيذ الحالي الحالي لـ قد تتعارض هذه الموجودة في بعض المواقع مع ما نحاول تحقيقه هنا.

لذلك قد يكون من الضروري وجود علامة وصفية جديدة ، على الرغم من أنني سعيد بإعادة استخدام علامة حالية أو قديمة ، مثل "معيار الحقوق" أيضًا. لهذه المناقشة ، أقترح العلامة الوصفية الجديدة التالية:

 <meta name="usage-rights" content="CC-BY-SA" />

بالإضافة إلى ذلك ، أوصي بأن يتم دعم هذه العلامة الوصفية أيضًا عند استخدامها في رؤوس HTTP ، مثل noindex مدعومة في X-Robots-Tag ، لمساعدة برامج زحف LLM على إدارة موارد الزحف بشكل أفضل (يحتاجون فقط إلى التحقق من رؤوس HTTP للتحقق من صحة حقوق الاستخدام).

 X-Robots-Tag: usage-rights: CC-BY-SA

يمكن استخدام هذا مع العلامات الوصفية الأخرى. في المثال أدناه ، لا يجب استخدام الصفحة لنتائج البحث ولكن يمكن استخدامها في LLMs التجارية طالما يتم منح الائتمان للمصدر:

 X-Robots-Tag: usage-rights: CC-BY, noindex

ملاحظة: اسم "حقوق الاستخدام" للعلامة الوصفية هو اقتراح ويمكن تغييره.

حل مضمون

من المؤكد أن هناك برامج زحف سيئة وممثلون سيئون يبنون LLM ومنتجات الذكاء الاصطناعي التوليدية.

لن يمنع حل العلامات الوصفية المقترح المحتوى من الاستخدام بهذه الطريقة ، وكذلك ملف robots.txt.

من المهم الاعتراف بأن كلا الأسلوبين يعتمدان على الاعتراف والامتثال من قبل الشركات التي تستخدم البيانات لمنتجات الذكاء الاصطناعي الخاصة بها.

خاتمة

نأمل أن توضح هذه المقالة كيف أن استخدام ملف robots.txt لإدارة استخدام البيانات في LLM هو ، في رأيي ، النهج / نقطة البداية الخاطئة للتعامل مع الاستخدام وحقوق النشر في هذا العصر الجديد من LLM ومنتجات الذكاء الاصطناعي التوليدية.

سيمكن تنفيذ العلامة الوصفية الناشرين من تحديد معلومات حقوق النشر على مستوى الصفحة باستخدام المشاع الإبداعي ، دون منع الزحف إلى الصفحة أو فهرستها لأغراض أخرى (مثل نتائج محرك البحث). كما يسمح بإعلانات حقوق النشر لاستخدامات مختلفة ، بما في ذلك LLMs ومنتجات الذكاء الاصطناعي التوليدية ومنتجات الذكاء الاصطناعي المستقبلية المحتملة.


الآراء الواردة في هذا المقال هي آراء المؤلف الضيف وليست بالضرورة آراء محرك البحث. مؤلفو طاقم العمل مدرجون هنا.