الزواحف ومحركات البحث وفساد شركات الذكاء الاصطناعي التوليدية

نشرت: 2023-07-13

دفع ازدهار منتجات الذكاء الاصطناعي التوليدية خلال الأشهر القليلة الماضية العديد من مواقع الويب إلى اتخاذ تدابير مضادة.

يذهب الاهتمام الأساسي على النحو التالي:

تعتمد منتجات الذكاء الاصطناعي على استهلاك كميات كبيرة من المحتوى لتدريب نماذج اللغة الخاصة بهم (ما يسمى بنماذج اللغة الكبيرة ، أو LLM باختصار) ، ويجب أن يأتي هذا المحتوى من مكان ما. ترى شركات الذكاء الاصطناعي أن انفتاح الويب يسمح بالزحف على نطاق واسع للحصول على بيانات التدريب ، لكن بعض مشغلي مواقع الويب لا يوافقون على ذلك ، بما في ذلك Reddit و Stack Overflow و Twitter.

لا شك في أن هذه الإجابة على هذا السؤال المثير للاهتمام سيتم التقاضي بشأنها في المحاكم في جميع أنحاء العالم.

سوف تستكشف هذه المقالة هذا السؤال ، مع التركيز على الجوانب التجارية والتقنية. لكن قبل أن نتعمق ، بضع نقاط:

  • على الرغم من أن هذا الموضوع يتطرق ، وأنا أدرج في هذا المقال ، بعض الحجج القانونية ، فأنا لست محاميًا ، ولست محاميك ، ولا أقدم لك أي نصيحة من أي نوع. تحدث إلى المحامي المفضل لديك إذا كنت بحاجة إلى استشارة قانونية.
  • اعتدت أن أعمل في Google منذ سنوات عديدة ، معظمها في بحث الويب. لا أتحدث نيابة عن Google بأي شكل أو شكل ، حتى عندما أذكر بعض أمثلة Google أدناه.
  • هذا موضوع سريع الحركة. من المؤكد أنه بين الوقت الذي انتهيت فيه من كتابة هذا وأنت تقرأه ، كان من الممكن أن يحدث شيء كبير في الصناعة ، ومن المؤكد أنني كنت سأفقد شيئًا!

"الصفقة" بين محركات البحث والمواقع الإلكترونية

نبدأ بكيفية عمل محرك بحث حديث ، مثل Google أو Bing. بعبارات مبسطة للغاية ، يعمل محرك البحث على النحو التالي:

  • يحتوي محرك البحث على قائمة عناوين URL. يحتوي كل عنوان URL على بيانات وصفية (تسمى أحيانًا "إشارات") تشير إلى أن عنوان URL قد يكون مهمًا أو مفيدًا للظهور في صفحات نتائج محرك البحث.
  • بناءً على هذه الإشارات ، يحتوي محرك البحث على زاحف ، وهو برنامج آلي ، وهو برنامج يقوم بجلب عناوين URL هذه بترتيب معين من "الأهمية" بناءً على ما تشير إليه الإشارات. لهذا الغرض ، يُطلق على زاحف Google اسم Googlebot و Bing هو Bingbot (وكلاهما لهما الكثير لأغراض أخرى ، مثل الإعلانات). يعرّف كلا الروبوتين عن نفسه في عنوان وكيل المستخدم ، ويمكن التحقق من كليهما برمجيًا من خلال مواقع الويب للتأكد من أن المحتوى يتم تقديمه إلى روبوت محرك البحث الحقيقي وليس محاكاة ساخرة.
  • بمجرد جلب المحتوى ، يتم فهرسته. فهارس محرك البحث عبارة عن قواعد بيانات معقدة تحتوي على محتوى الصفحة جنبًا إلى جنب مع كمية هائلة من البيانات الوصفية والإشارات الأخرى المستخدمة لمطابقة المحتوى وترتيبه لاستفسارات المستخدم. الفهرس هو ما يتم البحث عنه بالفعل عند كتابة استعلام في Google أو Bing.

تمنح محركات البحث الحديثة ، والمهذبة الجيدة على الأقل ، مشغل موقع الويب تحكمًا كاملاً في الزحف والفهرسة.

بروتوكول استبعاد الروبوتات هو كيفية تنفيذ عنصر التحكم هذا ، من خلال ملف robots.txt والعلامات الوصفية أو الرؤوس على صفحة الويب نفسها. تمتثل محركات البحث هذه طواعية لبروتوكول استبعاد الروبوتات ، مع الأخذ في الاعتبار تنفيذ موقع الويب للبروتوكول كتوجيه ، وأمر مطلق ، وليس مجرد تلميح.

الأهم من ذلك ، أن الموضع الافتراضي للبروتوكول هو أن جميع عمليات الزحف والفهرسة مسموح بها - وهذا مسموح به افتراضيًا. ما لم يتخذ مشغل موقع الويب خطوات فعالة لتنفيذ الاستبعاد ، يُعتبر موقع الويب أنه يسمح بالزحف والفهرسة.

يعطينا هذا الإطار الأساسي للصفقة بين محركات البحث والمواقع الإلكترونية: بشكل افتراضي ، سيتم الزحف إلى موقع الويب وفهرسته بواسطة محرك بحث ، والذي بدوره يوجه الباحثين مباشرةً إلى موقع الويب الأصلي في نتائج البحث الخاصة بهم للحصول على استفسارات ذات صلة .

هذه الصفقة هي في الأساس تبادل اقتصادي: تكاليف إنتاج واستضافة وخدمة المحتوى يتحملها موقع الويب ، ولكن الفكرة هي أن حركة المرور التي تحصل عليها في المقابل تؤتي ثمارها.

ملاحظة : أنا أتجاهل عن قصد عددًا كبيرًا من الحجج ذات الصلة هنا ، حول من لديه سلطة أكبر في هذا التبادل ، ومن يربح المزيد من المال ، والإنصاف ، وأكثر من ذلك بكثير. أنا لا أستخف بهذه الأشياء - أنا فقط لا أريد أن أصرف الانتباه عن الموضوع الأساسي لهذه المقالة.

يظهر نهج الفهرسة لحركة المرور هذا في مكان آخر ، على سبيل المثال عندما يُسمح لمحركات البحث بفهرسة المحتوى خلف نظام حظر الاشتراك غير المدفوع. إنها نفس الفكرة: يشارك موقع الويب المحتوى مقابل ظهوره في نتائج البحث التي توجه الباحثين إلى موقع الويب مباشرة.

وفي كل خطوة من خطوات هذه الصفقة ، إذا أراد الناشر منع كل أو بعض عمليات الزحف أو الفهرسة بأي شكل من الأشكال ، فإن لدى الناشر عدة أدوات باستخدام بروتوكول الروبوتات والاستبعاد. أي شيء لا يزال يُسمح بالزحف إليه وفهرسته لأن موقع الويب يحصل على فائدة مباشرة من ظهوره في نتائج البحث.

تم استخدام هذه الحجة بشكل ما بالفعل في المحاكم ، فيما أصبح يُعرف باسم "دفاع robots.txt" وتم تعليقه بشكل أساسي ؛ انظر هذه القائمة المختصرة من قضايا المحاكم ، التي تضم العديد منها Google ، وهذه الكتابة المكتوبة من عام 2007 والتي لم تكن سعيدة تمامًا بها.

LLMs ليست محركات بحث

يجب أن يكون واضحًا جدًا الآن أن LLM هو وحش مختلف عن محرك البحث.

لا تشير استجابة نموذج اللغة مباشرة إلى موقع (مواقع) الويب الذي تم استخدام محتواه لتدريب النموذج. لا يوجد تبادل اقتصادي كما نراه مع محركات البحث ، وهذا هو سبب انزعاج العديد من الناشرين (والمؤلفين).

يعد الافتقار إلى الاستشهادات المباشرة بالمصادر هو الاختلاف الأساسي بين محرك البحث و LLM ، وهو الإجابة على السؤال الشائع جدًا "لماذا يجب أن يُسمح لـ Google و Bing بكشط المحتوى وليس OpenAI؟" (أنا أستخدم صياغة أكثر تهذيبًا لهذا السؤال).

يحاول كل من Google و Bing إظهار روابط المصدر في استجابات الذكاء الاصطناعي التوليدية الخاصة بهما ، ولكن هذه المصادر ، إذا تم عرضها على الإطلاق ، ليست المجموعة الكاملة.

يفتح هذا سؤالًا ذا صلة: لماذا يجب أن يسمح موقع الويب باستخدام محتواه لتدريب نموذج لغوي إذا لم يحصل على أي شيء في المقابل؟

هذا سؤال جيد جدًا - وربما أهم سؤال يجب أن نجيب عليه كمجتمع.

تتمتع LLM بفوائد على الرغم من أوجه القصور الرئيسية في الجيل الحالي من LLM (مثل الهلوسة ، والكذب على المشغلين البشريين ، والتحيزات ، على سبيل المثال لا الحصر) ، وستزداد هذه الفوائد بمرور الوقت بينما يتم حل أوجه القصور.

ولكن بالنسبة لهذه المناقشة ، فإن النقطة المهمة هي إدراك أن الركيزة الأساسية لكيفية عمل الويب المفتوح في الوقت الحالي ليست مناسبة لـ LLMs.

الفساد

من الواضح أن هذه ليست مشكلة لشركات الذكاء الاصطناعي المهتمة بتدريب النماذج الكبيرة فقط من أجل مصلحتها الاقتصادية.

استخدمت OpenAI العديد من مجموعات البيانات كمدخلات لبيانات التدريب (التفاصيل هنا لـ GPT3) ، ولا تفصح OpenAI عن قصد عن مجموعات بيانات التدريب لـ GPT4.

على الرغم من أن OpenAI تستخدم العديد من الحجج لتبرير عدم الكشف عن معلومات حول بيانات تدريب GPT4 (تمت مناقشتها هنا) ، تظل النقطة الأساسية بالنسبة لنا: لا نعرف المحتوى الذي تم استخدامه لتدريبه ، ولا تظهر OpenAI ذلك في ردود ChatGPT.

هل تخضع مجموعة بيانات OpenAI لبروتوكول استبعاد الروبوتات؟ هل تتضمن نصوصًا محمية بحقوق الطبع والنشر ، مثل الكتب المدرسية أو الكتب الأخرى؟ هل حصلوا على إذن من أي موقع أو ناشر؟ لا يقولون.

منهج Brave Software الفائق الظل

إذا كان نهج OpenAI يمثل مشكلة ، فإن Brave Software (صانع متصفح Brave ومحرك البحث Brave) يتخذ نهجًا وموقفًا أكثر إشكالية عندما يتعلق الأمر بالبحث وبيانات التدريب على الذكاء الاصطناعي.

يعتمد محرك البحث Brave بشكل كبير على ما يسمى بمشروع Web Discovery Project. النهج مفصل وموثق تمامًا هنا ، لكنني سأسلط الضوء على حقيقة رئيسية واحدة: لا يبدو أن Brave لديه زاحف مركزي يعمل عليه ، ولا يعرف أي من الزاحف نفسه على أنه زواحف لـ Brave ، و (اجلس لهذا) Brave يبيع المحتوى المسروق بحقوق يمنحها Brave المشتري لتدريب الذكاء الاصطناعي.

هناك الكثير في هذه الجملة ، لذلك دعونا نحللها.

يستخدم Brave search متصفح Brave باعتباره برنامج تتبع الارتباطات الموزع. كما هو موثق في مقالة المساعدة هذه ، يوجد سؤال وجواب الأسئلة الشائعة:

هل مشروع اكتشاف الويب عبارة عن برنامج تتبع ارتباطات؟

بطريقة ما ، نعم. تجلب عمليات Web Discovery Project الوظائف من زاحف الويب Brave. كل بضع ثوانٍ أو دقائق ، قد يُطلب من المتصفح إحضار صفحة ويب وإرسال HTML مرة أخرى إلى Brave . ومع ذلك ، فإن هذا الجلب ليس له أي تأثير على سجل التصفح أو ملفات تعريف الارتباط - يتم إجراؤه كاستدعاء خاص لواجهة برمجة تطبيقات الجلب. لمزيد من الأمان ، يتم تحديد مجالات مهمة الجلب مسبقًا من مجموعة صغيرة من المجالات غير الضارة وذات السمعة الطيبة.

ما هو مشروع اكتشاف الويب؟ - بحث شجاع

واجهة برمجة تطبيقات Fetch هي وظيفة قياسية للويب مدمجة في محركات المتصفح الحديثة ، بما في ذلك محرك Brave الذي يستخدمه. استخدامه الشائع هو جلب المحتوى لإظهاره للمستخدمين في المتصفح. لأغراضنا ، نعلم على الفور أن متصفح المستخدم يطلب محتوى موقع الويب نيابة عن محرك بحث Brave.

ومن المثير للاهتمام أن خيط Reddit من يونيو 2021 يضيف المزيد من التفاصيل والارتباك. رد واحد من ممثل Brave مثير جدًا للاهتمام (يبرز لي):

لدينا الزاحف الخاص بنا ، لكنه لا يحتوي على سلسلة وكيل المستخدم (تمامًا مثل Brave ، المتصفح ، أيضًا لا يحتوي على سلسلة وكيل مستخدم فريدة ) لتجنب التمييز المحتمل. ومع ذلك ، فقد تحدثنا عن احتمال تحديد الزاحف للمسؤولين الذين يرغبون في معرفة متى / أين يهبط على ممتلكاتهم. نحن نحترم أيضًا ملف robots.txt أيضًا ، لذلك إذا كنت لا تريد Brave Search يزحف إلى موقعك ، فلن يفعل ذلك.

هذا منجم ذهب من الحقائق:

  1. لديهم الزاحف الخاص بهم ، والذي قد يشير إلى واحد مركزي أو مشروع Web Discovery الموزع المستند إلى المستعرض.
  2. لا يعرّف هذا الزاحف نفسه على أنه زاحف ، ولكنه بطريقة ما يتبع بروتوكول استبعاد برامج الروبوت (في شكل ملف robots.txt). كيف يمكن لمشغل موقع الويب كتابة توجيه استبعاد الروبوتات إذا لم يعرّف المتصفح نفسه؟ ما الرمز المميز لوكيل المستخدم (كما يطلق عليه) الذي سيتم استخدامه في ملف robots.txt لتحديد التوجيهات الخاصة بزاحف Brave؟ لم أتمكن من العثور على أي وثائق من Brave.
  3. ما يسمونه تمييزًا هو في الواقع كيف يتحكم الناشرون في الزحف. بروتوكول استبعاد الروبوتات هو آلية للناشرين للتمييز بين ما يُسمح للمستخدمين وبرامج الزحف بالوصول إليه ، والتمييز بين برامج الزحف المختلفة (على سبيل المثال ، السماح لـ Bingbot بالزحف وليس Googlebot). من خلال الادعاء بأنهم يريدون تجنب التمييز ، يقول Brave في الواقع إنهم يقررون ما يزحفون إليه ويفهرسونه ، وليس الناشر.

العودة إلى Fetch API: بشكل افتراضي ، تستخدم Fetch API سلسلة وكيل مستخدم المتصفح. نحن نعلم بالفعل أن متصفح Brave لا يعرّف نفسه برأس وكيل مستخدم فريد ، يستخدم بدلاً من ذلك سلسلة وكيل المستخدم العامة التي ينتجها محرك المتصفح الأساسي.

يمكن تخصيص سلسلة وكيل المستخدم ، للمتصفح بشكل عام و Fetch API ، ومع ذلك لم أجد أي مؤشر على أن Brave يفعل ذلك (وفي الواقع ، رد Reddit المذكور أعلاه ينص صراحة على عدم وجود معرف فريد).

علاوة على ذلك ، يواصل Brave بيع البيانات التي تم مسحها خصيصًا لتدريب الذكاء الاصطناعي ، وليس فقط لنتائج البحث (على سبيل المثال ، لتشغيل ميزة البحث في الموقع).

تُظهر زيارة الصفحة الرئيسية لواجهة Brave Search API العديد من مستويات الأسعار ، بما في ذلك بعض المستويات المسماة "Data for AI". تتضمن خطط البيانات هذه خيارات لـ "البيانات ذات حقوق التخزين" التي تتيح للمشترك "تخزين البيانات مؤقتًا / تخزينها لتدريب نماذج الذكاء الاصطناعي" ، مع البيانات بما في ذلك "المقتطفات البديلة الإضافية للذكاء الاصطناعي" و "حقوق استخدام البيانات للاستدلال بالذكاء الاصطناعي". "

باختصار ، استنادًا إلى تصريحات Brave العامة ونقص التوثيق ، يزحف Brave على الويب بطريقة خفية ، دون طريقة واضحة للتحكم فيه أو حظره ، ويمضي في إعادة بيع المحتوى الذي تم الزحف إليه لتدريب الذكاء الاصطناعي.

أو لإعادة صياغة هذا بشكل أكثر صراحة ، عينت Brave نفسها كموزع ربحي للمحتوى المحمي بحقوق الطبع والنشر دون ترخيص أو إذن من ناشري مواقع الويب .

هل هذا مقبول؟ أرى أنها مكشطة مهلهل كخدمة.

مبادرة ضوابط الناشر من Google

قد يكون هناك نوع جديد من متتبع ارتباطات الويب قريبًا ، نوع مخصص للذكاء الاصطناعي التوليدي.

يبدو أن Google قد أدركت عدم التوافق الذي تمت مناقشته أعلاه ، وأن استخدام محتوى Googlebot الذي تم جلبه لبحث الويب قد لا يكون مناسبًا لتدريب نماذج الذكاء الاصطناعي.

أعلنت Google عن رغبتها في بدء مناقشة مجتمعية لإنشاء عناصر تحكم AI للناشر على الويب (مرحبًا ، Google ، لقد قمت بالتسجيل ، اسمح لي بالدخول من فضلك!). أؤيد بصدق إجراء هذه المحادثة ، وقد أحسنت Google في فتح الباب لإجراء هذه المحادثة.

نظرًا لأننا في الأيام الأولى ، من المهم الإشارة إلى أن الإعدادات الافتراضية وقدرات هذه الضوابط ستكون حاسمة لنجاحها أو فشلها. أظن أن العديد من الناشرين والمؤلفين سيكون لديهم آراء قوية نحتاج إلى سماعها حول كيفية عمل عناصر التحكم في الذكاء الاصطناعي.

ماذا عن LLM مفتوحة المصدر؟

جانب مهم من الحجة أعلاه هو التبادل الاقتصادي. ولكن ماذا لو أطلقت المنظمة التي تقف وراء النموذج اللغوي النموذج بحرية دون أن تعود بالنفع على نفسها؟

هناك العديد من هذه النماذج مفتوحة المصدر ، ويتم تدريبهم على مجموعات البيانات التي تتداخل بشكل كبير مع مجموعات البيانات المستخدمة لتدريب النماذج التجارية المسجلة الملكية. العديد من النماذج مفتوحة المصدر جيدة بما يكفي لبعض حالات الاستخدام في الوقت الحالي ، وهي تتحسن فقط.

لا يزال: هل من الصواب أن يتم استخدام محتوى موقع الويب دون إذن لتدريب ماجستير مفتوح المصدر؟

ربما يكون هذا سؤالًا أكثر تعقيدًا ، وأعتقد أن الإجابة تعتمد حاليًا على ما يسمح به بروتوكول استبعاد الروبوتات. من الممكن أن تظهر إجابة أفضل في شكل نهج مصمم جيدًا من عناصر تحكم ناشري الويب AI من Google أو أي مبادرة أخرى مماثلة.

انظر لهذه المساحة.

إذن ماذا يمكن للناشر أن يفعل الآن؟

هذا الوضع الحالي لا يريده ولا يقبله العديد من الناشرين. ما الذي يستطيعون فعله؟

هنا نحتاج إلى العودة إلى حظر برامج الزاحف / الروبوت في المدرسة القديمة. يوجد بشكل عام نوعان من برامج الزحف:

  1. الزواحف التي تعرف نفسها. قد يلتزمون أو لا يطيعون بروتوكول استبعاد الروبوتات ، ولكن على الأقل يحتوي الخادم على معرف للتحقق مما إذا كان سيتم حظر الطلب أم لا. تشمل الأمثلة Googlebot و Bingbot.
  2. برامج الزحف الخفية ، والتي لا تُستخدم لمحركات البحث المهذبة. إنهم لا يعرّفون عن أنفسهم و / أو لا يلتزمون ببروتوكول استبعاد الروبوتات. ومن الأمثلة على ذلك ، مكشطة البريد العشوائي الخاصة بأي برنامج نصي أو برنامج زاحف Brave Search.

هناك شيئان متكاملان يمكنك القيام بهما:

  1. إذا امتثل الزاحف لبروتوكول استبعاد الروبوتات ، فيمكنك حظره إذا كنت تعتقد أن المحتوى الذي يزحف إليه يغذي بيانات تدريب الذكاء الاصطناعي. هناك طريقتان هنا:
    • قم بحظر جميع برامج الزحف والسماح فقط لتلك التي تريد السماح بها لاحتياجاتك (مثل Googlebot و Bingbot). هذا أمر خطير على أداء موقع الويب في البحث العضوي. يجب أن تكون حذرًا للغاية في التعامل معها ، لكنها فعالة مع برامج الزحف هذه.
    • اسمح لجميع عمليات الزحف وحظر تلك التي تريد حظرها. يعتبر هذا النهج الأكثر تساهلاً أقل خطورة ، ولكن بالطبع قد يتم إلغاء المحتوى الخاص بك بواسطة AI أو برامج الزحف الأخرى التي قد لا تريدها.
  2. استخدم كاشف روبوت خفي من جانب الخادم واستخدمه لحظر مثل هذه الزواحف. يمكن للعديد من المنتجات القيام بذلك. إذا كنت تستخدم شبكة توزيع المحتوى (CDN) كما يفعل العديد من الناشرين ، فمن المحتمل أن يكون هذا النوع من الوظائف متاحًا من خلال ذلك (مثل Akamai و Cloudflare و Fastly).

النهج الذي بدأت في اتباعه مع مواقع الويب التي أديرها وأناقشها مع العملاء ، هو مزيج من الخيارات (1 أ) و (2) ، أي استخدام ملف robots.txt مقيد مع عناصر تحكم CDN.

قد لا يكون هذا هو النهج الأفضل لكل ناشر ، لكنني أعتقد أنه يستحق التفكير بجدية.

ماذا يعني كل هذا؟

نحن نعيش في أوقات ستنخفض كواحدة من أكثر العصور تأثيرًا في التاريخ. يتنبأ الناس حرفياً بمصير البشرية من الذكاء الاصطناعي. لدينا جميعًا دور نلعبه في تشكيل المستقبل.

من جانبنا كمبدعين للمحتوى الأصلي ، نحتاج إلى التفكير في كيفية الاستجابة ، ومواكبة هذا الجزء سريع الحركة من الصناعة والتكيف معه. إن تحديد كيفية إنشاء المحتوى الذي نؤلفه وتوزيعه واستهلاكه أصبح الآن مزيجًا معقدًا من الإستراتيجية والتكنولوجيا والشؤون المالية والأخلاق وغير ذلك.

كيفما ترد ، فأنت تتخذ موقفاً في لحظة تاريخية. أشعر بعبئك.


الآراء الواردة في هذا المقال هي آراء المؤلف الضيف وليست بالضرورة آراء محرك البحث. مؤلفو طاقم العمل مدرجون هنا.