โปรแกรมรวบรวมข้อมูล เครื่องมือค้นหา และความชั่วร้ายของบริษัท AI ที่สร้างสรรค์

เผยแพร่แล้ว: 2023-07-13

ความเฟื่องฟูของผลิตภัณฑ์ AI กำเนิดในช่วงไม่กี่เดือนที่ผ่านมาทำให้เว็บไซต์หลายแห่งใช้มาตรการตอบโต้

ข้อกังวลพื้นฐานจะเป็นดังนี้:

ผลิตภัณฑ์ AI ขึ้นอยู่กับการบริโภคเนื้อหาจำนวนมากเพื่อฝึกฝนโมเดลภาษาของตน (เรียกว่าโมเดลภาษาขนาดใหญ่หรือเรียกสั้นๆ ว่า LLM) และเนื้อหานี้ต้องมาจากที่ใดที่หนึ่ง บริษัท AI มองว่าการเปิดกว้างของเว็บเป็นการอนุญาตให้มีการรวบรวมข้อมูลขนาดใหญ่เพื่อรับข้อมูลการฝึกอบรม แต่ผู้ให้บริการเว็บไซต์บางรายไม่เห็นด้วย เช่น Reddit, Stack Overflow และ Twitter

คำตอบสำหรับคำถามที่น่าสนใจนี้จะถูกฟ้องร้องในศาลทั่วโลกอย่างไม่ต้องสงสัย

บทความนี้จะสำรวจคำถามนี้ โดยเน้นไปที่ธุรกิจและด้านเทคนิค แต่ก่อนที่เราจะดำดิ่งลงไป มีจุดเล็กๆ น้อยๆ:

แม้ว่าหัวข้อนี้จะกล่าวถึง และฉันได้รวมข้อโต้แย้งทางกฎหมายบางประการไว้ในบทความนี้ ฉันไม่ใช่ทนายความ ฉันไม่ใช่ทนายความของคุณ และฉันไม่ได้ให้คำแนะนำใดๆ แก่คุณ พูดคุยกับแมวทนายความที่คุณชื่นชอบหากคุณต้องการคำแนะนำทางกฎหมาย
ฉันเคยทำงานที่ Google เมื่อหลายปีก่อน โดยส่วนใหญ่ทำงานในการค้นหาเว็บ ฉันไม่ได้พูดในนามของ Google ในรูปแบบหรือรูปแบบใดๆ แม้ว่าฉันจะอ้างถึงตัวอย่างของ Google ด้านล่างก็ตาม
นี่เป็นหัวข้อที่เคลื่อนไหวอย่างรวดเร็ว รับประกันได้ว่าระหว่างที่ฉันเขียนบทความนี้เสร็จและคุณกำลังอ่านมัน จะมีเรื่องสำคัญเกิดขึ้นในอุตสาหกรรมนี้ และรับประกันได้ว่าฉันจะพลาดบางอย่างไป!

'ข้อตกลง' ระหว่างเครื่องมือค้นหาและเว็บไซต์

เราเริ่มต้นด้วยวิธีการทำงานของเครื่องมือค้นหาสมัยใหม่ เช่น Google หรือ Bing ในแง่ที่ง่ายเกินไป เครื่องมือค้นหาทำงานดังนี้:

เครื่องมือค้นหามีรายการ URL แต่ละ URL มีข้อมูลเมตา (บางครั้งเรียกว่า "สัญญาณ") ซึ่งระบุว่า URL นั้นอาจมีความสำคัญหรือมีประโยชน์ที่จะแสดงในหน้าผลลัพธ์ของเครื่องมือค้นหา
จากสัญญาณเหล่านี้ เครื่องมือค้นหามีโปรแกรมรวบรวมข้อมูลหรือบอท ซึ่งเป็นโปรแกรมที่ดึง URL เหล่านี้ตามลำดับ "ความสำคัญ" ตามสัญญาณที่ระบุ เพื่อจุดประสงค์นี้ โปรแกรมรวบรวมข้อมูลของ Google เรียกว่า Googlebot และของ Bing คือ Bingbot (และทั้งคู่มีโปรแกรมอื่นๆ อีกมากมายสำหรับวัตถุประสงค์อื่นๆ เช่น โฆษณา) บอททั้งสองระบุตัวเองในส่วนหัวของ user-agent และทั้งสองอย่างสามารถตรวจสอบได้ด้วยโปรแกรมโดยเว็บไซต์ เพื่อให้แน่ใจว่าเนื้อหากำลังถูกแสดงไปยังบอทของเครื่องมือค้นหาจริงและไม่ใช่การปลอมแปลง
เมื่อดึงเนื้อหาแล้ว เนื้อหานั้นจะถูกจัดทำดัชนี ดัชนีเสิร์ชเอ็นจิ้นเป็นฐานข้อมูลที่ซับซ้อนซึ่งมีเนื้อหาของหน้าพร้อมกับข้อมูลเมตาจำนวนมากและสัญญาณอื่นๆ ที่ใช้ในการจับคู่และจัดอันดับเนื้อหาตามข้อความค้นหาของผู้ใช้ ดัชนีคือสิ่งที่ได้รับการค้นหาเมื่อคุณพิมพ์ข้อความค้นหาใน Google หรือ Bing

เสิร์ชเอ็นจิ้นสมัยใหม่ อย่างน้อยก็สุภาพดี ให้ผู้ดำเนินการเว็บไซต์ควบคุมการรวบรวมข้อมูลและการจัดทำดัชนีได้อย่างเต็มที่

Robots Exclusion Protocol คือวิธีดำเนินการควบคุมนี้ผ่านไฟล์ robots.txt และเมตาแท็กหรือส่วนหัวบนหน้าเว็บ เสิร์ชเอ็นจิ้นเหล่านี้ปฏิบัติตาม Robots Exclusion Protocol โดยสมัครใจ โดยยึดเอาการปฏิบัติตาม Protocol ของเว็บไซต์เป็นคำสั่ง เป็นคำสั่งเด็ดขาด ไม่ใช่แค่คำใบ้

สิ่งสำคัญ ตำแหน่งเริ่มต้นของโปรโตคอลคือการอนุญาตให้รวบรวมข้อมูลและจัดทำดัชนีทั้งหมด ซึ่งได้รับอนุญาตตามค่าเริ่มต้น เว้นแต่ผู้ดำเนินการเว็บไซต์จะดำเนินการอย่างแข็งขันเพื่อดำเนินการยกเว้น เว็บไซต์จะถือว่าอนุญาตการรวบรวมข้อมูลและการจัดทำดัชนี

สิ่งนี้ทำให้เรามีกรอบพื้นฐานของข้อตกลงระหว่างเครื่องมือค้นหาและเว็บไซต์: โดยค่าเริ่มต้น เว็บไซต์จะถูกรวบรวมข้อมูลและจัดทำดัชนีโดยเครื่องมือค้นหา ซึ่งจะชี้ผู้ค้นหาโดยตรงไปยังเว็บไซต์ดั้งเดิมในผลการค้นหาสำหรับคำค้นหาที่เกี่ยวข้อง .

ข้อตกลงนี้เป็นการแลกเปลี่ยนทางเศรษฐกิจโดยพื้นฐาน: ต้นทุนในการผลิต การโฮสต์ และการให้บริการเนื้อหานั้นเกิดขึ้นจากเว็บไซต์ แต่แนวคิดก็คือการเข้าชมที่ได้รับนั้นตอบแทนด้วยผลกำไร

หมายเหตุ : ฉันตั้งใจเพิกเฉยต่อข้อโต้แย้งที่เกี่ยวข้องทั้งหมดที่นี่ เกี่ยวกับว่าใครมีอำนาจมากกว่าในการแลกเปลี่ยนนี้ ใครทำเงินได้มากกว่า ยุติธรรม และอื่นๆ อีกมากมาย ฉันไม่ได้ดูแคลนสิ่งเหล่านี้ – ฉันแค่ไม่ต้องการหันเหความสนใจจากหัวข้อหลักของบทความนี้

การจัดทำดัชนีสำหรับวิธีการรับส่งข้อมูลนี้เกิดขึ้นที่อื่น เช่น เมื่อเครื่องมือค้นหาได้รับอนุญาตให้จัดทำดัชนีเนื้อหาหลังเพย์วอลล์ เป็นแนวคิดเดียวกัน: เว็บไซต์แบ่งปันเนื้อหาเป็นการตอบแทนที่แสดงในผลการค้นหาซึ่งชี้ให้ผู้ค้นหากลับไปที่เว็บไซต์โดยตรง

และในแต่ละขั้นตอนของกระบวนการของข้อตกลงนี้ หากผู้เผยแพร่โฆษณาต้องการบล็อกการรวบรวมข้อมูลหรือการจัดทำดัชนีทั้งหมดหรือบางส่วน ผู้เผยแพร่โฆษณาก็มีเครื่องมือหลายอย่างที่ใช้ Robots และ Exclusion Protocol อะไรก็ตามที่ยังได้รับอนุญาตให้รวบรวมข้อมูลและจัดทำดัชนีได้นั้นเป็นเพราะเว็บไซต์ได้รับประโยชน์โดยตรงจากการแสดงในผลการค้นหา

ข้อโต้แย้งในบางรูปแบบนี้ถูกนำมาใช้จริงในศาล ในสิ่งที่กลายเป็นที่รู้จักในชื่อ “การป้องกันของ robots.txt” และถูกระงับโดยพื้นฐานแล้ว ดูรายชื่อคดีในศาลสั้นๆ ซึ่งหลายคดีเกี่ยวข้องกับ Google และบทความจากปี 2007 ที่ไม่ค่อยพอใจกับเรื่องนี้นัก

LLM ไม่ใช่เครื่องมือค้นหา

ตอนนี้ควรชัดเจนมากว่า LLM เป็นสัตว์ร้ายที่แตกต่างจากเครื่องมือค้นหา

การตอบสนองของโมเดลภาษาไม่ได้ชี้กลับไปยังเว็บไซต์ที่มีเนื้อหาใช้ในการฝึกโมเดลโดยตรง ไม่มีการแลกเปลี่ยนทางเศรษฐกิจอย่างที่เราเห็นในเสิร์ชเอ็นจิ้น และนี่คือสาเหตุที่ผู้เผยแพร่ (และผู้เขียน) จำนวนมากไม่พอใจ

การไม่มีการอ้างอิงแหล่งที่มาโดยตรงคือความแตกต่างพื้นฐานระหว่างเครื่องมือค้นหาและ LLM และนี่คือคำตอบของคำถามทั่วไปที่ว่า “เหตุใด Google และ Bing จึงได้รับอนุญาตให้คัดลอกเนื้อหาแต่ไม่อนุญาตให้ OpenAI” (ฉันใช้ถ้อยคำที่สุภาพกว่านี้สำหรับคำถามนี้)

Google และ Bing กำลังพยายามแสดงลิงก์แหล่งที่มาในการตอบกลับ AI เชิงกำเนิดของพวกเขา แต่ถ้าแสดงแหล่งที่มาเหล่านี้ทั้งหมด ก็ไม่ใช่ชุดที่สมบูรณ์

สิ่งนี้ทำให้เกิดคำถามที่เกี่ยวข้อง: เหตุใดเว็บไซต์จึงควรอนุญาตให้ใช้เนื้อหาในการฝึกรูปแบบภาษาหากไม่ได้รับสิ่งใดตอบแทน

นั่นเป็นคำถามที่ดีมาก – และน่าจะเป็นคำถามที่สำคัญที่สุดในฐานะสังคมที่เราควรตอบ

LLM มี ประโยชน์แม้จะมีข้อบกพร่องที่สำคัญกับ LLM รุ่นปัจจุบัน (เช่น ภาพหลอน การโกหกต่อเจ้าหน้าที่ที่เป็นมนุษย์ และอคติ เป็นต้น) และประโยชน์เหล่านี้จะเพิ่มขึ้นเมื่อเวลาผ่านไปในขณะที่ข้อบกพร่องต่างๆ ได้รับการแก้ไข

แต่สำหรับการอภิปรายนี้ ประเด็นสำคัญคือการตระหนักว่าเสาหลักของการทำงานของเว็บแบบเปิดในขณะนี้ไม่เหมาะกับ LLM

ความขี้เกียจ

เห็นได้ชัดว่านั่นไม่ใช่ปัญหาสำหรับบริษัท AI ที่สนใจฝึกอบรมโมเดลขนาดใหญ่เพื่อประโยชน์ทางเศรษฐกิจของตนเองเท่านั้น

OpenAI ใช้ชุดข้อมูลหลายชุดเป็นอินพุตข้อมูลการฝึกอบรม (รายละเอียดที่นี่สำหรับ GPT3) และ OpenAI จงใจไม่เปิดเผยชุดข้อมูลการฝึกอบรมสำหรับ GPT4

แม้ว่า OpenAI จะใช้ข้อโต้แย้งมากมายเพื่อพิสูจน์ว่าไม่เปิดเผยข้อมูลเกี่ยวกับข้อมูลการฝึกอบรมของ GPT4 (จะกล่าวถึงที่นี่) แต่ประเด็นสำคัญสำหรับเรายังคงอยู่: เราไม่ทราบว่าเนื้อหาใดถูกใช้เพื่อฝึกอบรม และ OpenAI ไม่แสดงสิ่งนั้นในการตอบกลับของ ChatGPT

การรวบรวมข้อมูลของ OpenAI เป็นไปตาม Robots Exclusion Protocol หรือไม่ มีข้อความที่มีลิขสิทธิ์ เช่น หนังสือเรียนหรือหนังสืออื่นๆ หรือไม่ พวกเขาได้รับอนุญาตจากเว็บไซต์หรือผู้จัดพิมพ์หรือไม่? พวกเขาไม่พูด

แนวทางที่ร่มรื่นของ Brave Software

หากวิธีการของ OpenAI เป็นปัญหา Brave Software (ผู้ผลิตเบราว์เซอร์ Brave และเครื่องมือค้นหา Brave) จะใช้แนวทางและจุดยืนที่เป็นปัญหายิ่งกว่าเมื่อพูดถึงการค้นหาและข้อมูลการฝึกอบรม AI

เครื่องมือค้นหาของ Brave ขึ้นอยู่กับสิ่งที่เรียกว่า Web Discovery Project เป็นอย่างมาก วิธีการนี้ค่อนข้างละเอียดและมีการบันทึกไว้ที่นี่ แต่ฉันจะเน้นข้อเท็จจริงสำคัญประการหนึ่ง: Brave ดูเหมือนจะไม่มีโปรแกรมรวบรวมข้อมูลแบบรวมศูนย์ที่พวกเขาใช้งานอยู่ และไม่มีการรวบรวมข้อมูลใดที่ระบุตัวเองว่าเป็นโปรแกรมรวบรวมข้อมูลสำหรับ Brave และ (นั่งลงเพื่อสิ่งนี้) Brave ขายเนื้อหาที่คัดลอกมาด้วยสิทธิ์ที่ Brave ให้ผู้ซื้อสำหรับการฝึกอบรม AI

มีหลายอย่างในประโยคนั้น ดังนั้นเรามาแยกวิเคราะห์กัน

การค้นหาที่กล้าหาญใช้เบราว์เซอร์ที่กล้าหาญเป็นตัวรวบรวมข้อมูลแบบกระจาย ตามที่ระบุไว้ในบทความช่วยเหลือนี้ มีคำถามและคำตอบที่พบบ่อย:

Web Discovery Project เป็นโปรแกรมรวบรวมข้อมูลหรือไม่
ในทางใช่ โครงการ Web Discovery ประมวลผลการดึงงานจากโปรแกรมรวบรวมข้อมูลเว็บของ Brave ทุกๆ สองสามวินาทีหรือไม่กี่นาที เบราว์เซอร์อาจได้รับคำสั่งให้ดึงหน้าเว็บและส่ง HTML กลับไปที่ Brave อย่างไรก็ตาม การดึงข้อมูลนี้ไม่มีผลกระทบต่อประวัติการเข้าชมหรือคุกกี้ของคุณ—เป็นการเรียก API การดึงข้อมูลส่วนตัว เพื่อความปลอดภัยเป็นพิเศษ โดเมนงานดึงข้อมูลจะถูกเลือกไว้ล่วงหน้าจากชุดโดเมนที่ไม่อันตรายและมีชื่อเสียงชุดเล็กๆ
โครงการค้นพบเว็บคืออะไร? - การค้นหาที่กล้าหาญ

Fetch API เป็นฟังก์ชันมาตรฐานของเว็บที่สร้างขึ้นในเอ็นจิ้นเบราว์เซอร์สมัยใหม่ รวมถึงที่ Brave ใช้ การใช้งานทั่วไปคือการดึงเนื้อหาเพื่อแสดงต่อผู้ใช้ในเบราว์เซอร์ เพื่อจุดประสงค์ของเรา เราทราบทันทีว่าเป็นเบราว์เซอร์ของผู้ใช้ที่ร้องขอเนื้อหาของเว็บไซต์ในนามของเครื่องมือค้นหาของ Brave

น่าสนใจ เธรด Reddit ตั้งแต่เดือนมิถุนายน 2021 ได้เพิ่มรายละเอียดและความสับสน หนึ่งคำตอบจากตัวแทนผู้กล้าหาญนั้นน่าสนใจมาก (ไฮไลท์ของฉัน):

เรามีโปรแกรมรวบรวมข้อมูลของเราเอง แต่ไม่มีสตริง user-agent (เช่นเดียวกับที่ Brave เบราว์เซอร์ ไม่มีสตริง user-agent ที่ไม่ ซ้ำกัน) เพื่อหลีกเลี่ยง การเลือกปฏิบัติ ที่อาจเกิดขึ้น ที่กล่าวว่า เราได้พูดคุยเกี่ยวกับศักยภาพในการระบุโปรแกรมรวบรวมข้อมูลเพื่อให้ผู้ดูแลระบบที่ต้องการทราบว่าเมื่อใด/ที่ใดที่โปรแกรมรวบรวมข้อมูลจะมาถึงคุณสมบัติของตน เรายังเคารพใน robots.txt ด้วยเช่นกัน ดังนั้นหากคุณไม่ต้องการให้ Brave Search รวบรวมข้อมูลไซต์ของคุณ ก็จะไม่ทำ

นี่คือข้อเท็จจริงของเหมืองทอง:

พวกเขามีโปรแกรมรวบรวมข้อมูลของตัวเอง ซึ่งอาจหมายถึงโปรแกรมรวมศูนย์หรือโปรแกรมค้นหาเว็บบนเบราว์เซอร์แบบกระจาย
โปรแกรมรวบรวมข้อมูลนี้ไม่ได้ระบุว่าตัวเองเป็นโปรแกรมรวบรวมข้อมูล แต่อย่างไรก็ตามมันปฏิบัติตาม Robots Exclusion Protocol (ในรูปแบบของไฟล์ robots.txt) ผู้ดำเนินการเว็บไซต์จะเขียนคำสั่งยกเว้นโรบ็อตได้อย่างไรหากเบราว์เซอร์ไม่ระบุตัวตน โทเค็นตัวแทนผู้ใช้ใด (ตามที่เรียก) ที่จะใช้ในไฟล์ robots.txt เพื่อระบุคำสั่งเฉพาะสำหรับโปรแกรมรวบรวมข้อมูลของ Brave ฉันไม่พบเอกสารใด ๆ จาก Brave
สิ่งที่พวกเขาเรียกว่าการเลือกปฏิบัติคือวิธีที่ผู้เผยแพร่โฆษณาจะควบคุมการรวบรวมข้อมูล Robots Exclusion Protocol เป็นกลไกสำหรับผู้เผยแพร่โฆษณาในการแยกแยะระหว่างสิ่งที่ผู้ใช้และโปรแกรมรวบรวมข้อมูลได้รับอนุญาตให้เข้าถึง และแยกแยะระหว่างโปรแกรมรวบรวมข้อมูลต่างๆ (เช่น อนุญาตให้ Bingbot รวบรวมข้อมูล แต่ไม่อนุญาตให้ Googlebot) โดยอ้างว่าพวกเขาต้องการหลีกเลี่ยงการเลือกปฏิบัติ Brave กำลังบอกว่าพวกเขาต้องตัดสินใจว่าจะรวบรวมข้อมูลและจัดทำดัชนีอะไร ไม่ใช่ผู้จัดพิมพ์

กลับไปที่ Fetch API: ตามค่าเริ่มต้น Fetch API จะใช้สตริง user-agent ของเบราว์เซอร์ เรารู้อยู่แล้วว่าเบราว์เซอร์ Brave ไม่ได้ระบุตัวเองด้วยส่วนหัวของ user-agent ที่ไม่ซ้ำกัน โดยใช้แทน สตริง user-agent ทั่วไปที่สร้างโดยเอ็นจิ้นเบราว์เซอร์พื้นฐาน

สตริงตัวแทนผู้ใช้สามารถปรับแต่งได้สำหรับเบราว์เซอร์โดยทั่วไปและ Fetch API แต่ฉันไม่พบข้อบ่งชี้ใด ๆ ที่ Brave ทำเช่นนั้น (และคำตอบของ Reddit ที่อ้างถึงข้างต้นระบุอย่างชัดเจนว่าไม่มีตัวระบุเฉพาะ)

นอกจากนี้ Brave ยังขายข้อมูลที่คัดมาโดยเฉพาะสำหรับการฝึกอบรม AI ไม่ใช่แค่ในผลการค้นหา (เช่น เพื่อขับเคลื่อนฟีเจอร์การค้นหาไซต์)

การเยี่ยมชมหน้าแรกของ Brave Search API จะแสดงระดับราคาหลายระดับ รวมถึงบางระดับเรียกว่า “ข้อมูลสำหรับ AI” แผนข้อมูลเหล่านี้มีตัวเลือกสำหรับ "ข้อมูลที่มีสิทธิ์ในการจัดเก็บ" ที่อนุญาตให้สมาชิก "แคช/จัดเก็บข้อมูลเพื่อฝึกโมเดล AI" พร้อมข้อมูลรวมถึง "ส่วนย่อยสำรองพิเศษสำหรับ AI" และ "สิทธิ์ในการใช้ข้อมูลสำหรับการอนุมานของ AI ”

โดยสรุป จากคำแถลงต่อสาธารณะของ Brave และขาดเอกสารประกอบ Brave รวบรวมข้อมูลเว็บด้วยวิธีลับๆ ล่อๆ โดยไม่มีวิธีที่ชัดเจนในการควบคุมหรือบล็อก และดำเนินการขายเนื้อหาที่รวบรวมข้อมูลสำหรับการฝึกอบรม AI ต่อไป

หรือจะใช้ถ้อยคำนี้ใหม่ให้ตรงไปตรงมายิ่งขึ้น Brave ได้แต่งตั้งตัวเองเป็นผู้จัดจำหน่ายเนื้อหาที่มีลิขสิทธิ์เพื่อแสวงหาผลกำไรโดยไม่ได้รับใบอนุญาตหรือได้รับอนุญาตจากผู้เผยแพร่เว็บไซต์

เป็นที่ยอมรับหรือไม่? ฉันเห็นว่ามันเป็นบริการที่ไม่สะอาด

ความคิดริเริ่มการควบคุมผู้เผยแพร่โฆษณาของ Google

อาจมีโปรแกรมรวบรวมข้อมูลเว็บรูปแบบใหม่ในเร็วๆ นี้ ซึ่งเป็นโปรแกรมสำหรับ AI กำเนิดโดยเฉพาะ

ดูเหมือนว่า Google ตระหนักถึงความเข้ากันไม่ได้ที่กล่าวถึงข้างต้น นั่นคือการใช้เนื้อหาที่ Googlebot ดึงมาเพื่อค้นเว็บอาจไม่เหมาะสำหรับการฝึกอบรมโมเดล AI

Google ได้ประกาศว่าพวกเขาต้องการเริ่มการสนทนาในชุมชนเพื่อสร้าง AI Web Publisher Controls (เฮ้ Google ฉันสมัครแล้ว ให้ฉันเข้าไปด้วย!) ฉันสนับสนุนการสนทนานี้ด้วยใจจริง และทำได้ดีมาก Google ที่เปิดประตูสู่การสนทนานี้

เมื่อเราอยู่ในช่วงเริ่มต้น สิ่งสำคัญคือต้องตั้งค่าสถานะว่าค่าเริ่มต้นและความสามารถของการควบคุมดังกล่าวจะมีความสำคัญอย่างยิ่งต่อความสำเร็จหรือความล้มเหลว ฉันสงสัยว่าผู้จัดพิมพ์และผู้แต่งหลายคนจะมีความคิดเห็นที่ชัดเจนว่าเราจำเป็นต้องได้ยินว่าการควบคุม AI เหล่านี้ควรทำงานอย่างไร

แล้ว LLM แบบโอเพ่นซอร์สล่ะ?

สิ่งสำคัญของการโต้แย้งข้างต้นคือการแลกเปลี่ยนทางเศรษฐกิจ แต่จะเป็นอย่างไรหากองค์กรที่อยู่เบื้องหลังโมเดลภาษาเผยแพร่โมเดลอย่างอิสระโดยไม่ได้รับผลประโยชน์จากตัวมันเอง

มีโมเดลโอเพ่นซอร์สดังกล่าวมากมาย และได้รับการฝึกอบรมเกี่ยวกับชุดข้อมูลที่ทับซ้อนกันอย่างมากกับชุดข้อมูลที่ใช้ในการฝึกโมเดลที่เป็นกรรมสิทธิ์ในเชิงพาณิชย์ โมเดลโอเพ่นซอร์สหลายรุ่นดีเพียงพอสำหรับกรณีการใช้งานบางกรณีในขณะนี้ และกำลังพัฒนาให้ดียิ่งขึ้นเท่านั้น

ยังคง: ถูกต้องหรือไม่ที่เนื้อหาของเว็บไซต์ถูกใช้โดยไม่ได้รับอนุญาตในการฝึกอบรม LLM แบบโอเพ่นซอร์ส

นั่นอาจเป็นคำถามที่ยากกว่า และฉันคิดว่าคำตอบในปัจจุบันขึ้นอยู่กับสิ่งที่ Robots Exclusion Protocol อนุญาต เป็นไปได้ว่าคำตอบที่ดีกว่าจะปรากฏในรูปแบบของวิธีการที่ออกแบบมาอย่างดีจาก AI Web Publisher Controls ของ Google หรือความคิดริเริ่มอื่นที่คล้ายคลึงกัน

ดูพื้นที่นี้

ตอนนี้ผู้เผยแพร่โฆษณาสามารถทำอะไรได้บ้าง

สถานการณ์ปัจจุบันนี้เป็นสิ่งที่ผู้เผยแพร่จำนวนมากไม่ต้องการหรือยอมรับ พวกเขาสามารถทำอะไร?

ที่นี่เราต้องกลับไปที่โปรแกรมรวบรวมข้อมูล/บล็อกแบบเก่า โปรแกรมรวบรวมข้อมูลโดยทั่วไปมี 2 ประเภท:

โปรแกรมรวบรวมข้อมูลที่ระบุตัวเอง พวกเขาอาจปฏิบัติตามหรือไม่ปฏิบัติตาม Robots Exclusion Protocol แต่อย่างน้อยเซิร์ฟเวอร์ก็มีตัวระบุเพื่อตรวจสอบเพื่อตัดสินใจว่าจะบล็อกคำขอหรือไม่ ตัวอย่างเช่น Googlebot และ Bingbot
โปรแกรมรวบรวมข้อมูลล่องหนซึ่งไม่ได้ใช้สำหรับเครื่องมือค้นหาที่สุภาพ พวกเขาไม่ระบุตัวตนและ/หรือไม่ปฏิบัติตาม Robots Exclusion Protocol ตัวอย่างคือโปรแกรมขูดสแปมของสคริปต์ตัวเล็กหรือโปรแกรมรวบรวมข้อมูลของ Brave Search

มีสองสิ่งที่คุณสามารถทำได้:

หากโปรแกรมรวบรวมข้อมูลปฏิบัติตาม Robots Exclusion Protocol คุณสามารถบล็อกได้หากคุณคิดว่าเนื้อหาที่โปรแกรมรวบรวมข้อมูลป้อนเข้าสู่ข้อมูลการฝึกอบรม AI มีสองวิธีที่นี่:
- บล็อกโปรแกรมรวบรวมข้อมูลทั้งหมดและอนุญาตเฉพาะโปรแกรมรวบรวมข้อมูลที่คุณต้องการอนุญาตเท่านั้น (เช่น Googlebot และ Bingbot) สิ่งนี้เป็นอันตรายต่อประสิทธิภาพของเว็บไซต์ในการค้นหาทั่วไป คุณต้องระวังอย่างมากกับมัน แต่มันมีประสิทธิภาพสำหรับซอฟต์แวร์รวบรวมข้อมูลเหล่านี้
- อนุญาตการรวบรวมข้อมูลทั้งหมดและบล็อกสิ่งที่คุณต้องการบล็อก วิธีการที่อนุญาตมากกว่านี้มีอันตรายน้อยกว่า แต่แน่นอนว่าเนื้อหาของคุณอาจถูกคัดลอกโดย AI หรือโปรแกรมรวบรวมข้อมูลอื่นๆ ที่คุณอาจไม่ต้องการ
ใช้ตัวตรวจจับบ็อตล่องหนฝั่งเซิร์ฟเวอร์ และใช้เพื่อบล็อกโปรแกรมรวบรวมข้อมูลดังกล่าว ผลิตภัณฑ์จำนวนมากสามารถทำได้ หากคุณใช้เครือข่ายการกระจายเนื้อหา (CDN) เช่นเดียวกับผู้เผยแพร่โฆษณาหลายราย เป็นไปได้ว่าฟังก์ชันประเภทนี้มีให้ใช้งานผ่านทางเครือข่ายนั้น (เช่น Akamai, Cloudflare, Fastly)

วิธีการที่ฉันเริ่มใช้กับเว็บไซต์ที่ฉันดำเนินการและพูดคุยกับลูกค้าคือการรวมกันของตัวเลือก (1a) และ (2) นั่นคือการใช้ไฟล์ robots.txt ที่มีข้อจำกัดพร้อมกับการควบคุม CDN

นี่อาจไม่ใช่แนวทางที่ดีที่สุดสำหรับผู้เผยแพร่โฆษณาแต่ละราย แต่ฉันคิดว่ามันคุ้มค่าที่จะพิจารณาอย่างจริงจัง

ทั้งหมดนี้หมายความว่าอย่างไร?

เรากำลังใช้ชีวิตผ่านช่วงเวลาที่จะตกต่ำลงในฐานะหนึ่งในผู้มีอิทธิพลมากที่สุดในประวัติศาสตร์ ผู้คนกำลังทำนายความหายนะของมนุษยชาติจาก AI เราทุกคนมีส่วนในการกำหนดอนาคต

ในส่วนของเราในฐานะผู้สร้างเนื้อหาต้นฉบับ เราต้องคิดว่าจะตอบสนองอย่างไร ติดตามและปรับตัวให้เข้ากับส่วนที่เปลี่ยนแปลงอย่างรวดเร็วของอุตสาหกรรมนี้ การตัดสินใจว่าจะสร้าง แจกจ่าย และบริโภคเนื้อหาที่เราเขียนขึ้นอย่างไรนั้น เป็นการผสมผสานระหว่างกลยุทธ์ เทคโนโลยี การเงิน จริยธรรม และอื่นๆ ที่ซับซ้อน

ไม่ว่าคุณจะตอบโต้อย่างไร คุณกำลังแสดงจุดยืนในช่วงเวลาแห่งประวัติศาสตร์ ฉันรู้สึกถึงภาระของคุณ

ความคิดเห็นที่แสดงในบทความนี้เป็นความคิดเห็นของผู้เขียนรับเชิญและไม่จำเป็นต้องเป็น Search Engine Land ผู้เขียนเจ้าหน้าที่อยู่ที่นี่

เพิ่ม Search Engine Land ในฟีด Google News ของคุณ