Cum bazarea pe LLM poate duce la dezastru SEO
Publicat: 2023-07-10„ChatGPT poate depăși limita.”
„GPT primește A+ la toate examenele.”
„GPT trece cu brio la examenul de admitere la MIT.”
Câți dintre voi ați citit recent articole care susțin ceva ca cele de mai sus?
Știu că am văzut o mulțime de astea. Se pare că în fiecare zi, există un nou thread care susține că GPT este aproape Skynet, aproape de inteligența generală artificială sau mai bun decât oamenii.
Am fost întrebat recent: „De ce ChatGPT nu respectă numărul de cuvinte introduse? Este un computer, nu? Un motor de raționament? Cu siguranță, ar trebui să poată număra numărul de cuvinte dintr-un paragraf.”
Aceasta este o neînțelegere care vine cu modele de limbaj mari (LLM).
Într-o oarecare măsură, forma instrumentelor precum ChatGPT contrazice funcția.
Interfața și prezentarea sunt cele ale unui partener robot conversațional – parte însoțitor AI, parțial motor de căutare, parțial calculator – un chatbot pentru a pune capăt tuturor chatboților.
Dar nu este cazul. În acest articol, voi trece peste câteva studii de caz, unele experimentale și altele în sălbăticie.
Vom analiza cum au fost prezentate, ce probleme apar și ce se poate face, dacă este ceva, cu privire la punctele slabe pe care le au aceste instrumente.
Cazul 1: GPT vs. MIT
Recent, o echipă de cercetători de licență a scris despre GPT în cursul MIT EECS Curriculum a devenit moderat viral pe Twitter, strângând 500 de retweet-uri.
Din păcate, lucrarea are mai multe probleme, dar voi trece în revistă aici liniile mari. Vreau să evidențiez două dintre cele mai importante aici – plagiatul și marketingul bazat pe hype.
GPT putea să răspundă cu ușurință la unele întrebări pentru că le mai văzuse. Articolul de răspuns discută acest lucru în secțiunea „Scurgeri de informații în câteva exemple de fotografiere”.
Ca parte a ingineriei prompte, echipa de studiu a inclus informații care au sfârșit prin a dezvălui răspunsurile la ChatGPT.
O problemă cu afirmația 100% este că unele dintre răspunsurile de la test au fost fără răspuns, fie pentru că botul nu a avut acces la ceea ce avea nevoie pentru a rezolva întrebarea, fie pentru că întrebarea se baza pe o altă întrebare pe care botul nu a avut-o. acces la.
Cealaltă problemă este problema promptării. Automatizarea de pe această hârtie a avut acest bit specific:
critiques = [["Review your previous answer and find problems with your answer.", "Based on the problems you found, improve your answer."], ["Please provide feedback on the following incorrect answer.","Given this feedback, answer again."]]
prompt_response = prompt(expert) # calls fresh ChatCompletion.create prompt_grade = grade(course_name, question, solution, prompt_response) # GPT-4 auto-grading comparing answer to solution
Lucrarea de aici se angajează la o metodă de notare care este problematică. Modul în care GPT răspunde la aceste solicitări nu are ca rezultat neapărat note concrete și obiective.
Să reproducem un tweet al lui Ryan Jones:
Pentru unele dintre aceste întrebări, îndemnul ar însemna aproape întotdeauna găsirea unui răspuns corect.
Și deoarece GPT este generativ, este posibil să nu poată compara cu exactitate propriul răspuns cu răspunsul corect. Chiar și atunci când este corectat, scrie: „Nu au fost probleme cu răspunsul”.
Majoritatea procesării limbajului natural (NLP) sunt fie extractive, fie abstractive. Inteligența artificială generativă încearcă să fie cea mai bună din ambele lumi – și, în așa fel, nu este nici una.
Gary Illyes a trebuit recent să apeleze la rețelele sociale pentru a impune acest lucru:
Vreau să folosesc asta în mod special pentru a vorbi despre halucinații și inginerie promptă.
Halucinația se referă la cazurile în care modelele de învățare automată, în special AI generativă, produc rezultate neașteptate și incorecte.
Am devenit frustrat de termenul pentru acest fenomen de-a lungul timpului:
- Implica un nivel de „gândire” sau „intenție” pe care acești algoritmi nu îl au.
- Cu toate acestea, GPT nu cunoaște diferența dintre o halucinație și adevăr. Ideea că acestea vor scădea în frecvență este extrem de optimistă, deoarece ar însemna un LLM cu o înțelegere a adevărului.
GPT halucinează deoarece urmărește modele în text și le aplică altor modele în text în mod repetat; când acele aplicații nu sunt corecte, nu există nicio diferență.
Acest lucru mă duce la inginerie promptă.
Ingineria promptă este noua tendință în utilizarea GPT și a instrumentelor similare. „Am conceput un prompt care îmi oferă exact ceea ce îmi doresc. Cumpărați această carte electronică pentru a afla mai multe!”
Inginerii prompti sunt o categorie nouă de locuri de muncă, una care plătește bine. Cum pot cel mai bine GPT?
Problema este că prompturile proiectate pot fi foarte ușor solicitări supraproiectate.
GPT devine mai puțin precis cu cât mai multe variabile trebuie să jongleze. Cu cât solicitarea dvs. este mai lungă și mai complicată, cu atât măsurile de siguranță vor funcționa mai puțin.
Dacă cer pur și simplu GPT să-mi auditeze site-ul web, primesc răspunsul clasic „ca model de limbaj AI...”. Cu cât promptul meu este mai complex, cu atât este mai puțin probabil să răspund cu informații corecte.
Xenia Volynchuk există, dar site-ul nu există. Yulia Sapegina pare să nu existe, iar Zeck Ford nu este deloc un site SEO.
Dacă nu faci inginer, răspunsurile tale sunt generice. Dacă suprainginerești, răspunsurile tale sunt greșite.
Obțineți buletinele informative zilnice pe care se bazează marketerii.
Vezi termenii.
Cazul 2: GPT vs. Math
La fiecare câteva luni, o întrebare ca aceasta va deveni virală pe rețelele de socializare:
Când adaugi 23 la 48, cum o faci?
Unii oameni adaugă 3 și 8 pentru a obține 11, apoi adaugă 11 la 20+40. Unii adaugă 2 și 8 pentru a obține 10, adaugă asta la 60 și pun unul deasupra. Creierul oamenilor tinde să calculeze lucrurile în moduri diferite.
Acum să revenim la matematica de clasa a patra. Îți amintești tabele de înmulțire? Cum ai lucrat cu ei?
Da, au existat foi de lucru pentru a încerca să vă arate cum funcționează înmulțirile. Dar pentru mulți studenți, scopul a fost memorarea funcțiilor.
Când aud 6x7, de fapt nu fac calculele în capul meu. În schimb, îmi amintesc de tatăl meu găurindu-mi masa înmulțirii din nou și din nou. 6x7 este 42, nu pentru că îl știu, ci pentru că am memorat 42.
Spun asta pentru că este mai aproape de modul în care LLM-urile se ocupă de matematică. LLM-urile se uită la modele pe ramuri vaste de text. Nu știe ce este un „2”, doar că cuvântul/semnalul „2” tinde să apară în anumite contexte.
OpenAI, în special, este interesat să rezolve acest defect al raționamentului logic. GPT-4, modelul lor recent, este unul despre care ei spun că are un raționament logic mai bun. Deși nu sunt un inginer OpenAI, vreau să vorbesc despre câteva dintre modurile în care probabil au funcționat pentru a face GPT-4 mai mult un model de raționament.
În același mod în care Google urmărește perfecțiunea algoritmică în căutare, sperând să scape de factorii umani în clasarea link-urilor, la fel și OpenAI își propune să facă față punctelor slabe ale modelelor LLM.
Există două moduri în care OpenAI funcționează pentru a oferi ChatGPT capacități de „raționare” mai bune:
- Folosind GPT în sine sau folosind instrumente externe (adică alți algoritmi de învățare automată).
- Utilizarea altor soluții de cod non-LLM.
În primul grup, OpenAI ajustează modelele unul peste altul. Aceasta este de fapt diferența dintre ChatGPT și GPT obișnuit.
GPT simplu este un motor care pur și simplu îndepărtează următoarele simboluri probabile după o propoziție. Pe de altă parte, ChatGPT este un model antrenat pe comenzi și pașii următori.
Un lucru care apare ca o zbârcitură atunci când numirea GPT „autocorrecție fantezie” este modul în care aceste straturi interacționează între ele și capacitatea profundă a modelelor de această dimensiune de a recunoaște modele și de a le aplica în diferite contexte.
Modelul este capabil să facă conexiuni între răspunsuri, așteptările cu privire la modul în care și contextual diferite întrebări sunt adresate.
Chiar dacă nimeni nu a întrebat despre „explicați statisticile folosind o metaforă despre delfini”, GPT poate lua aceste conexiuni peste front și le poate extinde. Cunoaște forma explicării unui subiect cu o metaforă, cum funcționează statisticile și ce sunt delfinii.
Cu toate acestea, după cum poate spune oricine care se ocupă cu GPT în mod regulat, cu cât te îndepărtezi de materialele de instruire GPT, cu atât rezultatul devine mai rău.
OpenAI are un model care este antrenat pe diferite straturi, referitoare la:
- Conversații.
- Evitarea oricăror răspunsuri controversate.
- Menținerea în limitele ghidurilor.
Oricine a petrecut timp încercând să facă GPT să acționeze în afara parametrilor săi vă poate spune că contextul și comenzile sunt la infinit de modulare. Oamenii sunt creativi și pot concepe moduri nesfârșite de a încălca regulile.
Toate acestea înseamnă că OpenAI poate antrena un LLM să „raționeze” expunându-l la straturi de raționament pentru ca acesta să imite și să recunoască modele.
Memorarea răspunsurilor, nu înțelegerea lor.
Celălalt mod în care OpenAI poate adăuga capacități de raționament modelelor sale este prin utilizarea altor elemente. Dar acestea au propriul lor set de probleme. Puteți vedea OpenAI încercând să rezolve problemele GPT cu soluții non-GPT prin utilizarea pluginurilor.
Pluginul de citire a linkurilor este unul pentru ChatGPT (GPT-4). Permite unui utilizator să adauge linkuri către ChatGPT, iar agentul vizitează linkul și primește conținutul. Dar cum face GPT acest lucru?
Departe de a „gândi” și de a decide să acceseze aceste linkuri, plug-in-ul presupune că fiecare link este necesar.
Când textul este analizat, linkurile sunt vizitate și HTML-ul este aruncat în intrare. Este greu să integrezi mai elegant aceste tipuri de pluginuri.
De exemplu, pluginul Bing vă permite să căutați cu Bing, dar agentul presupune că doriți să căutați mult mai des decât invers.
Acest lucru se datorează faptului că, chiar și cu straturi de antrenament, este greu să asigurați răspunsuri consistente de la GPT. Dacă lucrați cu API-ul OpenAI, acest lucru poate apărea imediat. Puteți semnala „ca un model AI deschis”, dar unele răspunsuri vor avea alte structuri de propoziție și moduri diferite de a spune nu.
Acest lucru face un răspuns de cod mecanic dificil de scris, deoarece se așteaptă la o intrare consistentă.
Dacă doriți să integrați căutarea cu o aplicație OpenAI, ce tipuri de declanșatoare declanșează funcția de căutare?
Ce se întâmplă dacă vrei să vorbim despre căutare într-un articol? În mod similar, fragmentarea intrărilor poate fi dificilă deoarece.
Este greu pentru ChatGPT să distingă de diferite părți ale promptului, deoarece este dificil pentru aceste modele să facă distincția între fantezie și realitate.
Cu toate acestea, cel mai simplu mod de a permite GPT să raționeze este să integreze ceva care este mai bun la raționament. Acest lucru este încă mai ușor de spus decât de făcut.
Ryan Jones a avut un subiect bun despre asta pe Twitter:
Revenim apoi la problema cum funcționează LLM-urile.
Nu există calculator, nici un proces de gândire, doar ghicirea următorului termen pe baza unui corpus masiv de text.
Cazul 3: GPT vs. ghicitori
Carcasa mea preferată pentru așa ceva? Ghicitori pentru copii.
Unul dintre cele patru cuvinte din fiecare set nu aparține. Care cuvânt nu aparține?
- Verde, galben, rosu, albastru.
- Aprilie, decembrie, noiembrie, iunie.
- Cirrus, calcul, cumulus, stratus.
- Morcovi, ridichi, cartofi, varză.
- Furcă, pieptene, greblă, lopată.
Luați o secundă să vă gândiți la asta. Întreabă un copil.
Iată răspunsurile reale:
- Verde. Galben, roșu și albastru sunt culorile primare. Verdele nu este.
- Decembrie. Celelalte luni au doar 30 de zile.
- Calcul. Celelalte sunt tipuri de nor.
- Varză. Celelalte sunt legume care cresc sub pământ.
- Lopată. Ceilalți au pini.
Acum să ne uităm la câteva răspunsuri de la GPT:
Lucrul care este interesant este că forma acestui răspuns este corectă. S-a înțeles că răspunsul corect a fost „nu o culoare primară”, dar contextul nu a fost suficient pentru ca acesta să știe ce sunt culorile primare sau ce culori sunt.
Aceasta este ceea ce ați putea numi interogare one-shot. Nu ofer detalii suplimentare modelului și mă aștept să-și dea seama în mod independent. Dar, așa cum am văzut în răspunsurile anterioare, GPT poate da greșit cu o solicitare excesivă.
GPT nu este inteligent. Deși este impresionant, nu este atât de „scop general” pe cât și-ar dori să fie.
Nu cunoaște contextul pentru ceea ce spune sau face și nici nu știe ce este un cuvânt.
Pentru GPT, lumea este matematică.
Jetoanele sunt pur și simplu vectori care dansează împreună, reprezentând web-ul într-o gamă largă de puncte interconectate.
LLM-urile nu sunt la fel inteligent cum crezi
Avocatul care a folosit ChatGPT într-un caz în instanță a spus că „a crezut că este un motor de căutare”.
Acest caz de înaltă vizibilitate de abuz profesional este distractiv, dar sunt cuprins de teama de implicații.
Un avocat – un expert în domeniu – care desfășoară o muncă foarte calificată și bine plătită a trimis aceste informații în instanță.
În toată țara, sute de oameni fac același lucru pentru că este aproape ca un motor de căutare, pare uman și arată corect.
Conținutul site-ului poate fi mize mari – totul poate fi. Dezinformarea este deja răspândită online, iar ChatGPT mănâncă ce a mai rămas.
Trebuie să colectăm metal de pe navele scufundate pentru că nu a fost iradiat.
În mod similar, datele dinainte de 2022 vor deveni o marfă fierbinte, deoarece provin din ceea ce se presupune că ar fi textul – unic, uman și adevărat.
O mare parte din acest tip de discurs pare să provină din câteva cauze fundamentale, acestea fiind înțelegerea greșită a modului în care funcționează GPT și înțelegerea greșită pentru ce este folosit.
Într-o oarecare măsură, OpenAI poate fi tras la răspundere pentru aceste neînțelegeri. Ei doresc să dezvolte inteligența generală artificială atât de mult încât să accepte slăbiciunile în ceea ce poate face GPT.
GPT este „stăpânul tuturor” și, prin urmare, nu poate fi stăpân pe nimic.
Dacă nu poate spune insulte, nu poate modera conținutul.
Dacă trebuie să spună adevărul, nu poate scrie ficțiune.
Dacă trebuie să se supună utilizatorului, nu poate fi întotdeauna precis.
GPT nu este un motor de căutare, un chatbot, prietenul tău, o inteligență generală sau chiar o corectare automată de lux.
Este vorba de statistici aplicate în masă, aruncarea zarurilor pentru a face propoziții. Dar lucrul cu șansa este că, uneori, greșiți.
Opiniile exprimate în acest articol sunt cele ale autorului invitat și nu neapărat Search Engine Land. Autorii personalului sunt enumerați aici.