LLM에 의존하는 것이 SEO 재앙으로 이어질 수 있는 방법

게시 됨: 2023-07-10

"ChatGPT는 기준을 통과할 수 있습니다."

“GPT는 모든 시험에서 A+를 받습니다.”

"GPT는 성공적으로 MIT 입학 시험을 통과했습니다."

최근에 위와 같은 내용을 주장하는 기사를 읽은 사람이 얼마나 됩니까?

나는 이것들을 많이 보았다는 것을 안다. GPT가 거의 Skynet에 가깝고 인공 일반 지능에 가깝거나 사람보다 낫다고 주장하는 새로운 스레드가 매일 있는 것 같습니다.

나는 최근에 “ChatGPT가 내 단어 수 입력을 존중하지 않는 이유는 무엇입니까?”라는 질문을 받았습니다. 컴퓨터 맞죠? 추론 엔진? 확실히 단락의 단어 수를 셀 수 있어야 합니다.”

이것은 대규모 언어 모델(LLM)에서 나오는 오해입니다.

ChatGPT와 같은 도구의 형태는 어느 정도 기능을 믿습니다.

인터페이스와 프리젠테이션은 대화형 로봇 파트너(부분은 AI 동반자, 부분은 검색 엔진, 부분은 계산기)의 것입니다. 모든 챗봇을 종료하는 챗봇입니다.

그러나 이것은 사실이 아닙니다. 이 기사에서는 몇 가지 사례 연구, 일부는 실험적, 일부는 실제 사례를 살펴보겠습니다.

우리는 그들이 제시된 방법, 어떤 문제가 발생하는지, 그리고 이러한 도구가 가진 약점에 대해 무엇을 할 수 있는지 살펴볼 것입니다.

사례 1: GPT 대 MIT

최근에 한 학부 연구원 팀이 MIT EECS 커리큘럼을 따르는 GPT에 대해 쓴 글이 Twitter에서 적당히 입소문이 나면서 500개의 리트윗을 얻었습니다.

안타깝게도 이 논문에는 몇 가지 문제가 있지만 여기에서 전반적인 내용을 검토하겠습니다. 여기서 표절과 과대 광고 기반 마케팅이라는 두 가지 주요 사항을 강조하고 싶습니다.

GPT는 이전에 본 적이 있기 때문에 몇 가지 질문에 쉽게 대답할 수 있었습니다. 응답 기사의 "몇 가지 샷 사례에서 정보 유출" 섹션에서 이에 대해 설명합니다.

신속한 엔지니어링의 일환으로 연구 팀은 결국 ChatGPT에 대한 답변을 공개하는 정보를 포함했습니다.

100% 주장의 문제는 봇이 질문을 해결하는 데 필요한 항목에 액세스할 수 없었거나 질문이 봇이 가지고 있지 않은 다른 질문에 의존했기 때문에 테스트의 답변 중 일부는 답변할 수 없다는 것입니다. 액세스.

다른 문제는 프롬프트 문제입니다. 이 백서의 자동화에는 다음과 같은 특정 비트가 있습니다.

        critiques = [["Review your previous answer and find problems with your answer.", "Based on the problems you found, improve your answer."], ["Please provide feedback on the following incorrect answer.","Given this feedback, answer again."]]
 prompt_response = prompt(expert) # calls fresh ChatCompletion.create prompt_grade = grade(course_name, question, solution, prompt_response) # GPT-4 auto-grading comparing answer to solution

여기 논문은 문제가 있는 채점 방법을 사용합니다. GPT가 이러한 프롬프트에 응답하는 방식이 반드시 사실에 입각한 객관적인 등급으로 이어지는 것은 아닙니다.

Ryan Jones 트윗을 재현해 보겠습니다.

GPT - 실패
GPT - 실패

이러한 질문 중 일부의 경우 프롬프트는 거의 항상 결국 정답을 찾는 것을 의미합니다.

그리고 GPT는 생성이기 때문에 자신의 답과 정답을 정확하게 비교하지 못할 수도 있습니다. 정정해도 “답변에는 문제가 없었다”고 한다.

대부분의 자연어 처리(NLP)는 추출적이거나 추상적입니다. 제너레이티브 AI는 두 세계 모두에서 최고가 되려고 시도합니다.

Gary Illyes는 최근 소셜 미디어를 통해 이를 시행해야 했습니다.

특히 환각과 즉각적인 공학에 대해 이야기하기 위해 이것을 사용하고 싶습니다.

환각은 기계 학습 모델, 특히 생성 AI가 예상치 못한 잘못된 결과를 출력하는 경우를 말합니다.

나는 시간이 지남에 따라 이 현상에 대한 용어에 좌절하게 되었습니다.

  • 이러한 알고리즘에는 없는 "생각" 또는 "의도" 수준을 의미합니다.
  • 그러나 GPT는 환각과 진실의 차이를 모릅니다. 이것이 빈도가 낮아질 것이라는 생각은 진실을 이해하는 LLM을 의미하기 때문에 매우 낙관적입니다.

GPT는 텍스트의 패턴을 따르고 이를 텍스트의 다른 패턴에 반복적으로 적용하기 때문에 환각을 일으킵니다. 해당 응용 프로그램이 올바르지 않으면 차이가 없습니다.

이것은 저를 프롬프트 엔지니어링으로 인도합니다.

신속한 엔지니어링은 GPT 및 이와 유사한 도구를 사용하는 새로운 트렌드입니다. “나는 내가 원하는 것을 정확히 얻을 수 있는 프롬프트를 설계했습니다. 자세히 알아보려면 이 eBook을 구입하세요!”

신속한 엔지니어는 보수가 좋은 새로운 직업 범주입니다. 어떻게 GPT를 가장 잘 할 수 있습니까?

문제는 조작된 프롬프트가 너무 쉽게 과도하게 조작된 프롬프트가 될 수 있다는 것입니다.

GPT는 저글링해야 하는 변수가 많을수록 정확도가 떨어집니다. 프롬프트가 길고 복잡할수록 안전 장치가 덜 작동합니다.

과도하게 설계된 프롬프트
과도하게 설계된 프롬프트
과도하게 설계된 프롬프트 결과
과도하게 설계된 프롬프트에 대한 응답

단순히 GPT에 내 웹사이트 감사를 요청하면 전형적인 "AI 언어 모델로서…"라는 응답을 받습니다. 프롬프트가 복잡할수록 정확한 정보로 응답할 가능성이 줄어듭니다.

간단한 프롬프트

Xenia Volynchuk은 존재하지만 사이트는 존재하지 않습니다. Yulia Sapegina는 존재하지 않는 것으로 보이며 Zeck Ford는 전혀 SEO 사이트가 아닙니다.

GPT 프롬프트 환각

언더엔지니어인 경우 응답은 일반적입니다. 과도하게 엔지니어링하면 응답이 잘못됩니다.


검색 마케터가 의존하는 일일 뉴스레터를 받으세요.

처리 중…기다려 주십시오.

용어를 참조하십시오.


사례 2: GPT 대 수학

몇 달마다 다음과 같은 질문이 소셜 미디어에 퍼집니다.

48에 23을 더하면 어떻게 될까요?

어떤 사람들은 3과 8을 더해 11이 되고, 11을 더해 20+40이 됩니다. 어떤 이들은 2와 8을 더해 10이 되고, 그것을 더해 60을 만들고 위에 하나를 놓는다. 사람들의 두뇌는 사물을 다른 방식으로 계산하는 경향이 있습니다.

이제 4학년 수학으로 돌아가 봅시다. 구구단을 기억하십니까? 그들과 어떻게 일했습니까?

예, 곱셈이 어떻게 작동하는지 보여주고 시도하는 워크시트가 있었습니다. 그러나 많은 학생들의 목표는 함수를 암기하는 것이었습니다.

내가 6x7을 들을 때, 나는 실제로 머리 속으로 계산을 하지 않는다. 대신, 아버지가 내 구구단을 계속해서 뚫었던 것을 기억합니다. 6x7은 42인데, 내가 몰라서가 아니라 42를 외웠기 때문이다.

이것이 LLM이 수학을 다루는 방식에 더 가깝기 때문에 이렇게 말합니다. LLM은 방대한 양의 텍스트에서 패턴을 살펴봅니다. 단어/토큰 "2"가 특정 컨텍스트에서 나타나는 경향이 있다는 점만 있을 뿐 "2"가 무엇인지 알지 못합니다.

특히 OpenAI는 논리적 추론의 이 결함을 해결하는 데 관심이 있습니다. 최신 모델인 GPT-4는 논리적 추론이 더 낫다고 말하는 모델입니다. 저는 OpenAI 엔지니어는 아니지만 그들이 GPT-4를 더 많은 추론 모델로 만들기 위해 작업한 몇 가지 방법에 대해 이야기하고 싶습니다.

Google이 검색에서 알고리즘의 완벽함을 추구하고 링크와 같은 순위 지정에서 인적 요소에서 벗어나기를 바라는 것과 마찬가지로 OpenAI도 LLM 모델의 약점을 다루는 것을 목표로 합니다.

OpenAI가 ChatGPT에 더 나은 "추론" 기능을 제공하기 위해 작동하는 두 가지 방법이 있습니다.

  • GPT 자체를 사용하거나 외부 도구(즉, 다른 기계 학습 알고리즘)를 사용합니다.
  • 다른 비 LLM 코드 솔루션 사용.

첫 번째 그룹에서 OpenAI는 모델을 서로 미세 조정합니다. 이것이 실제로 ChatGPT와 일반 GPT의 차이점입니다.

Plain GPT는 문장 뒤에 다음 가능성이 있는 토큰을 단순히 아웃시키는 엔진입니다. 반면에 ChatGPT는 명령과 다음 단계에 대해 훈련된 모델입니다.

GPT를 "멋진 자동 수정"이라고 부를 때 주름으로 나타나는 한 가지는 이러한 레이어가 서로 상호 작용하는 방식과 이 크기의 모델이 패턴을 인식하고 다양한 컨텍스트에 적용할 수 있는 깊은 기능입니다.

이 모델은 답변, 상황에 따라 서로 다른 질문을 묻는 방법에 대한 기대치를 연결할 수 있습니다.

아무도 "돌고래에 대한 은유를 사용하여 통계를 설명하십시오"라고 묻지 않더라도 GPT는 이러한 연결을 전반적으로 가져오고 확장할 수 있습니다. 은유로 주제를 설명하는 형태, 통계가 어떻게 작동하는지, 돌고래가 무엇인지를 안다.

그러나 GPT를 정기적으로 다루는 사람이라면 누구나 알 수 있듯이 GPT의 교육 자료에서 더 많이 얻을수록 결과는 더 나빠집니다.

OpenAI에는 다음과 관련된 다양한 계층에서 훈련되는 모델이 있습니다.

  • 대화.
  • 논란의 여지가 있는 답변을 피합니다.
  • 지침 내에서 유지합니다.

GPT가 매개 변수 외부에서 작동하도록 하는 데 시간을 보낸 사람은 컨텍스트와 명령이 끝없이 모듈화되어 있음을 알 수 있습니다. 인간은 창의적이며 규칙을 깨는 끝없는 방법을 고안할 수 있습니다.

이 모든 것이 의미하는 바는 OpenAI가 패턴을 모방하고 인식하도록 LLM을 추론 계층에 노출시켜 "추리"하도록 LLM을 훈련할 수 있다는 것입니다.

답변을 이해하지 않고 암기합니다.

OpenAI가 모델에 추론 기능을 추가할 수 있는 다른 방법은 다른 요소를 사용하는 것입니다. 그러나 이것들은 나름의 문제가 있습니다. OpenAI가 플러그인을 사용하여 비 GPT 솔루션으로 GPT 문제를 해결하려고 시도하는 것을 볼 수 있습니다.

링크 리더 플러그인은 ChatGPT(GPT-4)용 플러그인입니다. 이를 통해 사용자는 ChatGPT에 링크를 추가할 수 있으며 에이전트는 링크를 방문하여 콘텐츠를 가져옵니다. 그러나 GPT는 이것을 어떻게 합니까?

"생각"하고 이러한 링크에 액세스하기로 결정하는 것과는 거리가 먼 플러그인은 각 링크가 필요하다고 가정합니다.

텍스트가 분석되면 링크가 방문되고 HTML이 입력에 덤프됩니다. 이러한 종류의 플러그인을 보다 우아하게 통합하는 것은 어렵습니다.

예를 들어 Bing 플러그인을 사용하면 Bing으로 검색할 수 있지만 에이전트는 사용자가 그 반대보다 훨씬 더 자주 검색하기를 원한다고 가정합니다.

교육을 여러 겹으로 해도 GPT에서 일관된 응답을 보장하기 어렵기 때문입니다. OpenAI API로 작업하면 즉시 나타날 수 있습니다. "개방형 AI 모델"로 플래그를 지정할 수 있지만 일부 응답은 다른 문장 구조와 다른 방법으로 거절할 수 있습니다.

이것은 일관된 입력을 기대하기 때문에 기계적 코드 응답을 작성하기 어렵게 만듭니다.

OpenAI 앱과 검색을 통합하려는 경우 어떤 종류의 트리거가 검색 기능을 시작합니까?

기사에서 검색에 대해 이야기하고 싶다면 어떻게 해야 할까요? 마찬가지로 입력을 청킹하는 것도 어려울 수 있습니다.

ChatGPT는 프롬프트의 다른 부분과 구별하기 어렵습니다. 이러한 모델은 환상과 현실을 구별하기 어렵기 때문입니다.

그럼에도 불구하고 GPT가 추론하도록 허용하는 가장 쉬운 방법은 더 나은 추론을 통합하는 것입니다. 이것은 여전히 ​​말보다 쉽습니다.

Ryan Jones는 트위터에서 이것에 대해 좋은 스레드를 가졌습니다.

그런 다음 LLM 작동 방식에 대한 문제로 돌아갑니다.

계산기도 없고, 생각하는 과정도 없으며 방대한 양의 텍스트를 기반으로 다음 용어를 추측할 뿐입니다.

사례 3: GPT 대 수수께끼

이런 종류의 케이스 중 내가 가장 좋아하는 케이스는? 어린이 수수께끼.

각 세트의 네 단어 중 하나가 속하지 않습니다. 속하지 않는 단어는?

  • 녹색, 노란색, 빨간색, 파란색.
  • 4월, 12월, 11월, 6월.
  • 권운, 미적분학, 적운, 층운.
  • 당근, 무, 감자, 양배추.
  • 포크, 빗, 갈퀴, 삽.

그것에 대해 잠시 생각하십시오. 아이에게 물어보세요.

실제 답변은 다음과 같습니다.

  • 녹색. 노란색, 빨간색 및 파란색은 기본 색상입니다. 녹색은 그렇지 않습니다.
  • 12월. 다른 달은 30일밖에 없습니다.
  • 계산법. 나머지는 클라우드 유형입니다.
  • 양배추. 나머지는 지하에서 자라는 채소입니다.
  • 삽. 다른 것들은 갈퀴가 있습니다.

이제 GPT의 몇 가지 응답을 살펴보겠습니다.

GPT 프롬프트 환각

흥미로운 점은 이 답변의 형태가 정확하다는 것입니다. 정답은 '원색이 아니다'로 나왔지만, 원색이 무엇인지, 어떤 색인지 알기에는 맥락이 부족했다.

이것이 일회성 쿼리라고 부를 수 있는 것입니다. 모델에 추가 세부 정보를 제공하지 않으며 모델이 독립적으로 문제를 파악하기를 기대합니다. 그러나 이전 답변에서 본 것처럼 GPT는 과도한 프롬프트로 인해 문제가 발생할 수 있습니다.

GPT는 똑똑하지 않습니다. 인상적이기는 하지만 원하는 만큼 "일반 목적"은 아닙니다.

자신이 말하거나 행동하는 맥락을 알지 못하며 단어가 무엇인지도 모릅니다.

GPT에게 세상은 수학입니다.

토큰은 함께 춤을 추는 벡터일 뿐이며, 상호 연결된 다양한 지점에서 웹을 나타냅니다.

GPT의 수수께끼 답변

LLM은 다음과 같지 않습니다. 당신이 생각하는대로 똑똑

법정 소송에서 ChatGPT를 사용한 변호사는 “검색 엔진인 줄 알았다”고 말했다.

눈에 잘 띄는 이 전문적인 불법 행위 사례는 재미있지만 그 의미에 대한 두려움에 사로잡혀 있습니다.

매우 숙련되고 보수가 높은 업무를 수행하는 주제 전문가인 변호사가 이 정보를 법원에 제출했습니다.

검색 엔진과 거의 같기 때문에 전국적으로 수백 명의 사람들이 같은 일을 하고 있습니다. 인간처럼 보이고 올바르게 보입니다.

웹 사이트 콘텐츠는 큰 위험이 될 수 있습니다. 모든 것이 될 수 있습니다. 잘못된 정보는 이미 온라인에서 만연하고 있으며 ChatGPT는 남은 정보를 먹고 있습니다.

조사되지 않은 침몰선에서 금속을 수집해야 합니다.

마찬가지로 2022년 이전의 데이터는 고유하고 인간적이며 진실해야 하는 텍스트에서 비롯되기 때문에 인기 있는 상품이 될 것입니다.

이러한 종류의 많은 담론은 몇 가지 근본 원인, 즉 GPT의 작동 방식에 대한 오해와 GPT의 용도에 대한 오해에서 비롯된 것 같습니다.

OpenAI는 이러한 오해에 대해 어느 정도 책임을 질 수 있습니다. 그들은 GPT가 할 수 있는 것의 약점을 받아들이기 어려울 정도로 인공 일반 지능을 개발하기를 원합니다.

GPT는 "모든 것의 주인"이므로 어떤 것의 주인도 될 수 없습니다.

욕설을 말할 수 없으면 콘텐츠를 조정할 수 없습니다.

진실을 말해야 한다면 허구를 쓸 수 없습니다.

사용자에게 복종해야 한다면 항상 정확할 수는 없습니다.

GPT는 검색 엔진, 챗봇, 친구, 일반 지능 또는 멋진 자동 수정이 아닙니다 .

문장을 만들기 위해 주사위를 굴리는 대량 응용 통계입니다. 그러나 우연에 관한 것은 때때로 당신이 잘못된 샷을 부른다는 것입니다.


이 기사에 표현된 의견은 게스트 작성자의 의견이며 반드시 검색 엔진 랜드가 아닙니다. 교직원 저자는 여기에 나열됩니다.