검색 엔진이 AI 콘텐츠를 감지할 수 있습니까?

게시 됨: 2023-08-04

지난 해 AI 도구 폭발은 디지털 마케터, 특히 SEO 분야의 마케터에게 엄청난 영향을 미쳤습니다.

콘텐츠 제작의 시간과 비용이 많이 드는 특성을 감안할 때 마케터는 지원을 위해 AI로 전환하여 엇갈린 결과를 낳았습니다.

윤리적 문제에도 불구하고 반복적으로 떠오르는 한 가지 질문은 "검색 엔진이 내 AI 콘텐츠를 감지할 수 있습니까?"입니다.

대답이 "아니오"인 경우 AI를 사용해야 하는지 여부와 방법에 대한 다른 많은 질문이 무효화되기 때문에 이 질문은 특히 중요한 것으로 간주됩니다.

기계 생성 콘텐츠의 오랜 역사

기계 생성 또는 지원 콘텐츠 생성의 빈도는 전례가 없지만 완전히 새로운 것은 아니며 항상 부정적인 것은 아닙니다.

뉴스 웹사이트는 뉴스 속보를 먼저 내놓는 것이 필수적이며, 콘텐츠 제작 속도를 높이기 위해 오랫동안 주식 시장 및 지진계와 같은 다양한 소스의 데이터를 활용해 왔습니다.

예를 들어 다음과 같은 로봇 기사를 게시하는 것은 사실적으로 옳습니다.

  • “오늘 아침 [시간]/[날짜]에 [위치, 도시]에서 [마지막 사건 날짜] 이후 첫 번째 지진인 [규모] 지진이 감지되었습니다. 더 많은 뉴스가 이어집니다.”

이와 같은 업데이트는 이 정보를 가능한 빨리 얻어야 하는 최종 독자에게도 도움이 됩니다.

스펙트럼의 다른 끝에서 우리는 기계 생성 콘텐츠의 많은 "검은 모자" 구현을 보았습니다.

Google은 Markov 체인을 사용하여 "부가 가치를 제공하지 않는 자동 생성 페이지"라는 배너 아래 수년 동안 회전하는 노력이 적은 콘텐츠에 텍스트를 생성하는 것을 비난했습니다.

특히 흥미롭고 혼란스러운 점이나 모호한 부분은 "부가 가치 없음"의 의미입니다.

LLM은 어떻게 가치를 더할 수 있습니까?

AI 콘텐츠의 인기는 GPTx LLM(대형 언어 모델)과 대화 상호 작용을 개선한 미세 조정 AI 챗봇 ChatGPT가 주목하면서 급증했습니다.

기술 세부 사항을 살펴보지 않고 이러한 도구에 대해 고려해야 할 몇 가지 중요한 사항이 있습니다.

생성된 텍스트는 확률 분포를 기반으로 합니다.

  • 예를 들어 "Being an SEO is fun because..."라고 쓰면 LLM은 모든 토큰을 보고 훈련 세트를 기반으로 다음으로 가능성이 높은 단어를 계산하려고 합니다. 단번에 휴대 전화 예측 텍스트의 정말 고급 버전이라고 생각할 수 있습니다.

ChatGPT는 생성 인공 지능의 한 유형입니다.

  • 이는 출력을 예측할 수 없음을 의미합니다. 무작위 요소가 있으며 동일한 프롬프트에 다르게 응답할 수 있습니다.

이 두 가지 사항을 이해하면 ChatGPT와 같은 도구에는 전통적인 지식이 없거나 "알고 있는" 것이 없다는 것이 분명해집니다. 이 결점은 모든 오류 또는 소위 "환각"의 기초입니다.

수많은 문서화된 출력은 이 접근 방식이 어떻게 잘못된 결과를 생성하고 ChatGPT가 반복적으로 모순되게 만드는지 보여줍니다.

/r/ChatGPT의 예
/r/ChatGPT 의 예

이것은 빈번한 환각의 가능성을 고려할 때 AI가 쓴 텍스트와 "가치 추가"의 일관성에 대해 심각한 의문을 제기합니다.

근본 원인은 LLM이 텍스트를 생성하는 방식에 있으며, 이는 새로운 접근 방식 없이는 쉽게 해결되지 않습니다.

이는 특히 정확하지 않을 경우 사람들의 재정이나 삶에 실질적으로 해를 끼칠 수 있는 YMYL(Your Money, Your Life) 주제에 대해 중요한 고려 사항입니다.

Men's Health 및 CNET과 같은 주요 간행물은 올해 사실적으로 잘못된 AI 생성 정보를 게시하여 우려를 강조했습니다.

Google이 YMYL 콘텐츠로 검색 생성 경험(SGE) 콘텐츠를 통제하는 데 어려움을 겪었기 때문에 게시자는 이 문제에 혼자가 아닙니다.

Google이 생성된 답변에 주의를 기울이고 "의료 분야에 있기 때문에 아이에게 타이레놀을 주는 것에 대한 질문에 대한 답변을 표시하지 않을 것"이라는 예를 구체적으로 제시하기까지 한다고 말했지만 SGE는 분명히 그렇게 할 것입니다. 이것은 단순히 질문을 함으로써 가능합니다.


검색 마케터가 의존하는 일일 뉴스레터를 받으세요.

처리 중…기다려 주십시오.

용어를 참조하십시오.


Google의 SGE 및 MUM

Google은 기계 생성 콘텐츠가 사용자의 질문에 답할 수 있는 장소가 있다고 믿는 것이 분명합니다. Google은 2021년 5월 멀티태스킹 통합 모델인 MUM을 발표하면서 이를 암시했습니다.

MUM이 해결하기로 한 한 가지 과제는 사람들이 복잡한 작업에 대해 평균 8개의 쿼리를 발행한다는 데이터를 기반으로 했습니다.

초기 쿼리에서 검색자는 몇 가지 추가 정보를 학습하여 관련 검색을 유도하고 해당 쿼리에 대한 답변을 제공하는 새 웹페이지를 표시합니다.

Google은 다음과 같이 제안했습니다. 초기 쿼리를 받고, 사용자 후속 질문을 예상하고, 인덱스 지식을 사용하여 완전한 답변을 생성할 수 있다면 어떨까요?

효과가 있다면 이 접근 방식은 사용자에게는 환상적일 수 있지만 본질적으로 SEO가 SERP 내에서 발판을 마련하기 위해 의존하는 많은 "롱테일" 또는 볼륨이 없는 키워드 전략을 제거합니다.

Google이 AI 생성 답변에 적합한 쿼리를 식별할 수 있다고 가정하면 많은 질문이 "해결"된 것으로 간주될 수 있습니다.

이것은 질문을 제기합니다…

  • 검색 에코시스템 내에서 사용자를 유지하고 스스로 답변을 생성할 수 있는데 왜 Google이 미리 생성된 답변이 포함된 웹페이지를 검색자에게 표시할까요?

Google은 생태계 내에서 사용자를 유지하기 위해 금전적 인센티브를 제공합니다. 추천 스니펫부터 사람들이 SERP에서 항공편을 검색할 수 있도록 하는 것까지 이를 달성하기 위한 다양한 접근 방식을 보았습니다.

Google에서 생성된 텍스트가 이미 제공할 수 있는 것 이상의 가치를 제공하지 않는다고 생각한다고 가정해 보겠습니다. 이 경우 검색 엔진의 비용 대 이익의 문제가 됩니다.

생성 비용을 흡수하고 사용자가 이미 존재하는 페이지로 빠르고 저렴하게 사용자를 보내는 대신 응답을 기다리게 함으로써 장기적으로 더 많은 수익을 창출할 수 있습니까?

AI 콘텐츠 감지

ChatGPT 사용이 폭발적으로 증가함에 따라 텍스트 콘텐츠를 입력하고 백분율 점수를 출력할 수 있는 수십 개의 "AI 콘텐츠 탐지기"가 등장했습니다. 여기에 문제가 있습니다.

다양한 탐지기가 이 백분율 점수에 레이블을 지정하는 방법에는 약간의 차이가 있지만 거의 변함없이 동일한 출력을 제공합니다. 제공된 전체 텍스트가 AI에서 생성된 백분율 확실성입니다.

예를 들어 "75% AI / 25% 인간"과 같이 백분율에 레이블이 지정되면 혼동이 발생합니다.

많은 사람들이 이것을 "텍스트는 75%는 AI가, 25%는 인간이 썼다"는 의미로 오해할 것입니다.

이러한 오해로 인해 일부 사람들은 AI 감지기를 "통과"하기 위해 텍스트 입력을 조정하는 방법에 대한 조언을 제공했습니다.

예를 들어 이중 느낌표(!!)를 사용하는 것은 매우 인간적인 특성이므로 일부 AI 생성 텍스트에 이것을 추가하면 AI 감지기가 "99%+ 인간" 점수를 부여합니다.

그러면 탐지기를 "속였다"고 잘못 해석됩니다.

그러나 제공된 통로가 더 이상 AI에 의해 100% 생성되지 않기 때문에 탐지기가 완벽하게 작동하는 예입니다.

안타깝게도 AI 탐지기를 "속일" 수 있다는 잘못된 결론은 일반적으로 웹 사이트 소유자에게 잘못된 보안 감각을 제공하는 AI 콘텐츠를 탐지하지 않는 Google과 같은 검색 엔진과 혼동됩니다.

AI 콘텐츠에 대한 Google 정책 및 조치

AI 콘텐츠에 대한 Google의 진술은 역사적으로 집행과 관련하여 흔들릴 수 있을 정도로 모호했습니다.

그러나 업데이트된 지침은 올해 Google 검색 센터에 다음과 같이 명시적으로 게시되었습니다.

"우리의 초점은 콘텐츠 제작 방식보다 콘텐츠 품질에 있습니다."

그 이전에도 Google Search Liaison Danny Sullivan은 Twitter 보존에 뛰어들어 "AI 콘텐츠가 나쁘다고 말하지 않았다"고 단언했습니다.

Google은 AI가 스포츠 점수, 일기 예보, 성적표와 같은 유용한 콘텐츠를 생성하는 방법에 대한 구체적인 예를 나열합니다.

Google은 검색 결과에서 순위를 조작할 목적으로 콘텐츠를 생성하는 것은 스팸 정책을 위반하는 것입니다.

SERP 조작과 싸우는 것은 Google이 수년간의 경험을 가지고 있으며 SpamBrain과 같은 시스템의 발전으로 UGC 스팸, 스크래핑, 클로킹 및 모든 다양한 형태의 콘텐츠를 포함하는 검색의 99%를 "스팸 없는" 것으로 만들었다고 주장합니다. 세대.

많은 사람들이 테스트를 실행하여 Google이 AI 콘텐츠에 어떻게 반응하고 품질에 대한 기준을 어디에 두는지 확인했습니다.

ChatGPT를 출시하기 전에 저는 감독되지 않은 GPT3 모델에서 주로 생성된 10,000페이지의 콘텐츠 웹사이트를 만들어 사람들이 비디오 게임에 대한 질문도 합니다.

최소한의 링크로 사이트는 신속하게 인덱싱되고 꾸준히 성장하여 월간 방문자 수는 수천 명에 달했습니다.

2022년 두 차례의 Google 시스템 업데이트(유용한 콘텐츠 업데이트 및 이후 스팸 업데이트) 동안 Google은 갑자기 사이트를 거의 완전히 억제했습니다.

AI 테스트 웹사이트의 Google Search Console 데이터
AI 테스트 웹사이트의 Google Search Console 데이터

그러한 실험에서 "AI 콘텐츠가 작동하지 않는다"고 결론을 내리는 것은 잘못된 것입니다.

그러나 이것은 특정 시간에 Google이 다음과 같은 사실을 나에게 보여주었습니다.

  • 감독되지 않은 GPT-3 콘텐츠를 "품질"로 분류하지 않았습니다.
  • 다른 신호의 뗏목으로 이러한 결과를 감지하고 제거할 수 있습니다.

궁극적인 답을 얻으려면 더 나은 질문이 필요합니다

Google의 가이드라인을 기반으로 검색 시스템, SEO 실험 및 상식에 대해 알고 있는 "검색 엔진이 AI 콘텐츠를 감지할 수 있습니까?" 잘못된 질문일 가능성이 높습니다.

기껏해야 매우 단기적인 견해입니다.

대부분의 주제에서 LLM은 교육 데이터 이외의 정보에 대한 실시간 웹 액세스가 있음에도 불구하고 사실적 정확성과 Google의 EEAT 기준을 충족하는 측면에서 "고품질" 콘텐츠를 지속적으로 생성하는 데 어려움을 겪고 있습니다.

AI는 이전에는 콘텐츠가 부족했던 쿼리에 대한 답변을 생성하는 데 상당한 진전을 이루고 있습니다. 그러나 Google이 SGE와 함께 더 높은 장기 목표를 목표로 함에 따라 이러한 추세는 사라질 수 있습니다.

사용자를 수많은 소규모 사이트로 안내하는 대신 많은 롱테일 쿼리에 대한 답변을 제공하는 Google 지식 시스템을 통해 더 긴 형식의 전문가 콘텐츠로 초점이 돌아갈 것으로 예상됩니다.


이 기사에 표현된 의견은 게스트 작성자의 의견이며 반드시 검색 엔진 랜드가 아닙니다. 교직원 저자는 여기에 나열됩니다.