원문: https://arxiv.org/pdf/2311.09735
Abstract
대형 언어 모델(LLM)의 등장은 사용자 질의에 대해 정보를 수집하고 요약해서 답해주는 새로운 검색 엔진 패러다임을 열었습니다. 저자들은 이 새로운 기술을 생성 엔진(Generative Engine, GE) 이라는 통합 프레임워크로 정의합니다. 생성 엔진은 정확하고 개인화된 답변을 만들어낼 수 있어서, Google이나 Bing 같은 전통적 검색 엔진을 빠르게 대체하고 있습니다.
생성 엔진은 보통 여러 출처에서 정보를 종합해 LLM으로 요약하는 방식으로 동작합니다. 이런 변화는 사용자 효용과 검색 엔진 운영자에게는 큰 이득이지만, 제3자 이해관계자인 웹사이트와 콘텐츠 제작자에게는 큰 도전이 됩니다. 생성 엔진은 블랙박스이고 빠르게 변하기 때문에, 제작자는 자기 콘텐츠가 언제 어떻게 노출될지 거의 통제할 수 없습니다.
이 문제를 해결하기 위해 저자들은 Generative Engine Optimization(GEO) 을 제안합니다. 이는 콘텐츠 제작자가 생성 엔진 응답에서 자기 콘텐츠의 가시성(visibility)을 높일 수 있도록 돕는 최초의 패러다임으로, 가시성 지표를 정의하고 최적화하는 유연한 블랙박스 프레임워크입니다. 또한 체계적 평가를 위해 GEO-bench라는 대규모 벤치마크도 함께 제안합니다(다양한 도메인의 사용자 질의들과 그 답변에 필요한 웹 출처들로 구성되어 있습니다).
엄밀한 평가를 통해 GEO가 생성 엔진 응답에서 가시성을 최대 40%까지 향상시킬 수 있음을 입증했습니다. 또한 전략의 효과가 도메인별로 다르다는 점도 확인했는데, 이는 도메인 특화 최적화의 필요성을 보여줍니다.

핵심을 한 줄로 요약하면 이렇습니다. "AI 검색 시대에는 SEO 대신 GEO가 필요하다."
기존 SEO는 "Google 검색 결과 1페이지 상단에 내 사이트가 뜨게 하기"가 목표였습니다. 그런데 이제 사용자는 검색 결과 페이지 자체를 안 보고, AI가 합성한 답변만 읽고 끝냅니다. 그러면 콘텐츠 제작자 입장에서는 "내가 쓴 글이 그 AI 답변에 인용 출처로 들어가는지", "본문에 얼마나 길게 반영되는지"가 새로운 가시성 지표가 되는 거죠.
저자들은 이 문제를 정식으로 정의하고, 이걸 측정할 지표를 만들고, 측정해보기 위한 벤치마크 데이터셋을 만들고, 실제로 어떻게 콘텐츠를 바꾸면 가시성이 올라가는지 9가지 전략을 실험으로 검증했습니다. 그 결과 잘 만든 전략은 인용 비중을 40%까지 끌어올렸고, 가장 효과 없는 전략은 다름 아닌 전통적 SEO의 핵심 무기였던 "키워드 스터핑" 이었다는 게 흥미로운 포인트입니다.
1. Introduction
전통적 검색 엔진의 발명은 30년 전 정보 접근과 전파를 전 세계적으로 혁신했습니다. 학술 연구나 전자상거래 같은 수많은 응용을 가능하게 했지만, 결국 사용자 질의에 대해 "관련 웹사이트 목록"을 보여주는 데 그쳤습니다. 그러나 최근 LLM의 성공으로 BingChat, Google SGE, perplexity.ai 같은 더 나은 시스템이 등장했습니다. 이들은 전통적 검색 엔진과 생성 모델을 결합한 형태로, 저자들은 이를 생성 엔진(Generative Engine, GE) 이라 부릅니다. 정보를 검색하면서 동시에 여러 출처를 활용해 멀티모달 응답을 생성하기 때문입니다. 기술적으로 생성 엔진은 데이터베이스(예: 인터넷)에서 관련 문서를 가져와서 대형 신경망으로 출처에 근거한 응답을 생성하는데, 이때 출처 표기(attribution)가 들어가서 사용자가 정보를 검증할 수 있게 합니다.
생성 엔진의 유용성은 개발자와 사용자 모두에게 명백합니다. 사용자는 더 빠르고 정확하게 정보를 얻고, 개발자는 정밀하고 개인화된 응답으로 만족도와 매출을 올립니다. 그러나 생성 엔진은 제3자 이해관계자인 웹사이트·콘텐츠 제작자에게는 불리합니다. 전통적 검색 엔진과 달리, 생성 엔진은 정확하고 종합적인 답변을 직접 제공하기 때문에 사용자가 굳이 웹사이트로 이동할 필요가 없어집니다. 결과적으로 유기적 트래픽과 가시성이 줄어듭니다. 수백만의 소상공인과 개인이 온라인 트래픽으로 생계를 유지하는 상황에서, 생성 엔진은 크리에이터 경제를 크게 흔들 수밖에 없습니다. 게다가 블랙박스이고 독점적이기 때문에 제작자가 자기 콘텐츠가 어떻게 활용되고 표현되는지 통제하거나 이해하기도 어렵습니다.
이 연구에서 저자들은 콘텐츠 제작자가 생성 엔진 패러다임에서 살아남도록 돕는 최초의 제작자 중심 프레임워크인 Generative Engine Optimization(GEO) 을 제안합니다. GEO는 독점적이고 폐쇄적인 생성 엔진을 대상으로 웹 콘텐츠 가시성을 최적화하는 유연한 블랙박스 최적화 프레임워크입니다. 원본 웹사이트를 입력받아, 표현 방식·문체·내용을 조정해 가시성을 높인 최적화 버전을 출력합니다.
또한 GEO는 생성 엔진을 위한 가시성 지표를 정의할 유연한 프레임워크를 도입합니다. 생성 엔진의 가시성 개념은 전통적 검색 엔진보다 훨씬 미묘하고 다면적이기 때문입니다. 검색 결과 페이지에서의 평균 순위는 검색 엔진에선 좋은 지표지만, 생성 엔진에는 적용되지 않습니다. 생성 엔진은 풍부하고 구조화된 응답을 만들고, 웹사이트를 본문 중간 인용으로 끼워 넣습니다. 길이도, 위치도, 스타일도 다양합니다. 따라서 생성 엔진 전용 가시성 지표가 필요하며, 이는 인용된 출처의 가시성을 객관적·주관적 양 측면에서 다차원으로 측정해야 합니다.
GEO 방법론의 충실한 평가를 위해 저자들은 GEO-bench를 제안합니다. 다양한 도메인과 출처에서 가져와 생성 엔진용으로 가공한 1만 개 질의로 구성된 벤치마크입니다. 체계적 평가 결과, GEO 방법은 다양한 질의에서 가시성을 최대 40% 향상시켰습니다. 특히 인용·인용문·통계 추가가 가시성을 40% 이상 높이는 효과적인 전략이었습니다. 또한 실제 운영되는 생성 엔진인 Perplexity.ai에서도 효과를 검증해 최대 37% 의 가시성 향상을 보였습니다.
요약하면 본 연구의 기여는 세 가지입니다.
- 웹사이트 소유자가 생성 엔진을 위해 자기 콘텐츠를 최적화할 수 있는 최초의 일반 프레임워크인 GEO 제안. 다양한 질의·도메인·실제 블랙박스 생성 엔진에서 가시성을 최대 40% 향상.
- 생성 엔진 전용 가시성 지표 모음 제공 및 제작자가 자기만의 지표로 유연하게 최적화할 수 있는 길 열기.
- 생성 엔진용으로 특화된 다양한 도메인의 대규모 벤치마크(최초) 공개.
서론에서 저자들이 던지는 메시지는 명확합니다. "검색의 권력 구조가 바뀌었으니, 콘텐츠 제작자도 게임의 룰을 바꿔야 한다" 는 거죠.
이 변화에서 콘텐츠 제작자의 고민은 두 단계로 진화합니다.
- 1단계 (인용되기): 일단 비서(AI)가 내 글을 출처로 선택해야 합니다.
- 2단계 (눈에 띄기): 출처 [1]로 들어갔어도, 본문에서 내 글의 내용이 얼마나 길게, 얼마나 앞쪽에, 얼마나 인상적으로 인용되는지가 중요합니다.
저자들은 이 두 단계 중에서도 2단계에 집중합니다. 이미 검색 엔진이 골라준 상위 5개 출처 안에 들어왔다고 가정하고, 그 안에서 어떻게 더 눈에 띄게 인용될지를 다루는 거죠.
그리고 또 한 가지 중요한 메시지가 있습니다. 생성 엔진은 블랙박스이기 때문에 제작자가 알고리즘을 알 수도, 통제할 수도 없습니다. 그래서 GEO는 "내부를 모르는 채로 외부 입력만 바꿔서 출력을 개선하는" 블랙박스 최적화 프레임워크 로 설계됐습니다. 사실 이건 SEO도 마찬가지였죠. Google 알고리즘은 늘 비공개였으니까요. 다만 SEO는 키워드, 백링크, 페이지 속도 같은 비교적 명확한 신호들이 있었지만, GEO는 LLM이 어떻게 텍스트를 "이해"하고 합성하는지가 훨씬 미묘하다는 점이 다릅니다.
2. Formulation & Methodology
2.1 Formulation of Generative Engines
수많은 생성 엔진이 이미 수백만 사용자에게 배포되어 있지만, 표준 프레임워크는 아직 없습니다. 저자들은 다양한 모듈형 구성요소를 수용할 수 있는 정형화를 제시합니다.
생성 엔진(GE)은 사용자 질의 $q_u$를 받아 자연어 응답 $r$을 반환합니다. 여기서 $P_U$는 개인화된 사용자 정보입니다.

생성 엔진은 두 가지 핵심 구성요소로 이루어집니다.
- (a) 생성 모델 집합 $G = {G_1, G_2, ..., G_n}$ — 각각 질의 재구성, 요약 등 특정 역할을 담당.
- (b) 검색 엔진 $SE$ — 질의 $q$에 대해 출처 집합 $S = {s_1, s_2, ..., s_m}$을 반환.

전형적 워크플로우(BingChat과 유사)는 다음과 같습니다.
- 질의 재구성 모델 $G_{qr}$이 입력 질의를 검색 엔진이 다루기 쉬운 단순 질의들 $Q^1 = {q_1, q_2, ..., q_n}$로 분해합니다.
- 검색 엔진 $SE$가 이 질의들에 대해 순위 매겨진 출처 $S = {s_1, s_2, ..., s_m}$를 반환합니다.
- 요약 모델 $G_{sum}$이 각 출처에 대해 요약 $Sum_j$를 생성합니다.
- 응답 생성 모델 $G_{resp}$가 요약들을 종합해 출처가 명시된 최종 응답 $r$을 생성합니다.
본 연구는 단일 턴 생성 엔진에 집중하나, 다중 턴 대화형 생성 엔진(Appendix A)으로도 확장 가능합니다.
응답 $r$은 인용이 삽입된 구조화 텍스트입니다. LLM은 환각(hallucination) 경향이 있어 인용이 중요합니다. 응답 $r$이 문장들 ${l_1, l_2, ..., l_o}$로 구성된다고 할 때, 각 문장은 검색된 문서 부분집합 $C_i \subset S$에 의해 뒷받침됩니다. 이상적인 생성 엔진은 모든 문장이 관련 인용으로 뒷받침되고(높은 인용 재현율), 모든 인용이 관련 문장을 정확히 뒷받침하는(높은 인용 정밀도) 상태를 지향합니다.
핵심은 "생성 엔진을 수학적으로 분해해서 각 단계마다 어떤 모델이 작동하는지 명확히 하자" 는 겁니다.
쉽게 말해 생성 엔진은 4단계 파이프라인입니다.
사용자 질의 → [질의 재구성] → [검색] → [요약] → [최종 답변 생성] → 응답
예를 들어 "뉴욕에서 할 만한 거 알려줘"라고 물으면 다음과 같이 동작합니다.
- 질의 재구성: "뉴욕 관광 명소", "뉴욕 맛집", "뉴욕 박물관" 같은 세부 검색어로 쪼갭니다.
- 검색: 각 세부 검색어로 Google에서 상위 결과를 가져옵니다.
- 요약: 각 사이트 내용을 요약합니다.
- 최종 답변 생성: 요약들을 종합해 "오전엔 센트럴 파크[1], 점심엔 뉴욕식 피자[3], 오후엔 자유의 여신상[2]을 추천합니다" 같은 답변을 만듭니다.
여기서 콘텐츠 제작자가 영향을 미칠 수 있는 지점은 2단계와 4단계 사이입니다. 검색 단계에서 내 사이트가 상위 5개 안에 들어와야 하고(이건 기존 SEO 영역), 그 다음 4단계에서 LLM이 내 사이트를 본문에 적극적으로 인용하도록 만들어야 합니다(이게 GEO 영역).
또 하나 중요한 개념이 인용 재현율(citation recall) 과 인용 정밀도(citation precision) 입니다.
- 재현율: "응답의 모든 주장이 출처로 뒷받침되는가?"
- 정밀도: "출처로 표시된 게 실제로 그 주장을 뒷받침하는가?"
이게 중요한 이유는 LLM이 환각을 일으키기 쉽기 때문입니다. 출처 인용은 환각을 막는 안전장치인 동시에, 콘텐츠 제작자에게는 "내 글이 사용된 자국"이기도 합니다.
2.2 Generative Engine Optimization
검색 엔진의 등장이 SEO를 낳았듯, 생성 엔진은 새로운 최적화 패러다임을 요구합니다. 전통적 SEO는 키워드 매칭에 기반하지만, 생성 엔진의 LLM은 문서와 질의를 훨씬 미묘하게 이해합니다. 따라서 SEO는 직접 적용되지 않으며, 새로운 기법이 필요합니다. 저자들은 콘텐츠 제작자가 생성 엔진 응답에서 자기 가시성(또는 인상, impression)을 높이는 새로운 패러다임으로 Generative Engine Optimization 을 제안합니다.
응답 $r$에서 웹사이트(인용 $c_i$)의 가시성을 함수 $Imp(c_i, r)$로 정의하며, 제작자는 이를 최대화하려 합니다. 한편 생성 엔진 입장에서는 사용자 질의와 가장 관련 있는 인용의 가시성을 최대화하는 게 목표입니다. 즉 $\sum_i f(Imp(c_i, r), Rel(c_i, q, r))$를 최대화하는 것입니다. 여기서 $Rel(c_i, q, r)$은 응답 $r$ 맥락에서 인용 $c_i$가 질의 $q$에 얼마나 관련 있는지 측정하며, $f$는 생성 엔진 알고리즘에 의해 결정되는 블랙박스 함수입니다. $Imp$와 $Rel$은 모두 주관적이며 생성 엔진에 대해 아직 잘 정의되지 않았는데, 다음 절에서 이를 정의합니다.
2.2.1 Impressions for Generative Engines.

SEO에서 웹사이트 인상(가시성)은 다양한 질의에 걸친 평균 순위로 결정됩니다. 그러나 생성 엔진의 출력은 다른 인상 지표를 요구합니다. 생성 엔진은 여러 출처 정보를 단일 응답에 결합하기 때문에, 길이·고유성·표현 방식 같은 요소가 인용의 진짜 가시성을 결정합니다. 그림 3에서 보이듯, 응답 페이지 내 단순 순위는 전통적 검색 엔진에선 효과적이지만 생성 엔진에는 적용되지 않습니다.
이 도전에 대응해 저자들은 세 가지 원칙으로 인상 지표를 설계했습니다. 1) 제작자에게 의미 있을 것, 2) 설명 가능할 것, 3) 다양한 콘텐츠 제작자가 쉽게 이해할 수 있을 것.

Word Count(단어 수) 지표: 인용과 관련된 문장들의 정규화된 단어 수입니다.
여기서 $S_{c_i}$는 $c_i$를 인용하는 문장 집합, $S_r$은 응답 내 전체 문장 집합, $|s|$는 문장 $s$의 단어 수입니다. 한 문장이 여러 출처를 인용하면 단어 수를 균등 분배합니다. 직관적으로, 단어 수가 많을수록 그 출처가 답변에서 더 중요한 역할을 했다는 뜻이고 사용자 노출도 커집니다.

그러나 Word Count는 인용 위치(첫 번째인지 등)를 고려하지 않으므로, Position-Adjusted Word Count(위치 조정 단어 수) 를 제안합니다. 인용 위치에 따라 가중치를 지수적으로 감쇠시킵니다.
응답 앞쪽에 나오는 문장이 더 많이 읽힐 가능성이 크며, 지수 감쇠 함수의 선택은 검색 엔진에서 클릭률이 순위에 대해 멱법칙(power-law)을 따른다는 여러 연구에서 동기를 얻었습니다.
위 두 지표는 객관적이지만 인용이 사용자 주의에 미치는 주관적 영향은 무시합니다. 이를 보완하기 위해 Subjective Impression(주관적 인상) 지표를 제안합니다. 이 지표는 인용 자료의 질의 관련성, 인용의 영향력, 자료의 고유성, 주관적 위치, 주관적 양, 클릭 확률, 자료 다양성 등을 포괄합니다. 각 하위 지표는 G-Eval(LLM 기반 평가의 최신 기법)을 사용해 측정합니다.
여기가 이 논문의 가장 중요한 개념적 기여 중 하나입니다. "AI 답변에서 가시성이란 무엇인가?" 를 처음으로 정량화한 부분이거든요.
기존 SEO에서 가시성은 단순했습니다. "검색 결과에서 몇 등인가" 가 거의 전부였죠. 1등이면 클릭률이 30%대, 2등은 10%대, 10등은 2%대... 이런 식의 순위 기반 측정이었습니다.
그런데 AI 답변은 이게 안 됩니다. 답변이 한 문단으로 합쳐져 나오는데, 그 안에 여러 출처가 [1][2][3]처럼 섞여 있어요. 그럼 [1]번 출처의 가시성을 어떻게 잴까요?
저자들은 세 가지 지표를 제안합니다.
1) Word Count (단어 수 비중) 가장 단순합니다. 응답이 100단어인데 그 중 30단어가 [1]번 출처를 인용한다면, [1]번의 가시성은 30%입니다.
- 직관: 내 사이트 내용이 본문에 길게 인용될수록 사용자에게 더 많이 노출됩니다.
- 한계: 위치를 고려하지 않습니다. 첫 문장에 나오든 마지막 문장에 나오든 똑같이 30%로 친다는 거죠.
2) Position-Adjusted Word Count (위치 조정 단어 수) 앞쪽에 나올수록 가중치를 더 줍니다. $e^{-pos/|S|}$ 같은 지수 감쇠 함수로요.
- 직관: 사용자는 답변을 위에서부터 읽고, 뒤로 갈수록 안 읽거나 대충 봅니다. 검색 엔진의 클릭률이 순위에 따라 멱법칙으로 떨어지는 것과 같은 원리입니다.
- 결과: 첫 문장에 짧게 나오는 게 마지막 문장에 길게 나오는 것보다 가시성이 높을 수 있습니다.
3) Subjective Impression (주관적 인상) 이건 좀 더 미묘합니다. 단어 수만으론 못 잡는 7가지 측면을 LLM(G-Eval)으로 평가합니다.
- 관련성(Relevance): 인용이 질의와 얼마나 관련 있는지
- 영향력(Influence): 답변이 그 인용에 얼마나 의존하는지
- 고유성(Uniqueness): 다른 출처에 없는 독특한 내용을 담고 있는지
- 주관적 위치(Subjective Position): 사용자가 보기에 얼마나 두드러진 자리에 있는지
- 주관적 양(Subjective Count): 사용자가 보기에 얼마나 많은 내용이 인용된 것 같은지
- 클릭 확률(Probability of Clicking): 사용자가 그 인용을 클릭할 가능성
- 다양성(Diversity): 인용된 내용의 다양성
핵심은, "단어 수가 많아도 그게 별로 인상적이지 않으면 가시성이 낮다" 는 걸 잡아낸다는 점입니다. 예를 들어 답변에 "...일반적으로 알려진 사실이다 [1]"라는 식으로 무미건조하게 인용되는 것보다, "...놀랍게도 70%의 응답자가 그렇다고 답했다 [1]" 같은 인상적 인용이 사용자 기억에 남는다는 직관을 정량화한 거죠.
2.2.2 Generative Engine Optimization methods for website
인상 지표를 개선하려면 콘텐츠 제작자는 웹사이트 콘텐츠를 변경해야 합니다. 저자들은 생성 엔진에 무관한(generative engine-agnostic) 여러 전략을 제안하며, 이를 GEO 방법론 이라 부릅니다. 수학적으로 GEO 방법은 함수 $f: W \to W'_i$ 인데, $W$는 원본 콘텐츠, $W'$는 GEO 적용 후 콘텐츠입니다. 잘 설계된 GEO는 생성 엔진의 알고리즘을 모르는 채 웹사이트 가시성을 높이는 블랙박스 최적화 방법과 동등하며, 특정 질의와 무관하게 $W$를 텍스트 수준에서 수정합니다.
실험에서는 LLM에 특정 스타일·콘텐츠 변경을 지시해 웹사이트 콘텐츠에 GEO를 적용했습니다. 평가한 9가지 방법은 다음과 같습니다.
- Authoritative(권위적 톤): 더 설득력 있고 권위적인 문체로 변환.
- Statistics Addition(통계 추가): 가능한 한 정성적 서술을 정량적 통계로 변환.
- Keyword Stuffing(키워드 채우기): 질의 키워드를 더 많이 포함(고전적 SEO 기법).
- Cite Sources(출처 인용): 신뢰할 만한 출처 인용 추가.
- Quotation Addition(인용문 추가): 신뢰할 만한 출처에서 직접 인용문 추가.
- Easy-to-Understand(쉬운 표현): 웹사이트 언어를 단순화.
- Fluency Optimization(유창성 최적화): 텍스트 유창성 향상.
- Unique Words(독특한 단어): 가능한 곳에 독특한 어휘 추가.
- Technical Terms(전문 용어): 가능한 곳에 전문 용어 추가.
이 방법들은 웹사이트 소유자가 콘텐츠 종류와 무관하게 빠르게 적용할 수 있는 다양한 일반 전략을 다룹니다. 3, 4, 5번을 제외하면 추가 콘텐츠 없이 기존 콘텐츠의 표현만 강화합니다. 3, 4, 5번은 어느 정도 추가 콘텐츠가 필요할 수 있습니다.
성능을 분석하기 위해 각 입력 질의마다 최적화할 출처 웹사이트를 무작위로 하나 선택해, 모든 GEO 방법을 동일 출처에 개별 적용했습니다.
저자들이 제안한 9가지 전략을 세 그룹으로 나눠 보겠습니다.
그룹 A: 콘텐츠를 그대로 두고 표현만 바꾸는 전략 (1, 6, 7, 8, 9번)
- Authoritative: "이 방법이 좋다" → "이 방법이 결정적으로 우월하다"
- Easy-to-Understand: 어려운 문장을 쉽게 풀어쓰기
- Fluency Optimization: 어색한 문장을 자연스럽게 다듬기
- Unique Words: 평범한 단어를 독특한 어휘로 교체
- Technical Terms: 일반 용어를 전문 용어로 교체
그룹 B: 키워드 중심 전략 (2번 — 전통적 SEO의 정수)
- Keyword Stuffing: 검색어를 본문에 많이 끼워 넣기
그룹 C: 외부 신호를 추가하는 전략 (3, 4, 5번)
- Statistics Addition: "많은 사람들이 좋아한다" → "응답자의 73%가 좋아한다"
- Cite Sources: "이 사실은 잘 알려져 있다" → "이 사실은 [Smith 2022]에 의해 입증됐다"
- Quotation Addition: "전문가들도 동의한다" → "노벨상 수상자 X는 '...'라고 말했다"
저자들이 깔끔하게 분류한 부분이 있는데요. 그룹 A는 "옷만 갈아입히는" 전략, 그룹 C는 "장신구를 추가하는" 전략 이라고 보면 됩니다. 그룹 A는 원본 콘텐츠를 건드리지 않고 톤만 조정하니까 적용이 쉽지만, 그룹 C는 새로운 정보(통계, 인용문, 출처)를 가져와 붙여야 하니까 노력이 더 들어가죠.
스포일러를 미리 드리자면, 결과적으로 그룹 C가 압도적으로 잘 먹혔고, 그룹 B(키워드 스터핑)는 거의 효과가 없었습니다. 즉 SEO에서 통하던 "키워드 많이 넣기"는 GEO에서 완전히 죽은 전략이라는 거죠. LLM은 키워드 매칭이 아니라 의미 이해로 동작하기 때문에, 키워드만 빽빽이 박아도 "이 글이 더 권위 있고 신뢰할 만하다"고 판단하지 않는다는 겁니다.
3. Experimental Setup
3.1 Evaluated Generative Engine
이전 연구를 따라 2단계 생성 엔진 설계를 사용했습니다. 1단계는 입력 질의에 대해 관련 출처를 가져오는 것, 2단계는 LLM이 그 출처들에 기반해 응답을 생성하는 것입니다. 요약 단계는 사용하지 않고 각 출처의 전체 응답을 제공했습니다. 컨텍스트 길이 제약과 트랜스포머 모델의 컨텍스트 크기에 따른 비용의 2차 증가 때문에, Google 검색 엔진에서 질의당 상위 5개 출처만 가져왔습니다. 이 설정은 you.com과 perplexity.ai 같은 상용 GE의 일반적 설계를 따른 것입니다. 응답은 gpt-3.5-turbo 모델로 이전 연구의 동일 프롬프트로 생성했습니다. 통계적 편차를 줄이기 위해 temperature=0.7에서 5번 샘플링했습니다.
추가로 Section C.1에서 상용 배포된 Perplexity.ai에서도 동일 GEO 방법들을 평가해 일반화 가능성을 보였습니다.

저자들은 두 종류의 생성 엔진에서 실험합니다.
- 자체 구축한 미니 생성 엔진: Google 검색 + GPT-3.5로 직접 만든 간단한 버전. 통제된 실험 환경입니다.
- 실제 Perplexity.ai: 상용 서비스에서도 진짜로 효과가 있는지 검증합니다.
핵심 설계 결정은 상위 5개 출처만 사용 하는 부분입니다. 이건 비용과 컨텍스트 길이 한계 때문인데요, 사실 이 결정이 이 논문의 한계이자 실용적 가치이기도 합니다. 진짜 Perplexity나 Bing은 더 많은 출처를 보겠지만, 어차피 LLM이 본문에 인용으로 끌어오는 건 결국 몇 개에 불과하니까 5개로 시뮬레이션하는 것도 합리적이죠.
3.2 Benchmark : GEO-bench
생성 엔진 관련 질의를 담은 공개 데이터셋이 없으므로, 저자들은 GEO-bench를 직접 큐레이션했습니다. 9개 출처에서 가져와 생성 엔진용으로 재가공한 1만 개 질의로 구성되며, 합성 생성 질의도 포함합니다.
데이터셋 구성은 다음과 같습니다.
- MS MARCO,
- ORCAS-1,
- Natural Questions: Bing과 Google 검색 엔진의 실제 익명화된 사용자 질의입니다. 검색 엔진 연구에 흔히 쓰이지만, 생성 엔진은 더 어렵고 구체적인 질의를 받게 됩니다.
- AllSouls: 옥스퍼드 대학 All Souls College의 에세이 질문입니다. 여러 출처에서 정보를 종합하고 추론해야 답할 수 있는 질문들입니다.
- LIMA: 정보 종합뿐 아니라 추론까지 필요한 어려운 질문들(짧은 시 쓰기, Python 코드 등)입니다.
- Davinci-Debate: 생성 엔진 테스트용으로 만든 토론 질문들입니다.
- Perplexity.ai Discover: Perplexity.ai의 Discover 섹션에서 가져온 트렌딩 질의입니다.
- ELI-5: ELI5 서브레딧의 복잡한 질문들로, 사용자가 일반인 수준의 답변을 기대하는 질문들입니다.
- GPT-4 생성 질의: 다양성을 보충하기 위해 GPT-4로 다양한 도메인(과학, 역사 등), 의도(navigational, transactional 등), 난이도와 답변 범위(개방형, 사실 기반 등)에 걸쳐 생성했습니다.
벤치마크는 1만 질의로 구성되며 train 8K, validation 1K, test 1K로 분할됩니다. 현실 분포를 보존해 80%가 정보형 질의, 10%씩 거래형/내비게이션형입니다. 각 질의는 Google 검색 결과 상위 5개의 정제된 텍스트 콘텐츠로 보강됩니다.
각 질의는 7가지 카테고리 중 하나로 태깅됩니다. 태깅에는 GPT-4를 사용하고 test split에서 높은 재현율과 정밀도를 수동 확인했습니다.
전체적으로 GEO-bench는 예술, 건강, 게임 등 25개 도메인에 걸쳐 있고, 단순부터 복잡까지의 난이도, 9가지 질의 유형, 7가지 분류 체계를 포함합니다. 이런 특별 설계된 다양성, 규모, 현실성 덕분에 생성 엔진 평가의 종합 벤치마크이자 표준 테스트베드 역할을 합니다.

벤치마크 구축은 학술 논문에서 종종 가장 많은 노력이 들어가는 부분인데, 이 논문도 예외가 아닙니다. 저자들이 한 일을 정리하면 다음과 같습니다.
기존 데이터셋의 한계 인식: MS MARCO나 Natural Questions 같은 검색 엔진용 데이터셋은 "수도가 어디야?" 같은 단순 질의가 많습니다. 그런데 생성 엔진을 쓰는 사용자는 "기후 변화 정책의 트레이드오프를 정리해줘" 같은 더 어려운 질문을 던지죠.
다양성 확보 전략: 그래서 9가지 출처에서 데이터를 모았습니다.
- 검색 엔진 데이터(MS MARCO, ORCAS, Natural Questions): 현실적인 사용자 질의
- 학술/토론 데이터(AllSouls, Davinci-Debate, LIMA): 추론과 종합이 필요한 어려운 질문
- 일상 데이터(ELI5, Perplexity Discover): 실제 트렌드와 일상적 궁금증
- 합성 데이터(GPT-4 Generated): 부족한 도메인을 채움
1만 개 질의 라는 규모도 의미 있습니다. 이 정도면 GEO 방법별로, 도메인별로 통계적 결론을 끌어낼 수 있는 충분한 표본이거든요.
태깅 시스템도 흥미롭습니다. 각 질의를 7가지 차원으로 태깅합니다.
- 난이도(Difficulty Level)
- 질의 성격(Nature of Query): 사실 / 의견 / 비교
- 장르(Genre): 예술, 금융, 과학 등
- 구체적 주제(Specific Topics): 물리학, 경제학, 컴퓨터과학 등
- 민감도(Sensitivity): 민감한 주제 여부
- 사용자 의도(User Intent): 연구, 구매, 엔터테인먼트
- 답변 형식(Answer Type): 사실, 의견, 리스트
이 태깅 덕분에 나중에 "어떤 GEO 전략이 어떤 도메인에 잘 맞는지" 같은 정밀 분석이 가능해집니다. 한국어 콘텐츠로 GEO 연구를 한다면 이 데이터셋 구조를 그대로 가져와서 한국어판 GEO-bench를 만드는 것도 좋은 출발점이 될 수 있겠네요.
3.4 Evaluation Metrics
Section 2.2.1에서 정의한 인상 지표를 사용합니다. 구체적으로 두 가지 인상 지표는 다음과 같습니다.
- Position-Adjusted Word Count(위치 조정 단어 수): 단어 수와 위치 카운트를 결합. 개별 효과 분석을 위해 두 하위 지표 점수도 별도 보고합니다.
- Subjective Impression(주관적 인상): 7가지 측면을 포괄하는 주관적 지표입니다.
각 하위 지표는 GPT-3.5로 G-Eval 방식에 따라 평가합니다. G-Eval은 LLM에 폼 기반 평가 템플릿과 GE 생성 응답+인용을 제공해, 각 인용에 대한 점수를 다중 샘플링으로 출력합니다. 다만 G-Eval 점수는 캘리브레이션이 잘 안 되어 있으므로, Position-Adjusted Word Count와 같은 평균과 분산을 갖도록 정규화해 비교 가능하게 만들었습니다.
또한 모든 인상 지표는 응답 내 모든 인용의 인상 합이 1이 되도록 상수배로 정규화합니다. 분석에서는 인상의 상대적 향상으로 방법을 비교합니다.

초기 응답 $r$에서 출처 $s_i$의 상대적 향상은 위 공식으로 계산됩니다. 여기서 $r'$은 GEO 방법을 출처 $s_i$ 중 하나에 적용해 얻은 수정된 응답입니다. 최적화할 출처는 무작위 선택하되, 한 질의 내에서는 모든 GEO 방법에 동일하게 유지합니다.
평가 방법론에서 두 가지 영리한 설계가 있습니다.
1) 정규화로 공정한 비교 만들기 G-Eval은 LLM이 1~5점 같은 점수를 주는 방식인데, 이게 각 평가 항목마다 점수 분포가 다릅니다. 어떤 항목은 평균이 3점에 분산이 작고, 다른 항목은 평균이 2점에 분산이 큰 식이죠. 이걸 그대로 합치면 어떤 항목이 비정상적으로 영향력이 커집니다. 그래서 모든 지표를 Position-Adjusted Word Count의 평균과 분산에 맞춰 정규화합니다. 이러면 표에서 모든 숫자를 같은 스케일로 비교할 수 있죠.
2) 상대적 향상으로 측정하기 절대값이 아니라 "원본 대비 몇 % 올랐는지"를 봅니다. 왜냐하면 이미 인기 있는 출처(Wikipedia 같은)와 무명 출처는 시작점이 다르거든요. Wikipedia의 가시성을 50%에서 60%로 올리는 것보다, 무명 사이트를 5%에서 10%로 올리는 게 더 큰 의미일 수 있는데, 절대값으로 보면 둘 다 +5%지만 상대값으로 보면 +20% vs +100%로 차이가 납니다.
또 한 가지 중요한 통제: 각 질의에서 최적화할 출처는 무작위로 하나만 선택합니다. 5개 다 최적화하면 비교가 안 되니까요. 그리고 같은 질의 안에서는 어떤 GEO 방법을 쓰든 같은 출처를 최적화합니다. 그래야 "Authoritative와 Statistics Addition 중 뭐가 더 좋은지"를 같은 조건에서 비교할 수 있죠.
4. Results

표 1은 GEO 방법별 절대 인상 지표를 보여줍니다. GEO 방법들은 GEO-bench 전체에서 베이스라인을 일관되게 능가했습니다. 특히 상위 방법인 Cite Sources, Quotation Addition, Statistics Addition 은 Position-Adjusted Word Count에서 30~40%, Subjective Impression에서 15~30%의 상대적 향상을 보였습니다. 신뢰할 만한 출처에서 통계, 인용문, 출처를 추가하는 이 방법들은 최소 변경으로 콘텐츠의 신뢰성과 풍부함을 크게 높여 GE 응답에서의 가시성을 향상시킵니다.
흥미롭게도 Fluency Optimization과 Easy-to-Understand 같은 문체 개선 도 15~30%의 가시성 향상을 보였습니다. 이는 생성 엔진이 콘텐츠뿐 아니라 정보의 표현 방식도 평가한다는 점을 시사합니다.
생성 모델이 지시를 따르도록 설계됐다는 점에서, 더 권위적인 톤이 가시성을 높일 거라 예상할 수 있지만, Authoritative 방법은 유의미한 개선을 보이지 않았습니다. 생성 엔진이 이런 변화에 어느 정도 강건하다는 뜻으로, 콘텐츠 제작자가 표현과 신뢰성 향상에 집중해야 함을 강조합니다.
마지막으로 Keyword Stuffing(키워드 채우기)는 거의 또는 전혀 개선이 없었습니다. 검색 엔진에서 효과적이던 기법이 이 새 패러다임에서는 통하지 않는다는 점에서, 웹사이트 소유자는 최적화 전략을 다시 생각해야 합니다.
이 결과를 한 줄로 요약하면 이렇습니다. "인용문 추가가 제일 효과적이고, 키워드 스터핑은 효과가 없다."
승자와 패자를 명확히 정리해보면 다음과 같습니다.
효과 큰 방법
- Quotation Addition (인용문 추가): +41% — 신뢰할 만한 출처의 직접 인용문을 본문에 넣기.
- Statistics Addition (통계 추가): +30% — 정성적 서술을 정량적 수치로 바꾸기.
- Fluency Optimization (유창성): +28% — 문장을 자연스럽게 다듬기.
- Cite Sources (출처 인용): +27% — "[Smith 2022]에 따르면" 같은 인용 표시 추가.
중간 방법
- Authoritative, Easy-to-Understand, Technical Terms: 어느 정도 효과는 있지만 압도적이진 않습니다.
효과가 없는 방법
- Keyword Stuffing (키워드 채우기): -8%. 오히려 점수가 떨어집니다!
- Unique Words: 거의 변화 없습니다.
이 결과의 함의는 굉장히 큽니다.
첫째, LLM은 진짜로 "내용"을 보고 있다는 증거입니다. 키워드만 잔뜩 박아도 안 통하고, 권위적 톤만 잡아도 안 통합니다. 대신 "이 내용이 신뢰할 만한가" 를 판단하는 신호(통계, 인용문, 출처)가 잘 먹혔어요. LLM이 마치 사람처럼 "음, 이 글은 출처가 명확하고 데이터가 구체적이니까 신뢰할 만하군" 하고 판단한다는 거죠.
둘째, "스타일도 중요하다"는 발견입니다. Fluency Optimization이 28% 향상이라는 건 의외였습니다. 단순히 문장을 자연스럽게 다듬는 것만으로 인용 비중이 30% 가까이 늘어난다? 이건 LLM이 글을 요약·재구성할 때 "잘 쓴 글"을 더 많이 가져온다는 뜻입니다. 직관적으로 생각해보면, LLM 입장에서도 매끄러운 문장을 그대로 가져다 쓰는 게 어색한 문장을 다시 다듬어서 쓰는 것보다 쉽거든요.
셋째, 전통 SEO는 죽었다는 메시지입니다. Keyword Stuffing이 베이스라인보다도 못한 결과가 나왔습니다. 이건 단순히 "효과 없음"이 아니라 "역효과"라는 뜻이에요. 검색어를 본문에 부자연스럽게 많이 박아 넣으면 오히려 LLM이 "이 글은 부자연스러우니 신뢰성이 낮다"고 판단할 수 있다는 가설이 가능합니다.
한국어 GEO 실무 관점에서의 시사점
- 블로그 글 쓸 때 "...라는 보고가 있다" 대신 "한국 통계청 2024 자료에 따르면 73.2%가..." 같은 식으로 구체적 출처+숫자를 넣으세요.
- 전문가의 직접 인용문을 따올 수 있다면 적극 활용하세요.
- 키워드를 부자연스럽게 반복하기보다는 자연스러운 문장으로 다듬는 것 이 더 효과적입니다.
- "권위 있는 톤"을 잡으려고 애쓰는 건 의외로 큰 효과가 없습니다.
5. Analysis
5.1 Domain-Specific Generative Engine Optimizations

표 3은 GEO 방법이 가장 효과적인 카테고리를 자세히 보여줍니다.
- Authoritative: 토론 스타일 질문과 '역사' 도메인에서 큰 향상. 토론에서 설득력 있는 글이 가치를 갖는다는 직관과 일치합니다.
- Cite Sources: 사실 기반 질문에 특히 효과적입니다. 인용은 사실에 대한 검증 출처를 제공해 신뢰성을 높이기 때문입니다.
- Statistics Addition: 'Law & Government' 도메인과 'Opinion' 유형 질문에 강력합니다. 데이터 기반 증거가 특정 맥락에서 가시성을 높일 수 있음을 시사합니다.
- Quotation Addition: 'People & Society', 'Explanation', 'History' 도메인에서 가장 효과적입니다. 이런 도메인은 개인 서사나 역사적 사건을 다루는 경우가 많아, 직접 인용이 진정성과 깊이를 더할 수 있기 때문입니다.
전반적으로, 웹사이트 소유자는 가시성 향상을 위해 도메인 특화된 맞춤 조정을 해야 한다는 결론입니다.
같은 GEO 전략이라도 도메인에 따라 효과가 다르다는 게 중요한 발견입니다. "한 가지 전략으로 모든 분야에 통하는 만능 약은 없다" 는 거죠.
직관적으로 풀어보면 다음과 같습니다.
- 법·정부 관련 글 → 통계가 답입니다. "이 정책으로 실업률이 2.3% 감소했다"가 "이 정책은 효과적이었다"보다 강하죠.
- 역사·인물 관련 글 → 인용문이 답입니다. "처칠은 '...'라고 말했다"가 "처칠은 강한 신념을 보였다"보다 강합니다.
- 사실 확인 질문 → 출처 표시가 답입니다. "[Nature 2023]에 따르면"이 "연구에 따르면"보다 강합니다.
- 토론 주제 → 권위적 톤이 답입니다. 의견 대립이 있는 영역에선 단호한 어조가 도움이 됩니다.
이게 실무자에게 주는 메시지는 명확합니다. 블로그 도메인이 뭐냐에 따라 GEO 전략을 다르게 가져가야 한다는 거예요. IT/기술 블로그라면 통계와 출처 인용이 중요하고, 역사/문화 블로그라면 인용문 활용이 더 효과적일 수 있다는 거죠.
5.2 Optimization of Multiple Websites

GEO가 널리 채택되면 모든 출처가 최적화되는 시나리오가 올 것입니다. 이를 시뮬레이션하기 위해 모든 출처 콘텐츠를 동시에 최적화해 평가했습니다(표 2).
핵심 관찰은 다음과 같습니다. GEO는 검색 엔진 결과 페이지(SERP) 순위가 낮은 웹사이트에 훨씬 더 큰 도움이 됩니다. 전통적 검색 엔진은 백링크 수, 도메인 권위 같은 작은 제작자가 달성하기 어려운 요소에 의존하지만, 생성 엔진은 웹사이트 콘텐츠 자체로 작동하는 생성 모델을 사용하므로 백링크 같은 요소가 작은 제작자를 불리하게 만들지 않습니다.
표 2를 보면 Cite Sources 방법은 SERP 5위 웹사이트의 가시성을 115.1% 증가 시켰지만, 1위 웹사이트는 평균 30.3% 감소했습니다.
이는 GEO가 디지털 공간을 민주화 할 잠재력을 강조합니다. 작은 콘텐츠 제작자나 독립 사업자가 만든 하위 순위 웹사이트들이 GEO를 적용하면 가시성을 크게 높여 더 많은 청중에게 도달할 수 있고, 대기업과 더 효과적으로 경쟁할 수 있습니다.
이 부분이 GEO 논문의 가장 매력적인 메시지 중 하나입니다. "AI 검색은 작은 제작자에게 더 공정한 게임" 이라는 거예요.
기존 SEO에선 도메인 권위(domain authority)가 너무 중요했습니다. 새로 시작한 블로그가 wikipedia.org나 nytimes.com과 경쟁하는 건 거의 불가능했죠. 백링크가 수만 개 차이 나니까요.
그런데 생성 엔진은 다릅니다. LLM은 백링크를 보지 않습니다. 콘텐츠의 텍스트만 보고 판단해요. 그래서 5위에 간신히 들어간 작은 사이트도, 콘텐츠를 잘 최적화하면 LLM이 그 글을 더 많이 인용할 수 있다는 거죠.
표 2의 숫자를 보면 충격적입니다.
- Cite Sources를 1위 사이트에 적용 → -30.3% (오히려 감소!)
- Cite Sources를 5위 사이트에 적용 → +115.1% (두 배 이상 증가!)
이건 왜 이럴까요? 모든 사이트가 GEO를 적용하는 상황을 가정한 실험인데, 1위 사이트는 어차피 LLM이 자주 인용하니까 추가 최적화의 한계 효과가 작거나 오히려 다른 최적화된 사이트들에 비교 우위를 잃습니다. 반면 5위 사이트는 원래 거의 인용 안 됐는데 최적화하면 LLM 눈에 갑자기 "어, 이 글 좋네?"로 보이게 되는 거죠.
한국 시장 시사점
- 네이버 블로그/티스토리에서 시작한 작은 블로거도 AI 검색 시대엔 큰 매체와 경쟁할 수 있습니다.
- "도메인 권위"가 아니라 "콘텐츠 자체의 신뢰 신호" (통계, 인용, 출처)로 승부가 결정됩니다.
- 다만 모두가 GEO를 잘 하면 다시 평준화되니, 빨리 시작하는 게 유리합니다.
5.3 Combination of GEO Strategies

개별 GEO 전략이 도메인별로 큰 향상을 보이지만, 실제로 웹사이트 소유자는 여러 전략을 동시에 적용할 것입니다. 저자들은 상위 4개 GEO 방법(Cite Sources, Fluency Optimization, Statistics Addition, Quotation Addition)의 모든 쌍 조합을 분석했습니다. 그림 4는 Position-Adjusted Word Count 가시성 지표의 상대적 향상을 히트맵으로 보여줍니다.
분석 결과, GEO 방법 조합은 성능을 더 향상시킬 수 있으며, 최고 조합(Fluency Optimization + Statistics Addition)은 어떤 단일 전략보다 5.5% 이상 우수했습니다. 또한 Cite Sources는 단독으론 상대적으로 약하지만(Quotation Addition보다 8% 낮음), 다른 방법과 결합하면 평균 31.4%로 크게 도움이 됩니다.
이 부분은 실무에서 가장 직접 써먹을 수 있는 인사이트입니다. "한 가지 전략만 쓰지 말고 조합하세요" 는 거죠.
흥미로운 발견은 Cite Sources의 시너지 효과입니다. 단독으론 4등이지만, 다른 전략들과 합치면 평균 효과가 가장 좋아져요. 이게 왜 그럴까요? 추측해보면, 출처 인용은 그 자체로는 임팩트가 작은데, 통계나 인용문과 함께 쓰면 "출처가 분명한 통계", "출처가 분명한 인용문"이 되어 신뢰도 시너지가 폭발하는 거죠.
최강 조합: Fluency Optimization + Statistics Addition 즉 "매끄러운 문장으로 다듬은 + 구체적 통계가 들어간" 글이 가장 강력합니다. 이게 사실 좋은 글의 정의 그 자체이기도 하죠. 잘 쓴 데이터 저널리즘 기사 같은 글이 LLM에게 매력적이라는 뜻입니다.
실무 적용 가이드
- 본문 다듬기 (Fluency) — 어색한 문장 정리
- 데이터 추가 (Statistics) — 정성적 서술을 정량으로
- 출처 표기 (Cite Sources) — 위 데이터에 출처 붙이기
- 직접 인용 (Quotation) — 가능하면 전문가 발언 인용
이 4단계를 다 하면 거의 +50% 이상의 가시성 향상을 기대할 수 있다는 거죠.
5.4 Qualitative Analysis

표 4에서 GEO 방법이 최소 변경으로 출처 가시성을 높이는 대표 예시들을 보여줍니다.
- 첫 예: 어떤 진술의 출처를 추가하는 것만으로도 최종 답변에서 가시성을 크게 높일 수 있습니다.
- 두 번째 예: 가능한 곳에 통계를 추가하면 최종 GE 응답에서 출처 가시성이 보장됩니다.
- 세 번째 예: 단순히 본문 일부를 강조하고 설득력 있는 문체를 사용하는 것만으로도 가시성이 향상됩니다.
논문에 나온 구체적 예시를 한국어로 번안해보면 감이 올 거예요.
Before (Cite Sources 적용 전):
스위스 사람들은 1인당 연간 11~12kg의 초콜릿을 소비하며, 세계에서 가장 큰 초콜릿 애호가에 속한다.
After (Cite Sources 적용 후, +132%):
스위스 사람들은 1인당 연간 11~12kg의 초콜릿을 소비하며 (국제 초콜릿 소비 연구 그룹의 조사에 따르면 [1]), 세계에서 가장 큰 초콜릿 애호가에 속한다.
원본에 있는 정보 자체는 똑같습니다. 그저 "어디서 나온 정보인지"를 명시했을 뿐이에요. 그런데 LLM은 이걸 보고 "아, 이 글은 출처가 명확하니 인용할 가치가 있다"고 판단해서 본문에 더 많이 끌어다 씁니다.
핵심 교훈: GEO는 콘텐츠를 거짓으로 부풀리는 게 아니라, 이미 있는 정보의 신뢰성을 명시적으로 드러내는 작업입니다. 정직한 콘텐츠 제작자에게 유리한 게임이라는 점이 다행이죠.
6. GEO IN THE WILD : EXPERIMENTS WITH DEPLOYED GENERATIVE ENGINE

GEO 방법의 효과를 강화하기 위해, 실제 배포된 Perplexity.ai에서 평가했습니다(표 5).
자체 GE처럼 Quotation Addition이 Position-Adjusted Word Count에서 베이스라인 대비 22% 향상으로 최고였습니다. Cite Sources, Statistics Addition도 두 지표에서 최대 9%, 37% 향상을 보였습니다. 한편 Keyword Stuffing은 베이스라인보다 10% 낮아 전통적 SEO가 통하지 않음을 다시 확인했습니다.
이 결과의 의미는 다음과 같습니다.
- GEO 방법 개발의 중요성 재확인.
- GEO 방법의 다양한 생성 엔진에 대한 일반화 가능성 입증.
- 콘텐츠 제작자가 이 방법을 직접 적용해 실제 효과를 볼 수 있음 시사.
이 섹션이 사실 가장 중요할 수 있습니다. "실험실에서만 되는 게 아니라 진짜 Perplexity에서도 된다" 는 검증이거든요.
Perplexity.ai는 한국에서도 점점 인기 끌고 있는 AI 검색 서비스죠. 자체 GPT 같은 모델을 쓰는 게 아니라, 진짜 상용 서비스입니다. 여기서도 같은 패턴이 재현됐다는 건 GEO가 특정 모델에만 통하는 트릭이 아니라 AI 검색 엔진 전반에 걸친 일반 원리 라는 강력한 증거입니다.
특히 주목할 점은 다음과 같습니다.
- Subjective Impression에서 +37% 의 향상 (Statistics Addition). 이건 사용자가 실제로 "이 인용이 인상적이다"라고 느끼는 정도가 30% 넘게 올라간다는 뜻입니다.
- Keyword Stuffing이 -10%. 진짜 상용 서비스에서도 키워드 스터핑은 역효과입니다.
7. Related Work
이 섹션은 학술적 맥락이라 짧게 핵심만 정리하겠습니다.
Evidence-based Answer Generation: GPT-3을 웹 환경 탐색에 학습시킨 WebGPT(Nakano et al.) 같은 선행 연구들입니다. 이 논문은 그 흐름을 통합하고 벤치마크를 제공한다는 위치입니다.
Retrieval-Augmented Language Models (RAG): 외부 지식 베이스를 참조해 답을 생성하는 흐름입니다. 그런데 GE는 단순 RAG보다 복잡합니다 — 답변에 출처를 인라인으로 표시해야 하고, 멀티모달이고, 질의 재구성·출처 선택 같은 추가 단계가 있습니다.
Search Engine Optimization (SEO): 25년간 발전해온 SEO 연구는 On-Page SEO(콘텐츠 개선)와 Off-Page SEO(백링크 등) 두 갈래입니다. GEO는 멀티모달, 대화형 환경이라 단순 키워드 매칭에 의존하지 않으므로 SEO 전략이 그대로 통하지 않는다는 점이 핵심 차별점입니다.
언급할 만한 동시기 연구: Kumar & Lakkaraju (2024)는 "전략적 텍스트 시퀀스로 LLM 추천을 조작해 제품 가시성을 높이는" 연구를 했는데, 이건 적대적(adversarial) 방식입니다. GEO는 정직한(non-adversarial) 방식이라는 차이가 있습니다.
8. Conclusion
본 연구에서 저자들은 생성 모델로 강화된 검색 엔진을 생성 엔진 으로 정형화했습니다. 콘텐츠 제작자가 생성 엔진에서 자기 콘텐츠를 최적화할 수 있도록 GEO 를 제안하고, 인상 지표를 정의했으며, 다양한 사용자 질의를 담은 GEO-bench 를 공개했습니다. 제안한 콘텐츠 최적화 방법들은 생성 엔진 응답에서 가시성을 최대 40% 향상시킬 수 있음을 보였습니다.
주요 발견은 다음과 같습니다.
- 인용·인용문·통계 추가가 가시성을 크게 높입니다.
- GEO 방법의 효과는 질의 도메인에 의존합니다.
- 여러 GEO 전략 결합이 시너지를 냅니다.
- 상용 배포된 생성 엔진에서도 효과 확인됐습니다.
이 연구는 GEO 패러다임을 처음 정형화하고, 알고리즘과 인프라(벤치마크, 데이터셋, 지표)를 공개해 커뮤니티의 빠른 진전을 촉진합니다. 디지털 공간에 생성 엔진이 미치는 영향과 새 검색 패러다임에서 GEO의 역할을 이해하는 첫걸음입니다.
결론은 명확합니다. "AI 검색 시대의 SEO인 GEO를 처음 정의하고, 측정하고, 검증했다" 는 거죠.
이 논문이 학술적으로 갖는 의미는 다음과 같습니다.
- 개념의 정형화: "AI 검색 가시성"이라는 모호한 개념을 수식과 지표로 명확히 만들었습니다.
- 벤치마크 공개: 이후 연구자들이 비교 평가할 표준 도구를 제공했습니다.
- 실증적 검증: 9가지 전략의 효과를 1만 개 질의에서 측정했습니다.
- 상용 검증: Perplexity.ai에서도 통한다는 증명을 했습니다.
그리고 실무자/콘텐츠 제작자에게 갖는 의미는 다음과 같습니다.
- 인용·인용문·통계 를 추가하면 즉시 가시성이 올라갑니다.
- 키워드 스터핑은 버리세요 — 시간 낭비입니다.
- 도메인별 맞춤 전략 이 필요합니다.
- 여러 전략을 조합 하면 시너지가 납니다.
9. Limitations
두 생성 엔진(공개된 것 포함)에서 엄밀히 테스트했지만, 생성 엔진이 진화하면 방법도 적응해야 합니다(SEO의 진화처럼). GEO-bench 질의가 실세계와 가깝게 만들었지만, 질의 성격은 시간에 따라 변하므로 지속적 업데이트가 필요합니다. 검색 엔진 알고리즘의 블랙박스 특성 때문에 GEO 방법이 검색 순위에 어떻게 영향을 미치는지는 평가하지 않았습니다. 다만 GEO 변경은 텍스트 콘텐츠에 국한되고 도메인명, 백링크 같은 메타데이터는 건드리지 않으므로 검색 엔진 순위에 큰 영향은 없을 것으로 예상합니다. 또한 LLM 컨텍스트 길이가 늘어남에 따라 미래 생성 모델은 더 많은 출처를 처리할 수 있어 검색 순위 의존도가 줄어들 것입니다. 마지막으로, GEO-bench의 모든 질의를 태깅하고 수동 검수했지만 주관적 해석이나 라벨링 오류로 인한 불일치가 있을 수 있습니다.
저자들이 정직하게 인정하는 한계들을 정리하면 다음과 같습니다.
- 시간이 흐르면 안 통할 수 있습니다: SEO 기법이 Google 알고리즘 업데이트마다 죽고 살아나는 것처럼, GEO도 GPT가 GPT-5, GPT-6로 진화하면 어떤 전략이 통할지 다시 검증해야 합니다.
- 질의 성격도 변합니다: 사람들이 AI에게 던지는 질문 패턴 자체가 진화 중입니다. 지금은 "...에 대해 알려줘" 식이지만 1년 뒤엔 다른 패턴이 나올 수 있습니다.
- 검색 엔진 순위 영향 미평가: GEO가 가시성은 올리지만, 그 과정에서 Google 검색 순위가 떨어지면 어떻게 될까요? 저자들은 텍스트만 바꾸니 큰 영향 없을 거라 추측하지만 직접 검증하진 못했습니다.
- 컨텍스트 길이 변수: 지금은 상위 5개 출처만 보지만, 미래에 LLM이 100개 출처를 다 볼 수 있게 되면 SERP 순위 영향력이 줄어들 거라는 저자들의 예측입니다. 이건 작은 제작자에게 유리한 변화입니다.
- 태깅 노이즈: GPT-4로 자동 태깅한 거라 100% 정확하진 않습니다.
이 한계들이 시사하는 바는, GEO는 한 번 익혀두면 평생 가는 정답이 아니라 지속적으로 업데이트해야 하는 살아있는 영역 이라는 점입니다. SEO가 25년간 끊임없이 진화해온 것처럼요.
마치며: 한국 콘텐츠 시장 관점에서
이 논문을 한국 시장에 적용해 생각해보면 몇 가지 흥미로운 포인트가 있습니다.
1. 한국어 GEO는 아직 미개척지 이 논문은 영어 콘텐츠와 영어 LLM 기반입니다. 한국어 콘텐츠가 한국어 LLM(또는 다국어 LLM의 한국어 모드)에서 어떻게 인용되는지는 별도 연구가 필요합니다. 같은 9가지 전략이 한국어에서도 비슷한 순위로 효과가 있을지, 아니면 한국어 특유의 패턴이 있을지가 흥미로운 질문이에요.
2. 네이버 클로바, 카카오, Perplexity 한국어 한국 시장에서 AI 검색은 글로벌 서비스(Perplexity, ChatGPT)뿐 아니라 네이버 큐(Cue:), 카카오 같은 국내 플레이어도 있습니다. 각각의 알고리즘 특성에 따라 GEO 전략이 달라질 가능성이 있습니다.
3. 콘텐츠 형식의 차이 한국 블로그 문화는 영문 블로그와 좀 다릅니다. 더 감성적이고, 개인적 경험 중심이고, 출처 표기에 덜 엄격한 경향이 있죠. 그런데 이 논문이 보여주는 GEO 핵심 전략(통계, 인용문, 출처 표기)은 한국 콘텐츠 문화와 약간 충돌합니다. "한국형 GEO" 는 영어권보다 더 큰 콘텐츠 스타일 변화를 요구할 수 있어요.
4. 작은 제작자의 기회 이 논문이 강조한 "AI 검색은 작은 제작자에게 유리하다"는 메시지는 한국 시장에도 그대로 적용됩니다. 네이버 검색에서 메이저 언론사에 밀렸던 개인 블로거들도, AI 검색에선 콘텐츠 품질만 좋으면 동등하게 인용될 수 있다는 거죠.
5. 실무 체크리스트 한국 블로그/뉴스레터 운영자에게 즉시 적용할 만한 실무 체크리스트입니다.
- ✅ 정성적 표현을 정량적 데이터로 ("많은 사람들이" → "응답자의 67%가")
- ✅ 출처를 명시 ("연구에 따르면" → "한국개발연구원 2024 보고서에 따르면")
- ✅ 전문가 인용문 활용 (가능하면 직접 인터뷰 또는 출판물에서 따오기)
- ✅ 어색한 문장 다듬기 (Fluency 효과는 의외로 큼)
- ❌ 키워드 반복 자제 (이미 죽은 전략)
- ❌ 권위적 톤만 강요하지 말기 (효과 작음)
- 🎯 도메인 맞춤 전략 선택 (역사·인물 → 인용문, 정책·법 → 통계)
댓글