원문: https://arxiv.org/pdf/2310.10826
Abstract
이 연구는 AI가 만든 콘텐츠(예: 광고)를 경매로 거래하는 방법을 연구한 것입니다.
핵심 아이디어
- AI들이 서로 경쟁해서 원하는 종류의 콘텐츠를 만들도록 하는 시스템을 개발
- 각 AI는 자신이 원하는 방향으로 콘텐츠가 만들어지도록 돈을 제시(입찰)
- 콘텐츠는 한 단어씩 만들어지면서, 그때마다 AI들이 영향력을 행사
연구 성과
- 공정한 경매가 되려면 어떤 조건이 필요한지 찾아냄
- 명확한 가격 책정 없이도 2등 가격 경매 방식을 적용할 수 있는 방법 개발
- 실제 사용 가능한 AI 모델로 이 시스템이 작동함을 확인
쉽게 말해, 여러 AI가 돈을 걸고 경쟁해서 자신이 원하는 스타일의 콘텐츠를 만들어내는 '공정한 게임 규칙'을 만든 연구입니다.
1 Introduction
현재 인터넷에서 광고가 결정되는 방식
지금 인터넷에서는 경매를 통해 어떤 광고를 보여줄지 결정합니다. 광고주들이 돈을 걸고 경쟁해서, 자신의 광고를 사용자에게 보여줄 기회를 얻는 거죠.
AI가 만든 콘텐츠는 어떻게 할까?
이 연구는 AI가 생성하는 콘텐츠에 대한 새로운 경매 방식을 개발하는 것입니다.
- 웹페이지 일부
- AI 챗봇의 대화
- 게임 속 캐릭터 대사 등
에서 여러 광고주가 돈을 내고 AI 콘텐츠에 영향을 주고 싶어한다면?
기존 방식의 한계
단순하게 "가장 많이 낸 사람이 원하는 대로 다 결정"하면, AI의 창의적 조합 능력을 활용하지 못합니다.
예시로 보는 AI의 장점
스팅레이 리조트 단독 광고: "하와이의 마법을 경험하세요. 스팅레이 리조트에서 멋진 전망과 럭셔리한 숙박..."
마우이 항공 단독 광고: "마우이 항공으로 하와이에 가세요. 저렴한 항공료로 모든 주요 섬에..."
-> AI가 만든 결합 광고: "마우이 항공으로 낙원에 날아가 스팅레이 리조트에서 하와이의 마법을 경험하세요..."
연구 목표
두 회사가 모두 돈을 내고 참여해서, 각자의 비중에 따라 최종 광고에 반영되는 공정한 경매 시스템을 만들자는 것입니다.
1.1 Unique Challenges
AI 언어모델을 경매에 사용할 때의 주요 문제점들
해결해야 할 4가지 핵심 과제를 발견했습니다.
1) 선호도를 어떻게 표현할까?
기존 경매: "이 결과에 100달러, 저 결과에 50달러" 식으로 명확한 가치 매김
AI 언어모델: 가치를 직접 매기지 않고, "다음에 올 단어의 확률"로만 작동 → 완전히 다른 방식이라 새로운 접근법이 필요
2) 랜덤 요소가 꼭 필요함
문제: AI가 100% 확정적으로 답하면 성능이 떨어짐
해결책: 경매 결과도 "확률적"이어야 함 (여러 가능성 중에서 선택하는 방식)
3) 현재 기술과 호환되어야 함
조건
- 지금 있는 AI 기술을 그대로 사용할 수 있어야 함
- 복잡한 추가 작업 없이 AI의 출력만으로 경매 결과와 지불액을 계산할 수 있어야 함
4) 비용 효율성이 중요함
문제: AI 모델 돌리는 데 돈이 많이 듦
해결책: 경매 때문에 AI를 추가로 더 많이 실행하면 안 됨
1.2 Our Contributions
토큰 경매 모델
토큰 = 문장을 이루는 작은 단위들 (단어, 기호, 숫자 등)
- "안녕하세요" → ["안녕", "하세", "요"] (3개 토큰)
AI는 한 번에 한 토큰씩 예측합니다.
- "오늘" → 다음 토큰 예측: "날씨"(60%), "기분"(30%), "일정"(10%)
- "오늘 날씨" → 다음 토큰 예측: "가"(70%), "는"(20%), "도"(10%)
- 이런 식으로 계속...
토큰 경매 시스템 기본 아이디어: 각 토큰마다 경매를 해서 여러 AI의 의견을 조합
참가자들은 아래 행동을 합니다.
- 각 광고주가 자신의 AI + 입찰금액 제출
- 경매는 매 토큰마다 "어떤 단어를 선택할지" 결정
공정한 경매 규칙 2가지
1) 지불 단조성: 더 많이 내면 → 더 내가 원하는 방향으로
2) 일관된 집계: 다른 조건이 같으면 결과도 일관되게
2등 가격 경매 방식 적용
기존 경매의 "2등이 낸 가격 지불" 원리를 토큰 경매에도 적용 → "내가 이기기 시작하는 최소 금액"을 지불
조합 방법
여러 AI의 예측을 가중평균으로 조합
- 선형 조합: A회사 60% + B회사 40%
- 로그 선형 조합: 수학적으로 더 복잡하지만 성능 좋음
실험 결과
실제 예시: 항공사 + 호텔 광고
- 입찰 비율에 따라 광고 내용이 자연스럽게 변화
- 50:50이면 → 두 회사 모두 언급하는 합작 광고
왜 이 방식을 선택했나?
직접 방식 (포기한 이유):
- "당신이 원하는 모든 텍스트 조합에 가격을 매기세요"
- 너무 복잡하고 현실적으로 불가능
간접 방식 (채택한 이유):
- "당신의 AI + 간단한 입찰금액만 주세요"
- 현실적이고 구현 가능
핵심: 복잡한 선호도를 AI에 맡기고, 사람은 간단한 입찰만 하는 실용적 접근법!
1.3 Additional Related Work
논문에서 연구한 주제는 이전에 연구된 적이 없지만, 몇 가지 관련 분야가 있습니다.
AI 언어모델 관련 연구
1) Fine-tuning & RLHF (인간 피드백 강화학습)
기존 연구: AI를 인간이 원하는 방향으로 "교육"시키기
논문의 연구와의 차이
- 기존: AI 모델 자체를 수정해서 개선
- 논문: 여러 AI의 결과물을 조합해서 사용
- 기존: 인간은 거짓말 안 한다고 가정
- 논문: 참가자들이 거짓말할 수 있다고 가정 (그래서 경매 설계 필요)
2) In-context Learning
기존 연구: 좋은 예시를 보여줘서 AI 성능 향상
논문의 연구: 여러 AI의 예측을 직접 조합
3) 메커니즘 디자인 관련 연구
공공 프로젝트 연구
공통점: 여러 사람이 혜택받는 "공공재"를 어떻게 결정할까?
차이점:
- 기존: 명확한 선택지 중에서 하나 선택 (예: A공원 vs B공원)
- 논문: 무한히 많은 가능성 중에서 확률분포 선택 (훨씬 복잡!)
예산 제안 취합 연구
공통점: 여러 제안을 조합해서 하나의 결과물 만들기
차이점:
- 기존: 돈 거래 없음, 모든 참가자 동등한 권한
- 논문: 입찰을 통한 돈 거래, 더 많이 낸 사람이 더 큰 영향력
- 기존: 명확한 가치함수 가정 ("이 결과는 100점, 저 결과는 50점")
- 논문: 그런 명확한 점수 매기기가 현실적으로 불가능
후속 연구들
논문의 연구 이후 관련 연구들이 나타났습니다.
Dubey et al. (2024): AI 요약문 안에 광고 배치하는 경매
Soumalias et al. (2024): 참가자가 진실을 말하도록 유도하는 메커니즘
Mordo et al. (2024): 검색 답변에 광고를 섞는 방법
2 Preliminaries
1) AI 생성 모델들이 일반적으로 어떻게 작동하는지 간단히 설명
2) 우리가 해결하려는 경매 문제를 정확히 정의
3) 용어 선택 → 텍스트를 만드는 AI(LLM)를 기준으로 설명 (가장 중요하고 실용적인 사례이기 때문)
2.1 Abstraction of Large Language Models
AI는 본질적으로 "다음 단어 예측기"
AI의 핵심 기능
- 입력: "오늘 날씨가" (지금까지의 문장)
- 출력: 다음에 올 단어들의 확률
- "좋다" (60%)
- "나쁘다" (25%)
- "흐리다" (15%)
수학적 표현: AI = 함수(토큰 시퀀스 → 다음 토큰의 확률분포)
자동회귀 텍스트 생성
AI가 글을 쓰는 과정
- 시작: "오늘 날씨가" (프롬프트)
- 1단계: AI가 예측 → "좋다"를 선택 → "오늘 날씨가 좋다"
- 2단계: AI가 예측 → "서"를 선택 → "오늘 날씨가 좋아서"
- 3단계: AI가 예측 → "기분이"를 선택 → "오늘 날씨가 좋아서 기분이"
- 반복: 마침표나 종료 신호까지 계속
중요한 특징: AI는 기억 장치가 없음 → 매번 지금까지 쓴 전체 텍스트를 다시 읽고 다음 단어 예측
AI 훈련 과정
단계 | 데이터 | 비용 | 목적 |
사전훈련 | 인터넷 전체 텍스트 | 매우 높음 | 기본 언어능력 습득 |
인스트럭션 파인튜닝 | 특정 작업 데이터 | 중간 | 특정 용도에 최적화 |
인간피드백 강화학습 | 인간 평가 | 중간 | 안전하고 유용하게 만들기 |
퓨샷 러닝 | 잘 설계된 프롬프트 | 매우 낮음 | 실시간으로 행동 조정 |
비용 구조
- 사전훈련: 수백억원 (한 번만)
- 미세조정: 수백만원 (필요할 때마다)
- 프롬프트: 거의 무료 (매일 사용)
논문의 연구와의 연관성: 여러 AI를 조합하는 방법이 "강화학습"이나 "파인튜닝" 단계에서 사용하는 방식과 비슷합니다.
핵심: AI는 "지금까지 문장 → 다음 단어 확률" 예측기이고, 이를 반복해서 전체 텍스트를 만들어냅니다!
2.2 Token Auctions for LLMs
가장 큰 문제: AI의 "선호도"를 어떻게 비교할까?
예시 상황: AI가 원하는 분포: P = (0.6, 0.4) ("안녕" 60%, "하이" 40%)
두 가지 결과가 나왔을 때
- Q₁ = (0.5, 0.5) ("안녕" 50%, "하이" 50%)
- Q₂ = (0.8, 0.2) ("안녕" 80%, "하이" 20%)
문제: Q₁과 Q₂ 중 어느 게 더 좋은지 명확하지 않음!
- Q₁: 더 균형잡혔지만 원하는 것과 다름
- Q₂: "안녕"은 더 많지만 "하이"는 너무 적음
해결책: 명확하게 비교 가능한 경우만 고려
- Q₃ = (0.7, 0.3): 이건 확실히 Q₂보다 P에 더 가까움!
견고한 선호도 (Robust Preferences) 정의
언제 A가 B보다 확실히 좋을까?
두 조건을 모두 만족해야 함
- 편차가 더 작음: 모든 토큰에서 |A-원하는값| ≤ |B-원하는값|
- 방향이 같음: 증가/감소 방향이 일치
예시)
- 원하는 분포: (0.6, 0.4)
- A: (0.7, 0.3) → 첫 번째 +0.1, 두 번째 -0.1
- B: (0.8, 0.2) → 첫 번째 +0.2, 두 번째 -0.2
- 결론: A가 B보다 확실히 좋음!
토큰 경매 메커니즘
경매 = 두 가지 함수
- 분포 집계 함수 (h): 입찰금 + AI 예측들 → 최종 분포
- 지불 함수 (π): 입찰금 + AI 예측들 → 각자 지불할 금액
분포 집계 함수
입력
- 입찰: (광고주1: 100원, 광고주2: 200원, ...)
- AI 예측: (AI1의 분포, AI2의 분포, ...)
출력
- 최종 분포 (모든 AI 예측의 가중평균)
작동 과정
- 각 토큰마다 모든 AI가 예측 제시
- 입찰금에 비례해서 가중평균 계산
- 그 분포에서 실제 토큰 선택
- 다음 토큰으로 넘어가서 반복
이렇게 하면 장점: 추가로 AI를 더 실행할 필요 없음!
지불 함수
토큰별 지불: 각 토큰이 선택될 때마다 지불액 결정
기대 지불: 모든 가능한 토큰의 확률 × 지불액
예시)
- "안녕" 선택되면 10원, "하이" 선택되면 5원
- 최종 분포가 ("안녕" 70%, "하이" 30%)라면
- 기대 지불 = 10원 × 0.7 + 5원 × 0.3 = 8.5원
왜 이 방식을 선택했나?
현실적 고려사항
- 복잡성: 모든 가능한 텍스트에 대한 완전한 선호도 표현은 불가능
- 실용성: AI는 이미 토큰 분포를 자연스럽게 제공
- 신뢰성: AI의 예측 결과를 조작하기는 어려움
- 단순성: 복잡한 전략 대신 간단한 입찰금만 제출
핵심 아이디어
- AI는 정직하게 자신의 예측 제공
- 사람은 간단한 입찰금으로 영향력 조절
- 시스템이 공정하게 조합해서 결과 생성
-> 복잡함과 실용성 사이의 균형!
3 Incentives in Token Auctions
목표: "공정하고 전략적으로 안전한 경매 시스템"을 만들기
연구 계획
1단계: 좋은 경매라면 당연히 만족해야 할 2가지 기본 원칙 제시
2단계: 이 2가지 원칙이 사실 "단조성"이라는 수학적 조건과 같다는 것 증명
3단계: 단조성을 만족하는 경매에서는 "2등 가격 규칙" (기존 경매의 공정한 방식)을 적용할 수 있다는 것 증명
핵심 아이디어
최소한의 가정으로 최대한의 안전성
- 참가자들이 어떤 복잡한 선호도를 가져도 상관없이
- 기본적으로 공정하게 작동하는 시스템 설계
즉, "아무리 복잡한 상황에서도 거짓말하지 않는 것이 최선인 경매 시스템을 만들 수 있다!"
이번 섹션은 수학적 증명을 통해 논문의 시스템의 이론적 견고함을 보여주는 부분입니다.
3.1 Desirable Incentive Properties
합리적인 토큰 경매라면 반드시 만족해야 할 2가지 기본 원칙을 제시합니다.
1) 지불 단조성 (Payment Monotonicity)
원칙: "더 좋은 결과를 얻으면 ↔ 더 많이 지불해야 한다"
정확한 의미
- 내가 같은 입찰을 했는데 더 좋은 결과가 나왔다면 → 더 많이 지불
- 내가 같은 입찰을 했는데 더 나쁜 결과가 나왔다면 → 더 적게 지불
왜 필요한가?
만약 이 원칙이 없다면
- "더 좋은 결과를 얻었는데 더 적게 지불하는" 상황 발생
- 참가자들이 시스템을 악용하려고 시도
- 거짓 입찰로 더 좋은 결과 + 더 적은 비용을 노림
부수 효과
같은 입찰로 같은 결과가 나오면 → 지불금액도 항상 같음
2) 일관된 집계 (Consistent Aggregation)
원칙: "상대방이 뭘 하든 상관없이, 내 입찰의 상대적 순위는 일정해야 한다"
정확한 의미
내가 입찰 A와 B 중에서 선택할 때
- 다른 사람들이 X를 입찰했을 때 A > B라면
- 다른 사람들이 Y를 입찰해도 여전히 A ≥ B여야 함
예시로 이해하기
나쁜 시스템 (일관성 없음)
- 상대방이 적게 냈을 때: 내가 100원 내는 게 50원보다 좋음
- 상대방이 많이 냈을 때: 내가 50원 내는 게 100원보다 좋음
- → 상대방 입찰에 따라 내 최선 전략이 바뀜!
좋은 시스템 (일관성 있음)
- 어떤 상황에서든: 100원이 50원보다 좋거나 같음
- → 상대방이 뭘 하든 내 전략은 명확함
왜 필요한가?
일관성이 없으면
- 참가자들이 "상대방이 뭘 할지" 추측해야 함
- 복잡한 심리전이 필요
- 예측 불가능한 결과로 시스템 신뢰도 하락
두 원칙의 공통 목표: "단순하고 예측 가능한 경매"
- 참가자들이 복잡한 전략을 쓸 필요 없음
- "더 많이 내면 더 좋은 결과"라는 명확한 관계
- 상대방 행동에 상관없이 일관된 결과
이 두 조건이 만족되면 참가자들이 정직하게 입찰하는 것이 최선이 됩니다!
3.2 Monotone Aggregation Functions
3핵심 발견: "계시 원리"
놀라운 결과: 앞서 제시한 2가지 조건을 만족하는 경매라면, 사실상 "단조 집계 함수"만 고려하면 됩니다!
단조 집계 함수란?
정의 "더 많이 입찰하면 → 항상 더 좋은 결과"
정확한 의미
- 내가 100원 대신 200원을 입찰하면
- 다른 모든 조건이 같을 때
- 항상 더 좋거나 같은 결과를 얻음
가장 자연스럽고 예측 가능한 경매 방식
전략적 동치성
개념: 두 경매 시스템이 "본질적으로 같다"는 의미
- 참가자들이 적절한 전략을 쓰면
- 결과와 지불금액이 완전히 동일
예시
시스템 A: "입찰액 그대로 반영"
시스템 B: "입찰액의 제곱근을 반영" → 참가자가 시스템 B에서는 제곱해서 입찰하면 결과 동일
계시 원리 (정리 3.5)
핵심 주장: "좋은 경매 시스템이라면, 항상 단조 시스템과 본질적으로 같다"
의미
- 복잡하고 이상한 경매를 설계할 필요 없음
- "더 많이 내면 더 좋은 결과"라는 단순한 시스템만 고려하면 됨
- 이것만으로도 모든 좋은 경매를 다 포괄
증명 아이디어
- 일관성 + 지불 단조성 → 참가자별로 "순서"가 명확히 정해짐
- 이 순서를 바탕으로 입찰을 "재조정"할 수 있음
- 재조정하면 단조 시스템이 됨
실제 예시들
선형 집계 (단조함)
방식: 입찰금에 비례해서 가중평균
- A회사: 100원 입찰, AI 예측 (0.6, 0.4)
- B회사: 200원 입찰, AI 예측 (0.3, 0.7)
- 결과: (100×0.6 + 200×0.3)/(100+200), (100×0.4 + 200×0.7)/(100+200) = (0.4, 0.6)
특징:
- 더 많이 내면 항상 더 큰 영향력
- 단조성 만족
로그-선형 집계 (단조 아님)
방식: 복잡한 로그 계산으로 조합
- 수학적으로 더 정교하지만...
- 특정 상황에서 "더 많이 냈는데 더 나쁜 결과" 발생
- 단조성 위반
비교
- 선형: 단순하지만 안전하고 예측 가능
- 로그-선형: 복잡하고 때로는 직관에 반하는 결과
핵심 결론
이론적 중요성
- 복잡한 시스템을 설계할 필요 없음
- 단조 시스템만으로 충분
- 수학적으로 증명된 안전성
실용적 가치
- 참가자들이 이해하기 쉬움
- "더 내면 더 좋다"라는 명확한 관계
- 예측 가능한 결과
결론: 좋은 경매 = 단조 경매! 복잡할 필요 없이 단순하고 직관적인 방식이 최선입니다.
3.3 Second Price Payment Rules
핵심 질문 "빅레이 경매의 '2등 가격' 방식을 토큰 경매에도 적용할 수 있을까?"
빅레이 경매: 1등이 2등이 낸 가격을 지불하는 공정한 방식
핵심 아이디어: "임계 입찰"
개념: "내가 원하는 토큰을 얻기 시작하는 최소 입찰액"을 지불
예시로 이해하기
상황)
- 내 AI가 원하는 분포: "안녕"(70%), "하이"(30%)
- 현재 시스템 출력: "안녕"(40%), "하이"(60%)
문제: "안녕"이 과소샘플링, "하이"가 과다샘플링됨
해결: 입찰을 늘려서 "안녕" 비중을 높이고 싶음
3.3.1 Stable Sampling
토큰 분류
- 과소샘플링 토큰 (+): 내가 더 원하는데 적게 나오는 토큰
- 과다샘플링 토큰 (-): 내가 덜 원하는데 많이 나오는 토큰
단조성의 의미
입찰을 늘리면
- 과소샘플링 토큰: 확률이 증가 (좋음!)
- 과다샘플링 토큰: 확률이 감소 (좋음!)
안정적 샘플링이란?
기본 아이디어: 특정 "임계점"에서 토큰 선택이 바뀜
간단한 예시 (2개 토큰)
- 0~1 사이 난수 뽑기: 0.6
- 내 입찰이 낮으면 → "하이" 선택 (과다샘플링)
- 내 입찰이 높으면 → "안녕" 선택 (과소샘플링)
- 임계점: 정확히 0.6에서 "하이"→"안녕"으로 전환
핵심 특성
- 결정론적: 같은 난수 + 같은 입찰 = 같은 결과
- 전환: 입찰 증가에 따라 나쁜 토큰→좋은 토큰으로 변화
- 확률 매칭: 전체적으로는 원하는 분포와 일치
3.3.2 A Second Price Rule via Stable Sampling
지불 방식
case 1: 과다샘플링 토큰이 선택됨
- 지불액: 0원
- 이유: 입찰을 0으로 해도 같은 토큰 선택됨
case 2: 과소샘플링 토큰이 선택됨
- 지불액: 임계 입찰액
- 이유: 이 금액 덕분에 더 좋은 토큰을 얻었음
구체적 예시)
설정:
- 난수: 0.6
- 임계 입찰: 150원 (이 금액부터 "안녕" 선택)
시나리오:
- 내 입찰 100원: "하이" 선택, 지불 0원
- 내 입찰 200원: "안녕" 선택, 지불 150원 (임계액)
놀라운 성질 (정리 3.13)
기대 지불액의 공식: 내가 원하는 분포와 실제 분포의 "거리 차이"에 비례
의미:
- 더 많은 개선을 얻을수록 더 많이 지불
- 하지만 "개선한 만큼만" 지불 (공정함!)
실용적 장점
1) 투명성
"내가 지불하는 이유": 더 좋은 결과를 얻었기 때문 "지불하지 않는 이유": 입찰 없이도 같은 결과였기 때문
2) 예측 가능성
- 광고주들이 "만약에" 시나리오를 쉽게 계산 가능
- 각 토큰마다 "선택됨/안됨" 두 가지 경우만 고려하면 됨
3) 공정성
- 빅레이 경매의 "진실 말하기가 최선" 특성 유지
- 복잡한 전략 게임 필요 없음
한계점
범용 안정 샘플링: 모든 상황에서 작동하는 완벽한 방법은 항상 존재하지 않음 → 하지만 대부분의 실용적 상황에서는 작동
핵심 결론
성공: 토큰 경매에서도 빅레이 경매의 공정한 원리 적용 가능!
결과:
- 참가자들이 정직하게 입찰하는 것이 최선
- 투명하고 예측 가능한 지불 시스템
- 수학적으로 증명된 공정성
의미: 복잡한 AI 시대에도 경매 이론의 고전적 지혜가 여전히 유효하다!
4 Design of Aggregation Functions
"실제로 여러 AI의 예측을 어떻게 조합할 것인가?"
이전까지 "집계 함수가 있다면 어떻게 공정하게 지불할까?"를 고민했다면,
이제부터 "그 집계 함수를 실제로 어떻게 만들까?"를 다룹니다.
두 가지 설계 원칙
1) 전체 만족도 기반 설계
핵심 아이디어: "모든 참가자의 만족도를 합친 점수를 최대화"
수학적 표현:
전체 손실 = (참가자1 입찰액 × 참가자1 불만족도) +
(참가자2 입찰액 × 참가자2 불만족도) + ...
직관
- 더 많이 낸 사람의 불만족이 더 크게 반영
- 전체 손실을 최소화하는 방향으로 조합
- 민주적이지만 입찰액에 비례한 가중치
2) AI 훈련 방식 활용
핵심 아이디어: "AI를 훈련할 때 쓰는 검증된 방법을 사용"
이유
- AI 분야에서 이미 검증된 방법들
- 실제 LLM과 호환성 좋음
- 계산 효율성과 성능 보장
🔍 손실 함수 ℓ(Pᵢ, Q)의 의미
입력:
- Pᵢ: 참가자 i가 원하는 분포
- Q: 실제 나온 최종 분포
출력:
- 높은 값: 많이 다름 (불만족)
- 낮은 값: 비슷함 (만족)
예시:
- 내가 원함: "안녕"(70%), "하이"(30%)
- 실제 결과: "안녕"(50%), "하이"(50%)
- 손실: 얼마나 다른가의 측정값
전체 그림
목표: 전체 가중 손실을 최소화하는 최종 분포 Q 찾기
과정:
- 각 참가자의 원하는 분포 수집
- 각 참가자의 입찰액 수집
- 가능한 모든 최종 분포 중에서
- "입찰액 × 불만족도"의 총합이 최소인 것 선택
결과: 수학적으로 최적화된, 공정한 조합!
다음 단계: 구체적인 손실 함수 설계 (KL divergence 등 사용)
4.1 Review of LLM Training
AI 훈련은 3단계 과정입니다.
1단계 (사전훈련): 인터넷 전체 텍스트로 기본 언어능력 학습
- 목표: "다음 단어 맞히기" 게임을 잘하게 만들기
- 방법: KL-발산이라는 수학적 거리 측정으로 오차 최소화
2단계 (전문화): 특정 작업에 맞게 미세조정
- 목표: 특정 용도(번역, 요약 등)에 특화
- 방법: 1단계와 같지만 전문 데이터 사용
3단계 (인간 피드백): 인간이 선호하는 방향으로 조정
- 목표: 안전하고 유용한 답변 생성
- 방법: 보상 점수 최대화하되, 2단계 결과에서 너무 멀어지지 않게 균형
수학적 도구들
- 엔트로피: 불확실성 정도
- 교차 엔트로피: 두 분포 간의 차이
- KL-발산: 분포 간 거리 측정
이 모든 과정이 경매 시스템에서 사용하는 "분포 조합 방법"의 이론적 기반이 됩니다.
4.2 KL-inspired Aggregation
사고 실험
"만약 여러 AI를 하나로 합친 데이터로 새 AI를 훈련한다면?"
가정
- 여러 회사가 각자 다른 데이터로 AI 훈련
- 모든 데이터의 "질문 부분"은 같음
- "정답 부분"만 회사마다 다름
결합 방법
각 회사의 데이터를 입찰금에 비례해서 섞어서 새 AI 훈련
수학적 발견 (명제 4.1)
"새로 훈련할 필요 없이, 기존 AI들의 결과를 적절히 조합하면 같은 효과!"
최적 조합 공식 (보조정리 4.2)
선형 가중평균:
최종 결과 = (A회사 입찰 × A회사 예측 + B회사 입찰 × B회사 예측 + ...) / 총 입찰금
예시)
- A회사: 100원 입찰, "안녕"(60%) "하이"(40%)
- B회사: 200원 입찰, "안녕"(30%) "하이"(70%)
- 결과: "안녕"(40%) "하이"(60%)
계산: 안녕 = (100×0.6 + 200×0.3)/(100+200) = 120/300 = 0.4
실용적 장점들
1) 효율성
- 매번 모든 AI를 실행할 필요 없음
- 입찰 비율에 따라 하나의 AI만 선택해서 실행
- 계산 비용 크게 절약
2) 이론적 정당성
- AI 훈련에 사용되는 검증된 수학 원리 활용
- KL 발산이라는 표준 거리 측정 사용
- 단조성 보장 (더 많이 내면 더 좋은 결과)
3) 현실성
- 현재 AI 기술과 완벽 호환
- 추가 복잡한 계산 불필요
- 기존 시스템에 쉽게 통합 가능
핵심: 복잡해 보이지만 결국 "입찰금에 비례한 가중평균"이라는 매우 직관적인 방법이 수학적으로 최적입니다!
4.3 RL-inspired Aggregation
다른 사고 실험
"모든 회사가 같은 기본 AI를 사용하되, 각자 다른 '좋다/나쁘다' 기준을 적용한다면?"
상황)
- 모든 회사가 똑같은 기본 AI 모델 사용
- 하지만 "인간 피드백" 단계에서 서로 다른 보상 시스템 적용
- A회사: "정중함"에 높은 점수
- B회사: "창의성"에 높은 점수
결합 방법
각 회사의 보상 기준을 입찰금에 비례해서 섞어서 최종 AI 훈련
최적 조합 공식 (보조정리 4.4)
로그-선형 조합
ln(최종결과) = 상수 + (A회사비율 × ln(A회사예측) + B회사비율 × ln(B회사예측))
특징
- 4.2의 선형 조합보다 수학적으로 복잡
- 곱셈적 효과: 한 회사가 0%를 예측하면 최종 결과도 0에 가까워짐
장단점 비교
1) 선형 조합 (4.2)
- 장점: 단조성 보장, 직관적, 안전함
- 방식: 덧셈으로 조합
- 예시: (60% + 40%) / 2 = 50%
2) 로그-선형 조합 (4.3)
- 장점: RLHF 훈련과 이론적으로 더 일치
- 단점: 단조성 위반 가능 (더 많이 냈는데 더 나쁜 결과 가능)
- 방식: 곱셈으로 조합
- 예시: √(60% × 40%) ≈ 49%
실제 선택 기준
언제 선형 사용?
- 안전성과 예측가능성이 중요할 때
- 참가자들이 복잡한 수학을 이해하기 어려울 때
언제 로그-선형 사용?
- 참가자들의 선호도가 KL-발산과 잘 맞을 때
- 수학적 정교함이 안전성보다 중요할 때
현실적 권장: 대부분의 경우 선형 조합이 더 실용적이고 안전합니다.
5 Demonstration
문제: 일반적인 AI는 완성된 텍스트만 보여줌
우리가 필요한 것: 각 단어를 선택할 때의 "확률 정보"
해결책: Google Bard를 특별히 수정해서 내부 확률 데이터에 접근
똑똑한 비용 절약 방법
일반적인 방법 (비효율적):
- 각 광고주마다 별도의 AI 모델 운영
- A회사용 AI, B회사용 AI, C회사용 AI...
- 엄청난 비용과 복잡성
논문의 방법 (효율적):
- 하나의 AI 모델만 사용
- 각 회사마다 다른 "지시문"(프롬프트) 제공
프롬프트 튜닝의 작동 방식
기본 AI: 일반적인 텍스트 생성 AI
A회사 전용 설정:
"당신은 A회사의 마케팅 전문가입니다. 친근하고 따뜻한 톤으로..." + 실제 요청
B회사 전용 설정:
"당신은 B회사의 기술 전문가입니다. 정확하고 전문적인 톤으로..." + 실제 요청
수학적 표현
원리:
- 기본 AI: F(텍스트) → 결과
- A회사 AI: F(A회사 프롬프트 + 텍스트) → A회사 스타일 결과
- B회사 AI: F(B회사 프롬프트 + 텍스트) → B회사 스타일 결과
토큰별 처리: 각 단어를 생성할 때마다 지금까지의 모든 내용 + 회사별 프롬프트를 다시 입력
실용적 장점
1) 비용 효율성
- 하나의 AI만 운영하면 됨
- 여러 회사 요청을 순차적으로 처리
2) 확장성
- 새 광고주 추가 = 새 프롬프트 작성만 하면 됨
- 별도 AI 훈련 불필요
3) 범용성
- "범용 광고 AI + 맞춤 지시문" = 개별 맞춤 AI와 같은 효과
- 온라인으로 즉시 새로운 스타일 적용 가능
핵심: 복잡한 여러 AI 시스템 대신, 하나의 AI에 다양한 "역할 지시"를 주는 것만으로도 같은 효과를 낼 수 있다는 실용적인 발견입니다.
5.1 Setups
실제 실험 설계
시나리오 1: 협력 관계 (공동 마케팅)
상황: "하와이" 관련해서 서로 도움이 되는 두 회사
- Alpha Airlines: 하와이 항공편
- Beta Resort: 하와이 리조트
- 목표: 서로 윈윈하는 합작 광고 만들기
시나리오 2: 경쟁 관계
상황: 같은 시장에서 경쟁하는 두 회사
- Beta Resort: 하와이 리조트
- Gamma Hotel: 하와이 호텔
- 목표: 경쟁사끼리는 어떻게 광고가 나올까?
실험 설계 시 고민한 점들
가상 브랜드 사용
- 실제 브랜드 대신 "Alpha", "Beta", "Gamma" 사용
- 이유: AI가 기존 광고를 그대로 따라하는 것 방지
중립적 이름 선택
- "Alpha", "Beta"는 특별한 의미 없는 단순한 이름
- AI가 이름만 보고 편견을 갖지 않도록
프롬프트 설계
- "두 광고를 자연스럽게 결합하는 전문가" 역할 부여
- "예술적 감각"이라는 표현으로 창의성 유도
- 한 문장으로 제한해서 간결함 유지
핵심 실험 변수
λ = β₁/(β₁+β₂): 두 회사의 입찰 비율
- λ = 0.8 → 1회사가 압도적 영향력
- λ = 0.5 → 두 회사가 동등한 영향력
- λ = 0.2 → 2회사가 압도적 영향력
궁금한 질문들
협력 시나리오: 입찰 비율에 따라 "항공편 + 리조트" 조합이 자연스럽게 변할까?
경쟁 시나리오: 경쟁사끼리는 아예 함께 언급하지 않으려고 할까?
결과 예상: 실제 비즈니스 관계가 AI 생성 광고에도 반영될지 확인하는 흥미로운 실험입니다!
5.2 Results
시나리오 1: 협력 관계 (항공사 + 리조트)
λ 변화에 따른 광고 내용 변화
λ = 1 (Alpha 100%): "Alpha Airlines: 당신의 천국행 티켓"
λ = 0.6 (Alpha 60%): "Alpha Airlines로 하와이에 가서 Beta 리조트에서 일주일 숙박을 즐기세요"
λ = 0.5 (동등): "Alpha Airlines로 하와이에 가서 Beta Resort에서 숙박하며 아름다운 석양을 즐기세요"
λ = 0.25 (Beta 75%): "Beta Resort에서 하와이의 마법을 경험하세요"
λ = 0 (Beta 100%): "하와이의 Beta Resort: 태양이 더 밝게 빛나는 천국"
시나리오 2: 경쟁 관계 (호텔 vs 리조트)
λ 변화에 따른 광고 내용 변화
λ = 1 (Gamma 100%): "하와이에서 편안한 휴가를 원한다면 Gamma Hotel이 완벽한 곳입니다"
λ = 0.5 (중간): "하와이에서 편안한 휴가를 원한다면 Gamma Resort가 완벽한 곳입니다" (브랜드명 혼동!)
λ = 0 (Beta 100%): "하와이의 열대 천국으로 탈출해 Beta Resort에서 숙박하세요"
핵심 발견
성공한 점들
자연스러운 전환: 입찰 비율에 따라 광고 내용이 부드럽게 변화
협력 시너지: 서로 도움이 되는 브랜드들은 자연스럽게 함께 언급됨
경쟁 회피: 경쟁사끼리는 거의 함께 언급되지 않음
발견된 문제점
브랜드명 혼동: "Gamma Hotel" + "Beta Resort" → "Gamma Resort", "Beta Hotel" (존재하지 않는 조합)
해결책: 브랜드명을 정확히 사용하도록 추가 훈련 필요
두 방법 비교
1) 선형 집계:
- 임계점: 0.75, 0.4
- 브랜드명 혼동 문제 있음
2) 로그-선형 집계:
- 임계점: 0.5, 0.45
- 상대적으로 더 안정적
실용적 의미
비즈니스 모델 검증: 실제 비즈니스 관계(협력/경쟁)가 AI 생성 광고에 자연스럽게 반영됨
확장성: 범용 AI로도 기본적인 효과 확인, 전문 훈련으로 더 개선 가능
조절 가능성: 입찰 비율만 조정해도 광고 내용의 균형을 세밀하게 조절 가능
결론: 이론이 실제로도 작동한다는 것을 보여주는 성공적인 실험 결과입니다!
6 Conclusion
문제 해결
시작: "여러 AI의 결과를 어떻게 공정하게 합칠까?"
해결: 토큰 경매라는 새로운 시스템 개발
핵심 기여
1. 새로운 경매 모델
- 한 단어씩 경매하는 혁신적 방식
- 간단한 입찰금만으로 참여 가능
2. 수학적 증명
- 공정한 경매의 필수 조건 발견
- 빅레이 경매의 원리를 AI 시대에 성공적으로 적용
3. 실용적 설계
- AI 훈련에 사용되는 검증된 수학 원리 활용
- 두 가지 집계 방법 제시 (선형, 로그-선형)
4. 실제 구현
- Google Bard로 실제 테스트
- 협력/경쟁 시나리오에서 기대한 대로 작동 확인
최소 가정의 견고함
복잡한 AI 선호도를 완전히 이해하지 못해도 작동하는 안전한 시스템
이론과 실제의 결합
수학적으로 증명된 이론 + 실제 AI로 검증된 실용성
의의
학술적: 경매 이론을 AI 시대에 성공적으로 확장
실용적: 실제 광고 시장에서 바로 사용 가능한 시스템
미래지향적: AI가 더 발전해도 적용 가능한 견고한 프레임워크
핵심 메시지: 복잡한 AI 시대에도 공정하고 투명한 거래 시스템을 만들 수 있다는 것을 이론과 실험으로 모두 증명한 성공적인 연구입니다.
댓글