원문: https://arxiv.org/pdf/2507.02592
github: https://github.com/Alibaba-NLP/WebAgent
GitHub - Alibaba-NLP/WebAgent: 🌐 WebAgent for Information Seeking bulit by Tongyi Lab: WebWalker & WebDancer & WebSailor http
🌐 WebAgent for Information Seeking bulit by Tongyi Lab: WebWalker & WebDancer & WebSailor https://arxiv.org/pdf/2507.02592 - Alibaba-NLP/WebAgent
github.com
Abstract
웹에서 복잡한 정보를 찾는 일에서 인간보다 뛰어난 AI를 오픈소스로 만드는 방법을 찾아낸 연구입니다.
연구진: 알리바바..
핵심 문제
- 현재 오픈소스 AI들은 복잡한 웹 정보 탐색에서 인간보다 뛰어난 성능을 보이지 못함
- 반면 구글이나 OpenAI 같은 회사의 독점 AI들은 이미 초인간적 성능을 달성함
연구진의 발견
- 독점 AI들의 성공 비결은 "불확실성을 체계적으로 줄이는 능력"
- 복잡한 정보 환경에서 어떤 정보가 중요한지 판단하고 단계적으로 답에 접근하는 능력
WebSailor의 해결책
- 어려운 문제 만들기: 일부러 복잡하고 불확실한 상황을 만들어 AI를 훈련
- 체계적 훈련: 이런 어려운 상황을 해결하는 방법을 단계적으로 학습
- 강화학습: Duplicating Sampling Policy Optimization(DUPO)라는 새로운 학습 방법으로 성능 향상
결과
- 복잡한 웹 정보 탐색에서 오픈소스 모델 중 최고 성능
- 구글, OpenAI 같은 독점 모델과 비슷한 수준 달성
1 Introduction
문제 상황
- 인간은 웹에서 정보를 찾을 때 기억력, 주의력 한계로 제약을 받음
- 구글, OpenAI 같은 회사의 AI는 이미 인간을 뛰어넘는 성능을 보임
- 하지만 오픈소스 AI들은 복잡한 웹 탐색(BrowseComp-en)에서 거의 0점에 가까운 성능

기존 방법의 한계
- 기존 AI 훈련은 "쉬운 문제"(레벨 1,2)만 다룸
- 정말 어려운 문제(레벨 3)는 경험해보지 못함
- 따라서 복잡한 추론 능력이 발달하지 못함
WebSailor의 해결책
- 어려운 문제 만들기: 웹사이트들을 무작위로 연결해서 복잡한 구조 생성
- 정보 숨기기: 일부러 정보를 모호하게 만들어 난이도 증가
- 스마트한 학습: 기존 AI의 장황한 설명 대신 핵심만 추려서 학습
- 효율적 훈련: DUPO라는 새로운 방법으로 빠르게 훈련
결과
- 모든 오픈소스 모델을 능가
- 구글, OpenAI의 독점 모델과 비슷한 성능
- 어려운 문제뿐만 아니라 쉬운 문제도 잘 해결
핵심은 "정말 어려운 문제를 만들어서 AI를 훈련시키면, 인간을 뛰어넘는 추론 능력을 갖게 된다"는 것입니다.
2 Problem Definition
기본 작동 방식 (ReAct 프레임워크)

- 사고(Thought): "뭘 해야 할까?" 생각(τi)
- 행동(Action): 검색하거나 웹페이지 방문(ai)
- 관찰(Observation): 결과 확인(oi)
- 답을 찾을 때까지 1-3 반복
사용할 수 있는 도구들
- Search: 구글 검색 같은 것 (결과로 제목, 요약, URL 10개씩 받음)
- Visit: 특정 웹페이지 방문해서 내용 확인
- Final Answer: 최종 답변 제출
기존 방법과의 차이점
- 기존 방법: 간단한 질문은 1-2번만 검색하면 끝
- BrowseComp: 매우 복잡해서 수십 번의 단계 필요
WebSailor의 특별한 점: 복잡한 정보의 바다에서 길을 잃지 않고 효율적으로 답을 찾는 능력
- 부분적 정보들을 조합
- 쓸모없는 경로는 포기
- 여러 사실들을 연결해서 최종 답안 도출
비유로 설명하자면 다음과 같습니다.
- 기존 방법: 도서관에서 책 한 권만 찾으면 되는 상황
- WebSailor: 미로 같은 거대한 도서관에서 여러 책의 정보를 조합해야 하는 상황
핵심은 "단순한 검색이 아니라 전략적 사고와 정보 종합 능력"이 필요하다는 것입니다.
3 Large-scale Training Data Synthesis for Complex Reasoning
3.1 SailorFog-QA: Scalable Graph-Synthesized QA
WebSailor가 어떻게 "정말 어려운 문제"를 만들어내는지 설명합니다.
문제 난이도 분류
- 레벨 1: 구글 검색 한 번이면 답 나오는 문제
- 레벨 2: 여러 번 검색해야 하지만 순서가 정해진 문제
- 레벨 3: 어디서부터 시작해야 할지도 모르는 복잡한 문제 ← WebSailor의 목표
어려운 문제 만드는 방법
- 복잡한 지식 그래프 만들기(서브그래프 샘플링)
- 위키데이터에서 애매한 정보로 시작(Wikidata의 SPARQL 서비스에서 검색한 모호한 개체로 그래프 시드)
- 무작위로 관련 정보들을 연결해나감
- 단순한 일직선이 아닌 복잡한 거미줄 구조 생성
- 정보 숨기기 (난독화)
- 정확한 날짜 → "2010년대 초"
- 구체적 이름 → "F로 시작하는 누군가"
- 숫자 → "1% 미만"
QA 생성 과정에 대한 자세한 내용은 부록 A.2에서 확인할 수 있습니다.
SailorFog-QA의 장점
- 실제 인터넷 정보 기반
- 다양한 추론 패턴 요구
- 무한히 확장 가능

예시 문제 특징: 위의 두 예시 문제를 보면
- 여러 정보가 복잡하게 얽혀있음
- 시간이나 장소가 애매하게 표현됨
- 인간도 2시간 안에는 풀기 어려움
핵심 아이디어: "정보를 일부러 애매하게 만들고 복잡하게 얽어놓으면, AI가 정말 똑똑한 추론 능력을 개발하게 된다"
3.2 Reconstructing Reasoning from Expert LRM Trajectories
문제 상황: 기존의 똑똑한 모델들(QwQ-32B 같은)이 문제를 잘 풀기는 하지만, 그들의 방식을 그대로 따라하면 문제가 생김
두 가지 문제점
- 양식적 오염 (말투/스타일 문제)
- 기존 모델들이 너무 장황하고 특정한 말투를 가짐
- 이걸 그대로 따라하면 새로운 문제에 유연하게 대처하지 못함
- 마치 특정 선생님의 말투만 따라하는 학생처럼 됨
- 컨텍스트 과부하 (내용이 너무 많음)
- 설명이 너무 길어서 메모리 한계 초과
- 복잡한 문제일수록 더 심각해짐
WebSailor의 해결책
- 행동만 따라하기
- 똑똑한 모델의 "생각 과정"은 버림
- "어떤 행동을 했는지"와 "결과가 뭐였는지"만 기록
- 즉, "무엇을" "어떻게" 했는지만 가져옴
- 이유 다시 만들기
- "왜" 그 행동을 했는지는 다른 AI가 새로 설명
- 간결하고 논리적인 이유를 새로 생성
- "짧은 CoT" 스타일로 깔끔하게 정리
비유로 설명
- 기존 방식: 장황한 선생님의 수업을 통째로 녹음해서 그대로 따라하기
- WebSailor 방식: 선생님이 "어떤 문제를 어떻게 풀었는지"만 보고, "왜 그렇게 했는지"는 더 간결한 선생님이 새로 설명
결과
- 복잡한 추론 능력은 그대로 배우면서
- 장황함이나 특정 스타일에 얽매이지 않음
- 메모리도 절약하고 실용적임
핵심은 "좋은 해결 과정은 배우되, 나쁜 습관은 배우지 않는다"는 것입니다.
4 Reinforcement Learning with Cold Start
2단계 훈련 방법
1단계: 콜드 스타트 (RFT)
- 목적: 기본기 다지기
- 내용:
- 도구 사용법 익히기 (검색, 웹페이지 방문 등)
- 긴 추론 과정의 기본 틀 배우기
2단계: 강화학습 (RL)
- 목적: 실력 향상과 효율성 증대
- 내용:
- 추론 능력 더욱 발전시키기
- 적은 데이터로도 빠르게 학습하기
- 복잡한 훈련 데이터를 완전히 활용하기
왜 이렇게 2단계로 나누나?
- 처음부터 복잡한 것을 시키면 제대로 배우지 못함
- 기본기가 있어야 고급 기술을 배울 수 있음
- 최근 연구에서도 이런 단계적 접근이 효과적임이 증명됨(Chu et al., 2025; Swamy et al., 2025; Ye et al., 2025)
핵심 아이디어: "기본기 → 실전 연습" 순서로 체계적으로 학습시키면 더 좋은 결과를 얻을 수 있다는 것입니다.
4.1 Rejection Sampling Fine-Tuning
WebSailor가 첫 번째 단계(콜드 스타트)에서 어떻게 기본기를 가르치는지 설명합니다.
데이터 구조: AI 에이전트의 사고과정 혹은 대화를 다음과 같이 태그로 구분
- <think>: AI가 생각하는 부분
- <action>: AI가 하는 행동 (검색, 웹페이지 방문 등)
- <observation>: 환경에서 오는 결과
- <final_answer>: 최종 답변
3단계 필터링 (좋은 데이터만 골라내기)
- 정답 체크: 최종 답이 맞는 것만 사용
- 틀린 답으로 학습하면 안 되니까
- 길이 제한: 32,000 토큰 이하만 사용
- 너무 긴 건 우리 모델이 처리하기 어려움
- 전문가 모델이 더 긴 문맥을 잘 처리하기 때문
- 복잡도 체크: 도구를 5번 이상 사용한 것만 선택
- 너무 쉬운 문제는 복잡한 추론 학습에 도움 안 됨
- 진짜 어려운 문제만 골라서 학습
훈련 방식
- AI가 "생각"하고 "행동"하는 부분만 학습
- 환경에서 오는 "관찰" 결과는 학습 대상이 아님
- 왜냐하면 관찰은 AI가 만드는 게 아니라 외부에서 주어지는 것이니까
요리 비유
- 요리사의 "생각"(어떤 재료를 넣을까?)과 "행동"(재료 넣기)은 배워야 하지만
- "결과"(맛이 어떻게 났는지)는 배우는 게 아니라 확인하는 것
핵심: AI가 스스로 판단하고 행동하는 능력만 집중적으로 훈련시키는 것입니다.
4.2 Duplicating Sampling Policy Optimization
WebSailor의 두 번째 단계인 강화학습에서 사용하는 특별한 방법 DUPO(Duplicating Sampling Policy Optimization) 를 설명합니다.
기본 문제
- 웹 에이전트 RL은 도구를 사용해야 해서 매우 느림
- 기존 방법(DAPO)도 있지만 여전히 속도가 문제
DUPO의 해결책
1. 사전 필터링
- 너무 쉬운 문제(8번 다 맞히는 것)는 미리 제거
- 훈련할 가치가 없으니까
2. 중복 샘플링
- 새로운 데이터를 계속 만드는 대신
- 같은 배치에서 적당히 어려운 문제들을 복사해서 사용
- 결과: 2-3배 빨라짐
3. 똑똑한 선별
- 표준편차가 0인 케이스 제거 (너무 쉽거나 너무 어려운 것)
- 적당히 어려운 것들만 선택해서 훈련
보상 시스템
- 형식 점수 (10%): 올바른 형태로 답했는지
- 답변 점수 (90%): 실제로 정답인지
- 이렇게 해서 "형식은 맞지만 틀린 답" 같은 꼼수 방지
비유로 설명하자면,
- 기존 방법: 새로운 문제를 계속 만들어서 풀게 하기 (느림)
- DUPO: 적당한 난이도의 문제들을 여러 번 풀게 하기 (빠름)
운동 비유: 운동할 때 새로운 운동을 계속 배우는 것보다, 적당히 어려운 운동을 반복해서 하는 게 더 효율적인 것과 같습니다.
핵심 아이디어: "너무 쉽거나 어려운 문제 대신, 적당히 도전적인 문제를 반복해서 풀게 하면 더 빠르고 효과적으로 학습할 수 있다"
5 Experiments
5.1 Setup
테스트한 모델들
- Qwen-2.5 시리즈 (3B, 7B, 32B, 72B)
- 크기별로 다양하게 테스트
사용한 벤치마크
- BrowseComp-en: 영어로 된 매우 어려운 웹 검색 문제
- BrowseComp-zh: 중국어 버전
- GAIA: 여러 종류의 능력이 필요한 문제들
- XbenchDeepSearch: 깊이 있는 정보 검색 문제
비교 대상들(베이스라인)
- 직접 추론: 검색 없이 내부 지식만으로 답하기
- GPT-4o, QwQ-32B, DeepSeek-R1 등
- 독점 브라우징 AI: 회사에서 만든 웹 검색 AI
- OpenAI DeepResearch, Grok, Doubao 등
- 오픈소스 에이전트: 공개된 웹 검색 AI들
- Search-o1, WebThinker, R1-Searcher 등
평가 방법
- pass@1: 한 번 시도해서 맞힐 확률
- LLM as a judge: AI가 답이 맞는지 판단
- 하이퍼파라미터: temperature 0.6, top-p 0.95 (창의성과 정확성의 균형)
5.2 Main Results

1. 내부 지식만으론 안 된다
- GPT-4.1 같은 최고급 AI도 웹 검색 없이는 거의 0점
- 복잡한 정보는 인터넷을 직접 검색해야만 찾을 수 있음
2. 추론 모델들은 조금 나음
- DeepSeek-R1, o4-mini 같은 추론 특화 모델들이 좀 더 나은 성능
- 하지만 여전히 웹 검색에는 한계
3. WebSailor가 오픈소스 1등
- 모든 오픈소스 웹 에이전트 중 최고 성능
- 놀라운 점: 작은 모델도 큰 모델을 이김
- WebSailor-7B > WebDancer-32B
- 크기가 아니라 훈련 방법이 중요함을 증명
4. 독점 AI와 비슷한 수준 달성
- WebSailor-72B ≈ Doubao (중국의 고급 AI)
- OpenAI DeepResearch에는 아직 못 미치지만 상당히 근접
성능에서 주목할 만한 점은 다음과 같음
BrowseComp-en에서:
- 기존 오픈소스: 0.1~3.8점
- WebSailor-72B: 12.0점 (3배 이상 향상)
- DeepResearch: 51.5점 (여전히 최고)
특별한 성과
- GAIA: 수학 문제가 많아서 상대적으로 낮지만, 순수 정보 검색 부분에서는 여전히 우수
- 크기 vs 성능: 작은 WebSailor가 큰 기존 모델들을 압도
핵심 메시지: "올바른 훈련 방법이 모델 크기보다 중요하다. WebSailor는 오픈소스로도 독점 AI에 근접한 성능을 낼 수 있음을 증명했다."
5.3 Analysis
1. 훈련 데이터의 복잡성

- WebDancer: 대부분 도구를 2번만 사용 (50% 이상) - 너무 쉬움
- SailorFog-QA: 5번 이상, 심지어 20번 이상도 많음 - 진짜 어려움
- BrowseComp-en: 실제 테스트와 비슷한 분포
결론: WebSailor는 실제 어려운 문제와 비슷한 난이도로 훈련됨
2. 데이터 난이도 검증

정답률 비교:
- WebDancer 데이터: 84-90% (너무 쉬움)
- SailorFog-QA: 39-47% (적당히 어려움)
- BrowseComp-en: 9-26% (매우 어려움)
3. 간단한 문제와의 호환성
- SimpleQA (간단한 질문들)에서도 WebSailor가 1등
- 어려운 문제만 풀도록 훈련했는데도 쉬운 문제도 잘 풀음
4. 강화학습 효과

- RL 훈련 후 모든 벤치마크에서 성능 향상
- 특히 어려운 BrowseComp에서 큰 향상
- Pass@1 (한 번에 성공)이 Pass@3 (세 번 중 성공)보다 훨씬 많이 개선됨
- 의미: 운에 의존하지 않고 안정적으로 성공
5. 콜드 스타트의 중요성

- 콜드 스타트 O: 기본기 익히고 → RL로 발전
- 콜드 스타트 X: 처음부터 RL로만 훈련
- 결과: 콜드 스타트가 있는 게 훨씬 좋음
- 도구 사용 횟수도 더 많고 안정적
핵심 통찰들:
- 올바른 난이도: 너무 쉬운 문제로 훈련하면 어려운 문제를 못 풀음
- 하향 호환성: 어려운 문제로 훈련해도 쉬운 문제는 잘 풀음
- RL의 효과: 특히 불안정하고 어려운 문제에서 큰 도움
- 단계적 학습: 기본기 → 고급 기술 순서가 중요
비유: 마치 수영 선수가 깊은 바다에서 훈련하면 얕은 수영장에서도 잘 헤엄칠 수 있고, 기본기를 먼저 익힌 후 고급 기술을 배우는 것이 효과적인 것과 같습니다.
5.4 Limitations and Future Work
현재 한계점들
1. 길이 제한 문제
- 32,000 토큰으로 제한해둠 (실용적 이유)
- 더 복잡한 문제는 이 길이를 넘어설 수 있음
- 길어질수록 성능이 떨어지는 경향
2. 과도한 사고 (Over-thinking)
- 간단한 문제에도 여러 단계를 거쳐서 해결
- 하지만: 이게 꼭 나쁜 건 아님
- 실제로는 여러 소스로 교차 검증하는 것
- 더 정확한 답을 얻기 위한 신중함
3. 훈련 속도 한계
- RL 훈련이 50단계로 제한됨
- 동기식 프레임워크라 느림
- DUPO로 개선했지만 여전히 병목
향후 개선 계획
1. 비동기 훈련
- 현재: 동기식 (순서대로 하나씩)
- 개선: 비동기식 (동시에 여러 개)
- 결과: 훈련 속도 대폭 향상
2. 더 긴 컨텍스트 지원
- 더 복잡한 문제 해결 가능
- 성능 저하 없이 긴 추론 지원
6 Related Work
정보 탐색 벤치마크의 진화
1세대 (쉬운 문제들)
- NQ, TriviaQA, HotpotQA 등
- 구조화된 순서로 검색하면 답을 찾을 수 있음
- 모델 내부 지식만으로도 해결 가능
2세대 (중간 난이도)
- GAIA, Xbench-DeepSearch 등
- 여러 단계가 필요하지만 여전히 체계적 접근 가능
3세대 (매우 어려운 문제)
- BrowseComp-en/zh ← WebSailor가 목표로 하는 수준
- 정보가 복잡하게 얽혀있고 일부러 애매하게 만듦
- 비선형적 탐색과 창의적 종합 필요
- "초인간적 추론"이 필요한 수준
웹 에이전트 연구 현황
독점 시스템 (비공개)
- DeepResearch, Doubao, Grok-3 등
- 성능은 좋지만 방법을 공개하지 않음
- 연구 협력에 한계
오픈소스 시스템
- WebDancer, WebThinker, R1-Searcher 등
- ReAct 프레임워크 사용
- 간단한 문제는 잘 풀지만 복잡한 문제에서는 한계
훈련 방법의 한계
- 기존 SFT 방법: 고정된 패턴만 학습, 창의적 적응 어려움
- 강화학습 방법: 가능성은 있지만 훈련이 불안정하고 비효율적
WebSailor의 차별점: 기존 연구들의 한계를 모두 해결
- 3세대 수준의 어려운 문제 해결
- 오픈소스로 독점 시스템 수준 달성
- 안정적이고 효율적인 훈련 방법 개발
비유:
- 1세대: 도서관에서 책 한 권 찾기
- 2세대: 여러 도서관에서 순서대로 정보 찾기
- 3세대: 미로 같은 정보 바다에서 창의적으로 단서 조합하기
WebSailor는 이 3세대 문제를 오픈소스로 해결한 첫 번째 성공사례입니다.
7 Conclusion
연구의 핵심 발견
- 오픈소스 웹 AI가 구글, OpenAI 같은 독점 AI보다 못했던 이유를 "불확실성 감소" 관점에서 분석
- 문제는 훈련 방법에 있었음
WebSailor의 해결책
- 어려운 문제 만들기 (QA 구성)
- 대량 데이터 합성 (훈련 데이터)
- 단계적 학습 (RFT 콜드 스타트)
- 효율적 강화학습 (DUPO 알고리즘)
달성한 성과
- 간단한 문제부터 복잡한 문제까지 모두 잘 해결
- 인간을 뛰어넘는 수준 달성
- 오픈소스로도 독점 AI에 근접한 성능
핵심 통찰: "에이전트 AI 발전의 열쇠는 더 어렵고 불확실한 문제를 만들어 훈련시키고, 더 효율적인 강화학습을 하는 것"
향후 연구 방향
- 정보 검색을 넘어서 다른 영역으로 확장
- 모든 면에서 "초인간적 AI" 만들기
- 오픈소스 기반으로 계속 발전
댓글