WebSailor: Navigating Super-human Reasoning for Web Agent

github: https://github.com/Alibaba-NLP/WebAgent

GitHub - Alibaba-NLP/WebAgent: 🌐 WebAgent for Information Seeking bulit by Tongyi Lab: WebWalker & WebDancer & WebSailor http

🌐 WebAgent for Information Seeking bulit by Tongyi Lab: WebWalker & WebDancer & WebSailor https://arxiv.org/pdf/2507.02592 - Alibaba-NLP/WebAgent

github.com

Abstract

웹에서 복잡한 정보를 찾는 일에서 인간보다 뛰어난 AI를 오픈소스로 만드는 방법을 찾아낸 연구입니다.

연구진: 알리바바..

핵심 문제

현재 오픈소스 AI들은 복잡한 웹 정보 탐색에서 인간보다 뛰어난 성능을 보이지 못함
반면 구글이나 OpenAI 같은 회사의 독점 AI들은 이미 초인간적 성능을 달성함

연구진의 발견

독점 AI들의 성공 비결은 "불확실성을 체계적으로 줄이는 능력"
복잡한 정보 환경에서 어떤 정보가 중요한지 판단하고 단계적으로 답에 접근하는 능력

WebSailor의 해결책

어려운 문제 만들기: 일부러 복잡하고 불확실한 상황을 만들어 AI를 훈련
체계적 훈련: 이런 어려운 상황을 해결하는 방법을 단계적으로 학습
강화학습: Duplicating Sampling Policy Optimization(DUPO)라는 새로운 학습 방법으로 성능 향상

결과

복잡한 웹 정보 탐색에서 오픈소스 모델 중 최고 성능
구글, OpenAI 같은 독점 모델과 비슷한 수준 달성

1 Introduction

문제 상황

인간은 웹에서 정보를 찾을 때 기억력, 주의력 한계로 제약을 받음
구글, OpenAI 같은 회사의 AI는 이미 인간을 뛰어넘는 성능을 보임
하지만 오픈소스 AI들은 복잡한 웹 탐색(BrowseComp-en)에서 거의 0점에 가까운 성능

기존 방법의 한계

기존 AI 훈련은 "쉬운 문제"(레벨 1,2)만 다룸
정말 어려운 문제(레벨 3)는 경험해보지 못함
따라서 복잡한 추론 능력이 발달하지 못함

WebSailor의 해결책

어려운 문제 만들기: 웹사이트들을 무작위로 연결해서 복잡한 구조 생성
정보 숨기기: 일부러 정보를 모호하게 만들어 난이도 증가
스마트한 학습: 기존 AI의 장황한 설명 대신 핵심만 추려서 학습
효율적 훈련: DUPO라는 새로운 방법으로 빠르게 훈련

결과

모든 오픈소스 모델을 능가
구글, OpenAI의 독점 모델과 비슷한 성능
어려운 문제뿐만 아니라 쉬운 문제도 잘 해결

핵심은 "정말 어려운 문제를 만들어서 AI를 훈련시키면, 인간을 뛰어넘는 추론 능력을 갖게 된다"는 것입니다.

2 Problem Definition

기본 작동 방식 (ReAct 프레임워크)

사고(Thought): "뭘 해야 할까?" 생각(τi)
행동(Action): 검색하거나 웹페이지 방문(ai)
관찰(Observation): 결과 확인(oi)
답을 찾을 때까지 1-3 반복

사용할 수 있는 도구들

Search: 구글 검색 같은 것 (결과로 제목, 요약, URL 10개씩 받음)
Visit: 특정 웹페이지 방문해서 내용 확인
Final Answer: 최종 답변 제출

기존 방법과의 차이점

기존 방법: 간단한 질문은 1-2번만 검색하면 끝
BrowseComp: 매우 복잡해서 수십 번의 단계 필요

WebSailor의 특별한 점: 복잡한 정보의 바다에서 길을 잃지 않고 효율적으로 답을 찾는 능력

부분적 정보들을 조합
쓸모없는 경로는 포기
여러 사실들을 연결해서 최종 답안 도출

비유로 설명하자면 다음과 같습니다.

기존 방법: 도서관에서 책 한 권만 찾으면 되는 상황
WebSailor: 미로 같은 거대한 도서관에서 여러 책의 정보를 조합해야 하는 상황

핵심은 "단순한 검색이 아니라 전략적 사고와 정보 종합 능력"이 필요하다는 것입니다.

3 Large-scale Training Data Synthesis for Complex Reasoning

3.1 SailorFog-QA: Scalable Graph-Synthesized QA

WebSailor가 어떻게 "정말 어려운 문제"를 만들어내는지 설명합니다.

문제 난이도 분류

레벨 1: 구글 검색 한 번이면 답 나오는 문제
레벨 2: 여러 번 검색해야 하지만 순서가 정해진 문제
레벨 3: 어디서부터 시작해야 할지도 모르는 복잡한 문제 ← WebSailor의 목표

어려운 문제 만드는 방법

복잡한 지식 그래프 만들기(서브그래프 샘플링)
- 위키데이터에서 애매한 정보로 시작(Wikidata의 SPARQL 서비스에서 검색한 모호한 개체로 그래프 시드)
- 무작위로 관련 정보들을 연결해나감
- 단순한 일직선이 아닌 복잡한 거미줄 구조 생성
정보 숨기기 (난독화)
- 정확한 날짜 → "2010년대 초"
- 구체적 이름 → "F로 시작하는 누군가"
- 숫자 → "1% 미만"

QA 생성 과정에 대한 자세한 내용은 부록 A.2에서 확인할 수 있습니다.

SailorFog-QA의 장점

실제 인터넷 정보 기반
다양한 추론 패턴 요구
무한히 확장 가능

<생성된 질문 예시들> 질문: 5세기 중반경에 세상을 떠난 후기 고대 작가가 작곡한 초기 기독교 시적 찬송가가 있었습니다. 이 작가의 사망 연도는 현대 이전 몇 세기의 환경 조건을 재구성하는 과학적 연대기의 마지막 해와 일치합니다. 이 연대기의 이름은 무엇입니까? 답변: 추정 나이테 연대기: 300-450 A.D. 질문: 저명한 남미 수도와 밀접하게 연관된 음악 작품은 21세기 초에 저명한 지역 시민 영예로 나중에 인정받은 주목할 만한 인물이 쓴 가사를 특징으로 합니다. 이 작곡의 멜로디는 콜롬비아 서부의 존경받는 예술 기관에서 정식 훈련을 받은 음악가가 만들었습니다. 이 음악 작품의 이름은 무엇입니까? 답변: the Rue de Rivoli

예시 문제 특징: 위의 두 예시 문제를 보면

여러 정보가 복잡하게 얽혀있음
시간이나 장소가 애매하게 표현됨
인간도 2시간 안에는 풀기 어려움

핵심 아이디어: "정보를 일부러 애매하게 만들고 복잡하게 얽어놓으면, AI가 정말 똑똑한 추론 능력을 개발하게 된다"

3.2 Reconstructing Reasoning from Expert LRM Trajectories

문제 상황: 기존의 똑똑한 모델들(QwQ-32B 같은)이 문제를 잘 풀기는 하지만, 그들의 방식을 그대로 따라하면 문제가 생김

두 가지 문제점

양식적 오염 (말투/스타일 문제)
- 기존 모델들이 너무 장황하고 특정한 말투를 가짐
- 이걸 그대로 따라하면 새로운 문제에 유연하게 대처하지 못함
- 마치 특정 선생님의 말투만 따라하는 학생처럼 됨
컨텍스트 과부하 (내용이 너무 많음)
- 설명이 너무 길어서 메모리 한계 초과
- 복잡한 문제일수록 더 심각해짐

WebSailor의 해결책

행동만 따라하기
- 똑똑한 모델의 "생각 과정"은 버림
- "어떤 행동을 했는지"와 "결과가 뭐였는지"만 기록
- 즉, "무엇을" "어떻게" 했는지만 가져옴
이유 다시 만들기
- "왜" 그 행동을 했는지는 다른 AI가 새로 설명
- 간결하고 논리적인 이유를 새로 생성
- "짧은 CoT" 스타일로 깔끔하게 정리

비유로 설명

기존 방식: 장황한 선생님의 수업을 통째로 녹음해서 그대로 따라하기
WebSailor 방식: 선생님이 "어떤 문제를 어떻게 풀었는지"만 보고, "왜 그렇게 했는지"는 더 간결한 선생님이 새로 설명

결과

복잡한 추론 능력은 그대로 배우면서
장황함이나 특정 스타일에 얽매이지 않음
메모리도 절약하고 실용적임

핵심은 "좋은 해결 과정은 배우되, 나쁜 습관은 배우지 않는다"는 것입니다.

4 Reinforcement Learning with Cold Start

2단계 훈련 방법

1단계: 콜드 스타트 (RFT)

목적: 기본기 다지기
내용:
- 도구 사용법 익히기 (검색, 웹페이지 방문 등)
- 긴 추론 과정의 기본 틀 배우기

2단계: 강화학습 (RL)

목적: 실력 향상과 효율성 증대
내용:
- 추론 능력 더욱 발전시키기
- 적은 데이터로도 빠르게 학습하기
- 복잡한 훈련 데이터를 완전히 활용하기

왜 이렇게 2단계로 나누나?

처음부터 복잡한 것을 시키면 제대로 배우지 못함
기본기가 있어야 고급 기술을 배울 수 있음
최근 연구에서도 이런 단계적 접근이 효과적임이 증명됨(Chu et al., 2025; Swamy et al., 2025; Ye et al., 2025)

핵심 아이디어: "기본기 → 실전 연습" 순서로 체계적으로 학습시키면 더 좋은 결과를 얻을 수 있다는 것입니다.

4.1 Rejection Sampling Fine-Tuning

WebSailor가 첫 번째 단계(콜드 스타트)에서 어떻게 기본기를 가르치는지 설명합니다.

데이터 구조: AI 에이전트의 사고과정 혹은 대화를 다음과 같이 태그로 구분

<think>: AI가 생각하는 부분
<action>: AI가 하는 행동 (검색, 웹페이지 방문 등)
<observation>: 환경에서 오는 결과
<final_answer>: 최종 답변

3단계 필터링 (좋은 데이터만 골라내기)

정답 체크: 최종 답이 맞는 것만 사용
- 틀린 답으로 학습하면 안 되니까
길이 제한: 32,000 토큰 이하만 사용
- 너무 긴 건 우리 모델이 처리하기 어려움
- 전문가 모델이 더 긴 문맥을 잘 처리하기 때문
복잡도 체크: 도구를 5번 이상 사용한 것만 선택
- 너무 쉬운 문제는 복잡한 추론 학습에 도움 안 됨
- 진짜 어려운 문제만 골라서 학습

훈련 방식

AI가 "생각"하고 "행동"하는 부분만 학습
환경에서 오는 "관찰" 결과는 학습 대상이 아님
왜냐하면 관찰은 AI가 만드는 게 아니라 외부에서 주어지는 것이니까

요리 비유

요리사의 "생각"(어떤 재료를 넣을까?)과 "행동"(재료 넣기)은 배워야 하지만
"결과"(맛이 어떻게 났는지)는 배우는 게 아니라 확인하는 것

핵심: AI가 스스로 판단하고 행동하는 능력만 집중적으로 훈련시키는 것입니다.

4.2 Duplicating Sampling Policy Optimization

WebSailor의 두 번째 단계인 강화학습에서 사용하는 특별한 방법 DUPO(Duplicating Sampling Policy Optimization) 를 설명합니다.

기본 문제

웹 에이전트 RL은 도구를 사용해야 해서 매우 느림
기존 방법(DAPO)도 있지만 여전히 속도가 문제

DUPO의 해결책

1. 사전 필터링

너무 쉬운 문제(8번 다 맞히는 것)는 미리 제거
훈련할 가치가 없으니까

2. 중복 샘플링

새로운 데이터를 계속 만드는 대신
같은 배치에서 적당히 어려운 문제들을 복사해서 사용
결과: 2-3배 빨라짐

3. 똑똑한 선별

표준편차가 0인 케이스 제거 (너무 쉽거나 너무 어려운 것)
적당히 어려운 것들만 선택해서 훈련

보상 시스템

형식 점수 (10%): 올바른 형태로 답했는지
답변 점수 (90%): 실제로 정답인지
이렇게 해서 "형식은 맞지만 틀린 답" 같은 꼼수 방지

비유로 설명하자면,

기존 방법: 새로운 문제를 계속 만들어서 풀게 하기 (느림)
DUPO: 적당한 난이도의 문제들을 여러 번 풀게 하기 (빠름)

운동 비유: 운동할 때 새로운 운동을 계속 배우는 것보다, 적당히 어려운 운동을 반복해서 하는 게 더 효율적인 것과 같습니다.

핵심 아이디어: "너무 쉽거나 어려운 문제 대신, 적당히 도전적인 문제를 반복해서 풀게 하면 더 빠르고 효과적으로 학습할 수 있다"

5 Experiments

5.1 Setup

테스트한 모델들

Qwen-2.5 시리즈 (3B, 7B, 32B, 72B)
크기별로 다양하게 테스트

사용한 벤치마크

BrowseComp-en: 영어로 된 매우 어려운 웹 검색 문제
BrowseComp-zh: 중국어 버전
GAIA: 여러 종류의 능력이 필요한 문제들
XbenchDeepSearch: 깊이 있는 정보 검색 문제

비교 대상들(베이스라인)

직접 추론: 검색 없이 내부 지식만으로 답하기
- GPT-4o, QwQ-32B, DeepSeek-R1 등
독점 브라우징 AI: 회사에서 만든 웹 검색 AI
- OpenAI DeepResearch, Grok, Doubao 등
오픈소스 에이전트: 공개된 웹 검색 AI들
- Search-o1, WebThinker, R1-Searcher 등

평가 방법

pass@1: 한 번 시도해서 맞힐 확률
LLM as a judge: AI가 답이 맞는지 판단
하이퍼파라미터: temperature 0.6, top-p 0.95 (창의성과 정확성의 균형)

5.2 Main Results

1. 내부 지식만으론 안 된다

GPT-4.1 같은 최고급 AI도 웹 검색 없이는 거의 0점
복잡한 정보는 인터넷을 직접 검색해야만 찾을 수 있음

2. 추론 모델들은 조금 나음

DeepSeek-R1, o4-mini 같은 추론 특화 모델들이 좀 더 나은 성능
하지만 여전히 웹 검색에는 한계

3. WebSailor가 오픈소스 1등

모든 오픈소스 웹 에이전트 중 최고 성능
놀라운 점: 작은 모델도 큰 모델을 이김
- WebSailor-7B > WebDancer-32B
- 크기가 아니라 훈련 방법이 중요함을 증명

4. 독점 AI와 비슷한 수준 달성

WebSailor-72B ≈ Doubao (중국의 고급 AI)
OpenAI DeepResearch에는 아직 못 미치지만 상당히 근접

성능에서 주목할 만한 점은 다음과 같음

BrowseComp-en에서:
- 기존 오픈소스: 0.1~3.8점
- WebSailor-72B: 12.0점 (3배 이상 향상)
- DeepResearch: 51.5점 (여전히 최고)

특별한 성과

GAIA: 수학 문제가 많아서 상대적으로 낮지만, 순수 정보 검색 부분에서는 여전히 우수
크기 vs 성능: 작은 WebSailor가 큰 기존 모델들을 압도

핵심 메시지: "올바른 훈련 방법이 모델 크기보다 중요하다. WebSailor는 오픈소스로도 독점 AI에 근접한 성능을 낼 수 있음을 증명했다."

5.3 Analysis

1. 훈련 데이터의 복잡성

WebDancer: 대부분 도구를 2번만 사용 (50% 이상) - 너무 쉬움
SailorFog-QA: 5번 이상, 심지어 20번 이상도 많음 - 진짜 어려움
BrowseComp-en: 실제 테스트와 비슷한 분포

결론: WebSailor는 실제 어려운 문제와 비슷한 난이도로 훈련됨

2. 데이터 난이도 검증

정답률 비교:
- WebDancer 데이터: 84-90% (너무 쉬움)
- SailorFog-QA: 39-47% (적당히 어려움)
- BrowseComp-en: 9-26% (매우 어려움)

3. 간단한 문제와의 호환성

SimpleQA (간단한 질문들)에서도 WebSailor가 1등
어려운 문제만 풀도록 훈련했는데도 쉬운 문제도 잘 풀음

4. 강화학습 효과

RL 훈련 후 모든 벤치마크에서 성능 향상
특히 어려운 BrowseComp에서 큰 향상
Pass@1 (한 번에 성공)이 Pass@3 (세 번 중 성공)보다 훨씬 많이 개선됨
의미: 운에 의존하지 않고 안정적으로 성공

5. 콜드 스타트의 중요성

콜드 스타트 O: 기본기 익히고 → RL로 발전
콜드 스타트 X: 처음부터 RL로만 훈련
결과: 콜드 스타트가 있는 게 훨씬 좋음
도구 사용 횟수도 더 많고 안정적

핵심 통찰들:

올바른 난이도: 너무 쉬운 문제로 훈련하면 어려운 문제를 못 풀음
하향 호환성: 어려운 문제로 훈련해도 쉬운 문제는 잘 풀음
RL의 효과: 특히 불안정하고 어려운 문제에서 큰 도움
단계적 학습: 기본기 → 고급 기술 순서가 중요

비유: 마치 수영 선수가 깊은 바다에서 훈련하면 얕은 수영장에서도 잘 헤엄칠 수 있고, 기본기를 먼저 익힌 후 고급 기술을 배우는 것이 효과적인 것과 같습니다.

5.4 Limitations and Future Work

현재 한계점들

1. 길이 제한 문제

32,000 토큰으로 제한해둠 (실용적 이유)
더 복잡한 문제는 이 길이를 넘어설 수 있음
길어질수록 성능이 떨어지는 경향

2. 과도한 사고 (Over-thinking)

간단한 문제에도 여러 단계를 거쳐서 해결
하지만: 이게 꼭 나쁜 건 아님
실제로는 여러 소스로 교차 검증하는 것
더 정확한 답을 얻기 위한 신중함

3. 훈련 속도 한계

RL 훈련이 50단계로 제한됨
동기식 프레임워크라 느림
DUPO로 개선했지만 여전히 병목

향후 개선 계획

1. 비동기 훈련

현재: 동기식 (순서대로 하나씩)
개선: 비동기식 (동시에 여러 개)
결과: 훈련 속도 대폭 향상

2. 더 긴 컨텍스트 지원

더 복잡한 문제 해결 가능
성능 저하 없이 긴 추론 지원

6 Related Work

정보 탐색 벤치마크의 진화

1세대 (쉬운 문제들)

NQ, TriviaQA, HotpotQA 등
구조화된 순서로 검색하면 답을 찾을 수 있음
모델 내부 지식만으로도 해결 가능

2세대 (중간 난이도)

GAIA, Xbench-DeepSearch 등
여러 단계가 필요하지만 여전히 체계적 접근 가능

3세대 (매우 어려운 문제)

BrowseComp-en/zh ← WebSailor가 목표로 하는 수준
정보가 복잡하게 얽혀있고 일부러 애매하게 만듦
비선형적 탐색과 창의적 종합 필요
"초인간적 추론"이 필요한 수준

웹 에이전트 연구 현황

독점 시스템 (비공개)

DeepResearch, Doubao, Grok-3 등
성능은 좋지만 방법을 공개하지 않음
연구 협력에 한계

오픈소스 시스템

WebDancer, WebThinker, R1-Searcher 등
ReAct 프레임워크 사용
간단한 문제는 잘 풀지만 복잡한 문제에서는 한계

훈련 방법의 한계

기존 SFT 방법: 고정된 패턴만 학습, 창의적 적응 어려움
강화학습 방법: 가능성은 있지만 훈련이 불안정하고 비효율적

WebSailor의 차별점: 기존 연구들의 한계를 모두 해결

3세대 수준의 어려운 문제 해결
오픈소스로 독점 시스템 수준 달성
안정적이고 효율적인 훈련 방법 개발

비유:

1세대: 도서관에서 책 한 권 찾기
2세대: 여러 도서관에서 순서대로 정보 찾기
3세대: 미로 같은 정보 바다에서 창의적으로 단서 조합하기

WebSailor는 이 3세대 문제를 오픈소스로 해결한 첫 번째 성공사례입니다.

7 Conclusion

연구의 핵심 발견

오픈소스 웹 AI가 구글, OpenAI 같은 독점 AI보다 못했던 이유를 "불확실성 감소" 관점에서 분석
문제는 훈련 방법에 있었음

WebSailor의 해결책

어려운 문제 만들기 (QA 구성)
대량 데이터 합성 (훈련 데이터)
단계적 학습 (RFT 콜드 스타트)
효율적 강화학습 (DUPO 알고리즘)

달성한 성과

간단한 문제부터 복잡한 문제까지 모두 잘 해결
인간을 뛰어넘는 수준 달성
오픈소스로도 독점 AI에 근접한 성능

핵심 통찰: "에이전트 AI 발전의 열쇠는 더 어렵고 불확실한 문제를 만들어 훈련시키고, 더 효율적인 강화학습을 하는 것"

향후 연구 방향

정보 검색을 넘어서 다른 영역으로 확장
모든 면에서 "초인간적 AI" 만들기
오픈소스 기반으로 계속 발전

저작자표시 비영리 변경금지 (새창열림)

'ML & DL > 논문리뷰' 카테고리의 다른 글

WE-MATH 2.0: A Versatile MathBook System forIncentivizing Visual Mathematical Reasoning (8)	2025.08.17
From News to Forecast: Integrating Event Analysis inLLM-Based Time Series Forecasting with Reflection (10)	2025.08.03
ProtoReasoning: Prototypes as the Foundation forGeneralizable Reasoning in LLMs (3)	2025.06.22
Fast Inference from Transformers via Speculative Decoding (5)	2025.06.15
From Natural Language to SQL: Review ofLLM-based Text-to-SQL Systems (1)	2025.06.08

공부하는 무니

WebSailor: Navigating Super-human Reasoning for Web Agent

Abstract

1 Introduction

2 Problem Definition

3 Large-scale Training Data Synthesis for Complex Reasoning

3.1 SailorFog-QA: Scalable Graph-Synthesized QA

3.2 Reconstructing Reasoning from Expert LRM Trajectories