Learning from Peers in Reasoning Models

원문: https://arxiv.org/pdf/2505.07787

Abstract

배경
- 큰 언어 모델(LRMs)들은 스스로 reasoning(추론)을 하면서 잘못된 부분을 어느 정도 스스로 수정할 수 있는 능력이 있음.
- 그런데 시작 부분(접두(prefix) 부분)이 너무 짧고 부실하게 시작되어 버리면, 그 뒤에 잘못된 방향으로 계속 reasoning이 이어져서 수정하기 어려운 문제가 생긴다. 이를 “Prefix Dominance Trap”이라고 부름.
해결 아이디어: 친구(동료)에게 배우기 (LeaP)
- 심리학 연구를 보면, 다른 사람들과 토론(피어(peer) 상호작용)을 하면 잘못된 아이디어를 스스로 바르게 고치게 되는 경우가 많다고 한다.
- 그래서 연구진은 모델들끼리 “협업”하는 방식으로 이 문제를 풀고자 했고, 그것이 바로 “Learning from Peers(LeaP)” 방식.
어떻게 동작하나요?
- 여러 개의 reasoning 경로(즉, 병렬로 추론하는 여러 모델 or 같은 모델의 여러 버전)가 함께 추론을 진행함.
- 예를 들어 T토큰만큼 추론할 때마다, 각 모델은 자기 나름대로의 추론 진행 상황을 요약해서 “서로에게 공개”(“routing” 메커니즘).
- 다른 모델들은 이 요약(중간 생각 정리)을 참고해서, “내가 놓친 점이 있나?” 하고 다시 추론을 보완함.
- 이렇게 하면, 처음에 조금 잘못된 길로 들어선 모델이라도, 다른 모델들이 잘 찾아낸 아이디어를 보고 스스로를 고칠 수 있게 됨.
작은 모델들은 왜 어려움을 겪나요?
- 작은 모델일수록 “추론 과정을 요약해라”, “다른 모델들이 공유한 내용을 반영해라” 같은 복잡한 지시를 제대로 따르기 어려울 때가 있다.
- 그래서 연구진은 LeaP-T라는 이름으로 작은 모델들을 fine-tuning(추가 학습) 하여, 지시에 잘 따르도록 만들었다.
결과
- AIME 2024, AIME 2025, AIMO 2025, GPQA Diamond 같은 수학/질문 답변 문제에서 실험했는데,
  - QwQ-32B 같은 모델에 LeaP 방식을 적용하면 점수가 기존보다 평균 5점 정도 더 높아졌다.
  - 심지어 훨씬 큰 모델(DeepSeek-R1-671B)보다 성능이 좋게 나온 경우도 있었음.
  - 작은 모델 LeaP-T-7B도, 기존에 더 큰 다른 모델과 비슷한 성능을 내는 등, 눈에 띄는 성과를 보였음.
결론
- LeaP 방식은 여러 모델들이 추론 중간에 서로 대화를 주고받아 부족한 부분을 즉각 수정할 수 있게 돕는 새로운 방법.
- 이 과정을 통해 잘못된 추론도 비교적 쉽게 교정하고, 난이도가 다른 다양한 문제도 잘 풀어낼 수 있었음
- 연구진은 이를 “큰 추론 모델들의 협업(collective reasoning)” 방법의 중요한 단계라고 보고 있음.

정리하자면,

모델이 추론을 시작할 때, 처음이 너무 부실하면 그 뒤로 빠져나오기 어렵다는 문제(“Prefix Dominance Trap”)가 있었음.
이걸 해결하기 위해, 추론하면서 동시에 서로 중간 생각을 공유해서 서로 돕도록 하는 아이디어(LeaP)를 썼더니 훨씬 좋은 성능이 나옴.

1 Introduction

1. 큰 모델(LRMs)은 정말 스스로 잘 고칠까?

큰 추론 모델(LRMs)은 어려운 문제도 스스로 생각하며 잘 해결한다고 알려져 있음
이들이 문제를 풀 때, 잘못된 부분을 스스로 확인하고(self-verification), 더 나은 방법으로 바꾸는(self-refinement) 능력 덕분이라고 함
하지만 최근 연구를 보니, 모델이 가끔 잘못된 길로 들어가면 그 길에서 벗어나지 못하고 오히려 더 틀린 답으로 빠져버리는 경우가 많다고 함

2. Prefix Dominance Trap: 짧은 잘못된 시작이 큰 문제로

연구팀은 이 현상을 정확히 확인하기 위해 특별한 실험을 함.
모델들에게 일부러 아주 짧고 잘못된 시작(prefix)을 주고, 거기서부터 올바른 답을 찾는지 실험
놀랍게도, 모델이 초반에 단지 짧게(15% 길이) 잘못된 길로 들어서도, 전체 성능이 거의 20% 가까이 떨어지는 현상을 발견.
이 현상을 연구팀은 "Prefix Dominance Trap (접두 지배 함정)"이라 부름. 즉, 초반의 작은 실수가 전체 결과를 크게 좌우해버리는 현상

3. 심리학에서 힌트를 얻다: 친구에게 배우기

심리학 연구에서는 친구들과 서로 의견을 나누면서 배울 때, 잘못된 개념을 더 쉽게 고치고 문제를 더 잘 풀 수 있다고 함.
그래서 연구팀은 이런 "친구에게 배우는" 방식을 큰 모델에게 적용해볼 수 있지 않을까 생각함
즉, 모델들이 스스로 혼자만 생각하지 말고, "서로의 중간 생각을 공유하고, 그걸 서로 검토하면 더 잘할 수 있지 않을까?" 하는 아이디어

4. LeaP: 모델들이 서로 협력하게 만들기

이 아이디어를 구현한 것이 "Learning from Peers (LeaP)"
모델이 문제를 풀면서 일정 간격마다(T 토큰마다) 자기의 중간 추론을 짧게 요약해서 다른 모델들에게 전달
그러면 다른 모델들도 이 요약을 참고하여 스스로의 생각을 고칠 기회를 갖는다. 결과적으로 모델들이 서로 도우며 올바른 결론에 도달할 확률이 높아짐

5. LeaP의 효과는?

연구팀은 실제로 Prefix Dominance Trap 조건에서도 LeaP를 사용한 모델들이 그렇지 않은 모델보다 성능이 더 좋다는 것을 발견. (성능 차이를 10% 정도 줄였음)
다른 여러 실험에서도 LeaP 방식으로 모델들이 더 좋은 성능을 보임

6. 작은 모델들의 어려움과 해결책

하지만 작은 모델들은 이런 협력 방식을 바로 쓰기엔 어려움을 겪었다. 왜냐하면, 모델이 "추론 내용을 잘 요약하거나, 친구의 의견을 잘 듣는 것"이 아직 부족했기 때문
그래서 작은 모델들은 "추가로 학습(LeaP-T)"을 해서, 이런 협력 방식을 잘 사용할 수 있도록 훈련을 해줌.
그 결과, 작은 모델들도 큰 모델만큼 좋은 성능을 내는 데 성공.

7. 이 연구의 주요 기여

연구팀이 밝혀낸 것은 다음과 같음

Prefix Dominance Trap이라는 현상을 발견하고 정량적으로 측정하여 문제를 명확히 함.
이를 해결하기 위한 LeaP(모델 간 협력 방식)을 제안했고, 실제로 매우 효과적임을 보임.
협력 방식을 잘 따를 수 있도록 훈련된 작은 모델들도 개발해서 공개함.

2 Enabling Cross-path Interaction in Parallel Inference: LeaP

2.1 Motivation: Prefix Dominance Trap

1. 연구의 목적

큰 추론 모델(LRMs)은 스스로 잘못된 생각을 고치는 능력(self-correction)이 있다고 알려져 있음.
정말 모델들이 스스로 잘 고치는 능력이 뛰어난지 확인하고 싶었음
→ 그래서 특별한 테스트를 만듦.

2. 테스트 방법

연구팀은 다음과 같은 특별한 상황을 설정.
- 문제를 풀 때 처음 시작하는 부분(접두, prefix)을 일부러 틀린 답에서 가져와서 제공.
- 만약 모델이 정말 스스로 잘 고치는 능력이 뛰어나다면, 처음이 틀렸더라도 다시 올바른 방향으로 돌아와서 정답을 잘 찾아내야 함
연구팀은 이 실험을 통해 모델들이 틀린 시작 부분에서 얼마나 잘 회복할 수 있는지 확인.

3. 실험 방법

모델로는 DeepSeek-R1-Distill-Qwen 시리즈와 QwQ-32B를 사용
실험 대상 문제는 수학 문제를 푸는 시험인 AIME 2024 문제
먼저 각 문제마다 32개의 답변을 생성하고, 그중 잘못된 답변 10개를 골라 각각의 처음 15% 부분을 떼어냄.
이 잘못된 시작(prefix)으로부터 다시 각 문제마다 16개의 새로운 답변을 만들어서, 모델이 초반의 잘못된 시작을 스스로 극복하고 얼마나 제대로 문제를 해결하는지 평가.

4. 결과

놀랍게도, 모델들이 초반의 짧은 잘못된 시작(전체 길이의 겨우 15%)을 고치는 데 어려움을 겪었음.
짧은 잘못된 시작을 준 경우와 시작을 주지 않고 자유롭게 문제를 풀게 한 경우를 비교했을 때, 성능이 무려 20% 가까이 떨어짐.
이는 큰 모델들이 초반에 조금만 잘못된 길로 들어서도 그것을 쉽게 고치지 못한다는 것을 의미.

5. 결론: Prefix Dominance Trap

연구팀은 이런 현상을 "Prefix Dominance Trap (접두 지배 함정)"이라고 이름 붙임
즉, 초반의 잘못된 방향이 모델의 전체 성능을 매우 크게 좌우해서, 스스로 수정하는 능력이 제한적이라는 점을 나타냄.

2.2 Methodology: Cross-path Interaction in Parallel Inference

Prefix Dominance Trap 문제를 해결하기 위해 모델 간 reasoning 정보를 공유하는 LeaP 방법을 제안했다.
LeaP는 reasoning 과정 중간마다 각 모델이 요약된 중간 결론을 공유하고, 이를 통해 서로의 reasoning을 개선할 수 있도록 한다.
LeaP는 두 단계로 구성:
1. Summarization 단계: 각 모델이 자신의 reasoning을 간략히 요약 (최대 256 토큰).
2. Routing 단계: 각 모델은 다른 모델의 요약 중에서 일부만 받아 참고하며, 라우팅 방식에는 분산, 클러스터, 하이브리드 3가지 방식이 있다.
- 분산 라우팅: 자신과 가장 다른 요약을 선택하여 다양한 시각을 제공.
- 클러스터 라우팅: 자신과 유사한 요약을 선택하여 reasoning을 강화.
- 하이브리드 라우팅: 두 방식을 혼합하여 유사 및 비유사 요약을 균형 있게 수용.
요약 간의 유사성은 Levenshtein 거리로 계산된다.

2.3 Can LeaP help in “Prefix Dominance Trap”?

"Prefix Dominance Trap" 상황에서 LeaP가 효과적인지 실험적으로 검증함.
AIME 2024 데이터셋에서 LeaP를 적용한 결과, 모든 모델의 성능 격차가 줄었음.
예를 들어, DeepSeek-Distill-Qwen-14B의 성능 격차가 LeaP 사용 후 19.88%에서 7.81%로 감소함.
이를 통해 LeaP가 초반 잘못된 reasoning을 교정하는 데 큰 도움을 준다는 것을 증명함.

3 Comprehensive Evaluation of LeaP

3.1 Evaluation Setup

벤치마크:
- 수학 문제: AIME 2024, AIME 2025, AIMO 2025
- 고급 지식 문제: GPQA Diamond (물리학, 화학, 생물학 등 고난도 지식 평가)
모델 및 설정:
- 모델: DeepSeek-R1-Distill-Qwen (7B, 14B), QwQ-32B 사용
- 평가 방식: Pass@1(개별 응답 정확도), Cons@N(N개 응답의 다수결로 평가) 사용
하이퍼파라미터:
- 토큰 샘플링: temperature=0.6, Top-p=0.95, Top-k=40
- 최대 토큰: 7B, 14B는 16,384 토큰 / 32B는 32,768 토큰 사용

3.2 Results

LeaP를 사용한 모델들이 baseline 대비 전반적으로 높은 성능을 보였음.
특히 QwQ-32B 모델은 일부 math 데이터셋에서 큰 모델인 DeepSeek-R1-671B를 능가하는 결과를 보였음.
라우팅 전략 중 분산(Dispersed)과 하이브리드(Hybrid)가 클러스터(Clustered) 방식보다 우수했음.
LeaP는 "aha moment"(갑자기 깨닫는 순간)가 baseline 대비 적게 나타나서, reasoning 과정에서 불필요한 고민을 줄였음을 시사함.

4 Empowering LeaP with Further Training Adaptation: LeaP-T

4.1 Experimental Setup

작은 모델이 LeaP 방식을 더 잘 따르도록 추가적으로 fine-tuning하여 LeaP-T 모델을 만듦.
훈련 데이터: 과거의 약 1,000개 AIME 문제를 LeaP로 처리해 적합한 데이터를 생성.
모델 크기: 1.5B, 7B, 14B LeaP-T 모델 시리즈 훈련.

4.2 Results

LeaP-T 모델은 작은 크기임에도 baseline과 비교해 크게 향상된 성능을 보였음.
특히 LeaP-T-7B는 더 큰 모델인 DeepSeek-R1-Distill-Qwen-14B에 필적하는 성능을 달성함.
추가 학습을 통해 작은 모델도 LeaP의 복잡한 reasoning 공유 및 반영 지시를 성공적으로 수행할 수 있게 됨.

5 In-depth Analysis of LeaP

5.1 Sensitivity Analysis of Communication

통신 간격(T), 통신량(k), 통신 시점 등 다양한 요인을 분석.
통신 간격이 작을수록 성능은 좋지만 더 많은 토큰 소모.
최적의 통신량(k)은 너무 많거나 적을 때 성능이 떨어지며, 최적점(Top-4)이 존재함.
초기 reasoning 단계에서 LeaP가 특히 효과적이며, 후반 단계의 효과는 감소함.

5.2 Post-hoc Robustness Analysis of LeaP

오류 내성: LeaP는 reasoning 시작이 대부분 틀려도 효과적으로 교정이 가능함. 심지어 초반 reasoning이 0% 맞아도 LeaP는 성능 향상을 보임.
난이도 별 견고성: 쉬운 문제부터 매우 어려운 문제까지 전반적으로 LeaP가 성능을 높임. 특히 baseline이 완전히 실패한 매우 어려운 문제에서도 일부 정답을 찾을 수 있게 됨.

5.3 Human Verification on LeaP

사람의 평가를 통해 LeaP의 reasoning 과정 변화를 분석.
LeaP를 적용하면, 원래 틀렸던 reasoning 경로들이 peer의 정보를 통해 교정되어 최종적으로 맞는 답으로 바뀌는 사례가 많았음.
이미 맞은 reasoning을 틀리게 하는 사례는 없었으며, LeaP가 안전하고 효과적인 교정 도구임을 입증함.

6 Related Work

6.1 Self-Correction Bottleneck

기존 연구에서도 LRM의 reasoning 길이가 늘어난다고 무조건 성능이 향상되지 않으며, 특정 reasoning 경로에 갇히는 문제가 있음을 지적함.
본 논문은 이러한 문제를 재확인하고 이를 LeaP 방식으로 해결한 사례를 제시함.

6.2 (Interactive) Parallel Inference in LLMs

기존의 병렬 추론 방법론(Self-Consistency, Best-of-N) 및 여러 에이전트 간 협력적 추론 방식(Multi-agent debate, MoA 등)을 검토.
LeaP는 기존 협력적 방식보다 더 세밀한 reasoning 정보 교환 및 통합을 지원하여 더 나은 성능을 얻었음.

7 Conclusion and Future Work

논문에서는 LRM의 self-correction 한계를 "Prefix Dominance Trap" 현상으로 제시하고, LeaP 방식을 통해 해결함.
LeaP는 모델들 간 reasoning 중간 결과를 교환하여 reasoning 능력을 크게 향상시켰으며, 작은 모델도 추가 학습(LeaP-T)을 통해 높은 성능을 보임.
향후 연구 방향으로 다음을 제안함:
1. 강화 학습(Reinforcement Learning)에 LeaP 확장: 모델 간 협력 학습을 강화 학습에 적용해 더 복잡한 문제 해결 가능성을 제시.
2. 다양한 전문성을 가진 모델 간 협력: 서로 다른 도구(Python, 웹 검색 등)를 활용하는 모델 간 협력을 통해 다방면에서 더 높은 reasoning 능력을 확보할 수 있을 것으로 기대함.

저작자표시 비영리 변경금지 (새창열림)

'ML & DL > 논문리뷰' 카테고리의 다른 글

From Natural Language to SQL: Review ofLLM-based Text-to-SQL Systems (1)	2025.06.08
LLaDA-V: Large Language Diffusion Models withVisual Instruction Tuning (2)	2025.05.25
LegoGPT: Generating Physically Stable and Buildable LEGO® Designs from Text (1)	2025.05.11
SPARSE AUTOENCODERS FIND HIGHLY INTERPRETABLE FEATURES IN LANGUAGE MODELS (0)	2025.05.04
AUDITING LANGUAGE MODELSFOR HIDDEN OBJECTIVES (1)	2025.04.20

공부하는 무니

Learning from Peers in Reasoning Models

Abstract

1 Introduction