본문 바로가기
ML & DL/논문리뷰

Learning from Peers in Reasoning Models

by 공부하는 무니 2025. 5. 18.
반응형

원문: https://arxiv.org/pdf/2505.07787

 

Abstract

  1. 배경
    • 큰 언어 모델(LRMs)들은 스스로 reasoning(추론)을 하면서 잘못된 부분을 어느 정도 스스로 수정할 수 있는 능력이 있음.
    • 그런데 시작 부분(접두(prefix) 부분)이 너무 짧고 부실하게 시작되어 버리면, 그 뒤에 잘못된 방향으로 계속 reasoning이 이어져서 수정하기 어려운 문제가 생긴다. 이를 “Prefix Dominance Trap”이라고 부름.
  2. 해결 아이디어: 친구(동료)에게 배우기 (LeaP)
    • 심리학 연구를 보면, 다른 사람들과 토론(피어(peer) 상호작용)을 하면 잘못된 아이디어를 스스로 바르게 고치게 되는 경우가 많다고 한다.
    • 그래서 연구진은 모델들끼리 “협업”하는 방식으로 이 문제를 풀고자 했고, 그것이 바로 “Learning from Peers(LeaP)” 방식.
  3. 어떻게 동작하나요?
    • 여러 개의 reasoning 경로(즉, 병렬로 추론하는 여러 모델 or 같은 모델의 여러 버전)가 함께 추론을 진행함.
    • 예를 들어 T토큰만큼 추론할 때마다, 각 모델은 자기 나름대로의 추론 진행 상황을 요약해서 “서로에게 공개”(“routing” 메커니즘).
    • 다른 모델들은 이 요약(중간 생각 정리)을 참고해서, “내가 놓친 점이 있나?” 하고 다시 추론을 보완함.
    • 이렇게 하면, 처음에 조금 잘못된 길로 들어선 모델이라도, 다른 모델들이 잘 찾아낸 아이디어를 보고 스스로를 고칠 수 있게 됨.
  4. 작은 모델들은 왜 어려움을 겪나요?
    • 작은 모델일수록 “추론 과정을 요약해라”, “다른 모델들이 공유한 내용을 반영해라” 같은 복잡한 지시를 제대로 따르기 어려울 때가 있다.
    • 그래서 연구진은 LeaP-T라는 이름으로 작은 모델들을 fine-tuning(추가 학습) 하여, 지시에 잘 따르도록 만들었다.
  5. 결과
    • AIME 2024, AIME 2025, AIMO 2025, GPQA Diamond 같은 수학/질문 답변 문제에서 실험했는데,
      • QwQ-32B 같은 모델에 LeaP 방식을 적용하면 점수가 기존보다 평균 5점 정도 더 높아졌다.
      • 심지어 훨씬 큰 모델(DeepSeek-R1-671B)보다 성능이 좋게 나온 경우도 있었음.
      • 작은 모델 LeaP-T-7B도, 기존에 더 큰 다른 모델과 비슷한 성능을 내는 등, 눈에 띄는 성과를 보였음.
  6. 결론
    • LeaP 방식은 여러 모델들이 추론 중간에 서로 대화를 주고받아 부족한 부분을 즉각 수정할 수 있게 돕는 새로운 방법.
    • 이 과정을 통해 잘못된 추론도 비교적 쉽게 교정하고, 난이도가 다른 다양한 문제도 잘 풀어낼 수 있었음
    • 연구진은 이를 “큰 추론 모델들의 협업(collective reasoning)” 방법의 중요한 단계라고 보고 있음.

정리하자면,

  • 모델이 추론을 시작할 때, 처음이 너무 부실하면 그 뒤로 빠져나오기 어렵다는 문제(“Prefix Dominance Trap”)가 있었음.
  • 이걸 해결하기 위해, 추론하면서 동시에 서로 중간 생각을 공유해서 서로 돕도록 하는 아이디어(LeaP)를 썼더니 훨씬 좋은 성능이 나옴.

1 Introduction

1. 큰 모델(LRMs)은 정말 스스로 잘 고칠까?

  • 큰 추론 모델(LRMs)은 어려운 문제도 스스로 생각하며 잘 해결한다고 알려져 있음
  • 이들이 문제를 풀 때, 잘못된 부분을 스스로 확인하고(self-verification), 더 나은 방법으로 바꾸는(self-refinement) 능력 덕분이라고 함
  • 하지만 최근 연구를 보니, 모델이 가끔 잘못된 길로 들어가면 그 길에서 벗어나지 못하고 오히려 더 틀린 답으로 빠져버리는 경우가 많다고 함

2. Prefix Dominance Trap: 짧은 잘못된 시작이 큰 문제로

  • 연구팀은 이 현상을 정확히 확인하기 위해 특별한 실험을 함.
  • 모델들에게 일부러 아주 짧고 잘못된 시작(prefix)을 주고, 거기서부터 올바른 답을 찾는지 실험
  • 놀랍게도, 모델이 초반에 단지 짧게(15% 길이) 잘못된 길로 들어서도, 전체 성능이 거의 20% 가까이 떨어지는 현상을 발견.
  • 이 현상을 연구팀은 "Prefix Dominance Trap (접두 지배 함정)"이라 부름. 즉, 초반의 작은 실수가 전체 결과를 크게 좌우해버리는 현상

3. 심리학에서 힌트를 얻다: 친구에게 배우기

  • 심리학 연구에서는 친구들과 서로 의견을 나누면서 배울 때, 잘못된 개념을 더 쉽게 고치고 문제를 더 잘 풀 수 있다고 함.
  • 그래서 연구팀은 이런 "친구에게 배우는" 방식을 큰 모델에게 적용해볼 수 있지 않을까 생각함
  • 즉, 모델들이 스스로 혼자만 생각하지 말고, "서로의 중간 생각을 공유하고, 그걸 서로 검토하면 더 잘할 수 있지 않을까?" 하는 아이디어

4. LeaP: 모델들이 서로 협력하게 만들기

  • 이 아이디어를 구현한 것이 "Learning from Peers (LeaP)"
  • 모델이 문제를 풀면서 일정 간격마다(T 토큰마다) 자기의 중간 추론을 짧게 요약해서 다른 모델들에게 전달
  • 그러면 다른 모델들도 이 요약을 참고하여 스스로의 생각을 고칠 기회를 갖는다. 결과적으로 모델들이 서로 도우며 올바른 결론에 도달할 확률이 높아짐

5. LeaP의 효과는?

  • 연구팀은 실제로 Prefix Dominance Trap 조건에서도 LeaP를 사용한 모델들이 그렇지 않은 모델보다 성능이 더 좋다는 것을 발견. (성능 차이를 10% 정도 줄였음)
  • 다른 여러 실험에서도 LeaP 방식으로 모델들이 더 좋은 성능을 보임

6. 작은 모델들의 어려움과 해결책

  • 하지만 작은 모델들은 이런 협력 방식을 바로 쓰기엔 어려움을 겪었다. 왜냐하면, 모델이 "추론 내용을 잘 요약하거나, 친구의 의견을 잘 듣는 것"이 아직 부족했기 때문
  • 그래서 작은 모델들은 "추가로 학습(LeaP-T)"을 해서, 이런 협력 방식을 잘 사용할 수 있도록 훈련을 해줌.
  • 그 결과, 작은 모델들도 큰 모델만큼 좋은 성능을 내는 데 성공.

7. 이 연구의 주요 기여 

연구팀이 밝혀낸 것은 다음과 같음

  • Prefix Dominance Trap이라는 현상을 발견하고 정량적으로 측정하여 문제를 명확히 함.
  • 이를 해결하기 위한 LeaP(모델 간 협력 방식)을 제안했고, 실제로 매우 효과적임을 보임.
  • 협력 방식을 잘 따를 수 있도록 훈련된 작은 모델들도 개발해서 공개함.

2 Enabling Cross-path Interaction in Parallel Inference: LeaP

2.1 Motivation: Prefix Dominance Trap

1. 연구의 목적

  • 큰 추론 모델(LRMs)은 스스로 잘못된 생각을 고치는 능력(self-correction)이 있다고 알려져 있음.
  • 정말 모델들이 스스로 잘 고치는 능력이 뛰어난지 확인하고 싶었음
    → 그래서 특별한 테스트를 만듦.

2. 테스트 방법

  • 연구팀은 다음과 같은 특별한 상황을 설정.
    • 문제를 풀 때 처음 시작하는 부분(접두, prefix)을 일부러 틀린 답에서 가져와서 제공.
    • 만약 모델이 정말 스스로 잘 고치는 능력이 뛰어나다면, 처음이 틀렸더라도 다시 올바른 방향으로 돌아와서 정답을 잘 찾아내야 함
  • 연구팀은 이 실험을 통해 모델들이 틀린 시작 부분에서 얼마나 잘 회복할 수 있는지 확인.

3. 실험 방법 

  • 모델로는 DeepSeek-R1-Distill-Qwen 시리즈QwQ-32B를 사용
  • 실험 대상 문제는 수학 문제를 푸는 시험인 AIME 2024 문제
  • 먼저 각 문제마다 32개의 답변을 생성하고, 그중 잘못된 답변 10개를 골라 각각의 처음 15% 부분을 떼어냄.
  • 이 잘못된 시작(prefix)으로부터 다시 각 문제마다 16개의 새로운 답변을 만들어서, 모델이 초반의 잘못된 시작을 스스로 극복하고 얼마나 제대로 문제를 해결하는지 평가.

4. 결과

  • 놀랍게도, 모델들이 초반의 짧은 잘못된 시작(전체 길이의 겨우 15%)을 고치는 데 어려움을 겪었음.
  • 짧은 잘못된 시작을 준 경우와 시작을 주지 않고 자유롭게 문제를 풀게 한 경우를 비교했을 때, 성능이 무려 20% 가까이 떨어짐.
  • 이는 큰 모델들이 초반에 조금만 잘못된 길로 들어서도 그것을 쉽게 고치지 못한다는 것을 의미.

5. 결론: Prefix Dominance Trap

  • 연구팀은 이런 현상을 "Prefix Dominance Trap (접두 지배 함정)"이라고 이름 붙임
  • 즉, 초반의 잘못된 방향이 모델의 전체 성능을 매우 크게 좌우해서, 스스로 수정하는 능력이 제한적이라는 점을 나타냄.

2.2 Methodology: Cross-path Interaction in Parallel Inference

 

  • Prefix Dominance Trap 문제를 해결하기 위해 모델 간 reasoning 정보를 공유하는 LeaP 방법을 제안했다.
  • LeaP는 reasoning 과정 중간마다 각 모델이 요약된 중간 결론을 공유하고, 이를 통해 서로의 reasoning을 개선할 수 있도록 한다.
  • LeaP는 두 단계로 구성:
    1. Summarization 단계: 각 모델이 자신의 reasoning을 간략히 요약 (최대 256 토큰).
    2. Routing 단계: 각 모델은 다른 모델의 요약 중에서 일부만 받아 참고하며, 라우팅 방식에는 분산, 클러스터, 하이브리드 3가지 방식이 있다.
    • 분산 라우팅: 자신과 가장 다른 요약을 선택하여 다양한 시각을 제공.
    • 클러스터 라우팅: 자신과 유사한 요약을 선택하여 reasoning을 강화.
    • 하이브리드 라우팅: 두 방식을 혼합하여 유사 및 비유사 요약을 균형 있게 수용.
  • 요약 간의 유사성은 Levenshtein 거리로 계산된다.

2.3 Can LeaP help in “Prefix Dominance Trap”?

  • "Prefix Dominance Trap" 상황에서 LeaP가 효과적인지 실험적으로 검증함.
  • AIME 2024 데이터셋에서 LeaP를 적용한 결과, 모든 모델의 성능 격차가 줄었음.
  • 예를 들어, DeepSeek-Distill-Qwen-14B의 성능 격차가 LeaP 사용 후 19.88%에서 7.81%로 감소함.
  • 이를 통해 LeaP가 초반 잘못된 reasoning을 교정하는 데 큰 도움을 준다는 것을 증명함.

3 Comprehensive Evaluation of LeaP

3.1 Evaluation Setup

  • 벤치마크:
    • 수학 문제: AIME 2024, AIME 2025, AIMO 2025
    • 고급 지식 문제: GPQA Diamond (물리학, 화학, 생물학 등 고난도 지식 평가)
  • 모델 및 설정:
    • 모델: DeepSeek-R1-Distill-Qwen (7B, 14B), QwQ-32B 사용
    • 평가 방식: Pass@1(개별 응답 정확도), Cons@N(N개 응답의 다수결로 평가) 사용
  • 하이퍼파라미터:
    • 토큰 샘플링: temperature=0.6, Top-p=0.95, Top-k=40
    • 최대 토큰: 7B, 14B는 16,384 토큰 / 32B는 32,768 토큰 사용

3.2 Results

  • LeaP를 사용한 모델들이 baseline 대비 전반적으로 높은 성능을 보였음.
  • 특히 QwQ-32B 모델은 일부 math 데이터셋에서 큰 모델인 DeepSeek-R1-671B를 능가하는 결과를 보였음.
  • 라우팅 전략 중 분산(Dispersed)과 하이브리드(Hybrid)가 클러스터(Clustered) 방식보다 우수했음.
  • LeaP는 "aha moment"(갑자기 깨닫는 순간)가 baseline 대비 적게 나타나서, reasoning 과정에서 불필요한 고민을 줄였음을 시사함.

4 Empowering LeaP with Further Training Adaptation: LeaP-T

4.1 Experimental Setup

  • 작은 모델이 LeaP 방식을 더 잘 따르도록 추가적으로 fine-tuning하여 LeaP-T 모델을 만듦.
  • 훈련 데이터: 과거의 약 1,000개 AIME 문제를 LeaP로 처리해 적합한 데이터를 생성.
  • 모델 크기: 1.5B, 7B, 14B LeaP-T 모델 시리즈 훈련.

4.2 Results

  • LeaP-T 모델은 작은 크기임에도 baseline과 비교해 크게 향상된 성능을 보였음.
  • 특히 LeaP-T-7B는 더 큰 모델인 DeepSeek-R1-Distill-Qwen-14B에 필적하는 성능을 달성함.
  • 추가 학습을 통해 작은 모델도 LeaP의 복잡한 reasoning 공유 및 반영 지시를 성공적으로 수행할 수 있게 됨.

5 In-depth Analysis of LeaP

5.1 Sensitivity Analysis of Communication

  • 통신 간격(T), 통신량(k), 통신 시점 등 다양한 요인을 분석.
  • 통신 간격이 작을수록 성능은 좋지만 더 많은 토큰 소모.
  • 최적의 통신량(k)은 너무 많거나 적을 때 성능이 떨어지며, 최적점(Top-4)이 존재함.
  • 초기 reasoning 단계에서 LeaP가 특히 효과적이며, 후반 단계의 효과는 감소함.

5.2 Post-hoc Robustness Analysis of LeaP

  • 오류 내성: LeaP는 reasoning 시작이 대부분 틀려도 효과적으로 교정이 가능함. 심지어 초반 reasoning이 0% 맞아도 LeaP는 성능 향상을 보임.
  • 난이도 별 견고성: 쉬운 문제부터 매우 어려운 문제까지 전반적으로 LeaP가 성능을 높임. 특히 baseline이 완전히 실패한 매우 어려운 문제에서도 일부 정답을 찾을 수 있게 됨.

5.3 Human Verification on LeaP

  • 사람의 평가를 통해 LeaP의 reasoning 과정 변화를 분석.
  • LeaP를 적용하면, 원래 틀렸던 reasoning 경로들이 peer의 정보를 통해 교정되어 최종적으로 맞는 답으로 바뀌는 사례가 많았음.
  • 이미 맞은 reasoning을 틀리게 하는 사례는 없었으며, LeaP가 안전하고 효과적인 교정 도구임을 입증함.

6 Related Work

6.1 Self-Correction Bottleneck

  • 기존 연구에서도 LRM의 reasoning 길이가 늘어난다고 무조건 성능이 향상되지 않으며, 특정 reasoning 경로에 갇히는 문제가 있음을 지적함.
  • 본 논문은 이러한 문제를 재확인하고 이를 LeaP 방식으로 해결한 사례를 제시함.

6.2 (Interactive) Parallel Inference in LLMs

  • 기존의 병렬 추론 방법론(Self-Consistency, Best-of-N) 및 여러 에이전트 간 협력적 추론 방식(Multi-agent debate, MoA 등)을 검토.
  • LeaP는 기존 협력적 방식보다 더 세밀한 reasoning 정보 교환 및 통합을 지원하여 더 나은 성능을 얻었음.

7 Conclusion and Future Work

  • 논문에서는 LRM의 self-correction 한계를 "Prefix Dominance Trap" 현상으로 제시하고, LeaP 방식을 통해 해결함.
  • LeaP는 모델들 간 reasoning 중간 결과를 교환하여 reasoning 능력을 크게 향상시켰으며, 작은 모델도 추가 학습(LeaP-T)을 통해 높은 성능을 보임.
  • 향후 연구 방향으로 다음을 제안함:
    1. 강화 학습(Reinforcement Learning)에 LeaP 확장: 모델 간 협력 학습을 강화 학습에 적용해 더 복잡한 문제 해결 가능성을 제시.
    2. 다양한 전문성을 가진 모델 간 협력: 서로 다른 도구(Python, 웹 검색 등)를 활용하는 모델 간 협력을 통해 다방면에서 더 높은 reasoning 능력을 확보할 수 있을 것으로 기대함.
반응형

댓글