Critique Fine-Tuning:Learning to Critique is More Effective than Learning to Imitate

원문: https://arxiv.org/pdf/2501.17703

Abstract

기존의 Supervised Fine-Tuning(SFT)은 모델이 주어진 주석 응답을 그대로 모방하도록 훈련합니다.

본 논문은 Critique Fine-Tuning(CFT)을 제안하여, 모델이 노이즈가 포함된 응답에 대해 비판을 수행하도록 학습시킵니다.

CFT는 인간의 비판적 사고를 모방하여 보다 깊은 분석과 미묘한 이해를 유도합니다.

WebInstruct 데이터셋 50K 샘플을 사용해 GPT-4o가 생성한 비판을 기반으로 학습하며, 수학 관련 벤치마크에서 SFT 대비 4–10% 향상된 성능을 보였습니다.

또한, Qwen2.5-Math-CFT 모델은 단 1시간의 훈련으로 2M 샘플 기반의 경쟁 모델과 동등하거나 더 나은 성능을 달성하며, ablation 실험을 통해 CFT가 다양한 상황에서도 견고함을 입증했습니다.

1. Introduction

최근 대형 언어 모델(LLM)은 Supervised Fine-Tuning(SFT)을 통해 자연어 지시에 따라 주석이 달린 응답을 모방하며 뛰어난 성능을 보이고 있습니다. 하지만, 강력한 사전학습 모델에 SFT를 적용할 경우, 데이터셋의 크기와 품질이 높아져도 오히려 성능이 저하되는 한계가 나타났습니다.

이에 본 논문은 기존의 단순 모방 학습 대신, 노이즈가 섞인 응답에 대해 모델이 스스로 비판(critique)을 수행하도록 하는 Critique Fine-Tuning(CFT) 기법을 제안합니다. CFT는 인간의 학습 방식에서 비판적 사고와 피드백을 모방하여, 응답의 오류를 분석하고 개선점을 제시하며 정답 여부를 검증하는 방향으로 모델을 훈련시킵니다. 구체적으로, 질문과 응답 쌍에 대해 주석이 달린 비판을 생성하도록 모델을 학습시킵니다.

실험을 위해 WebInstruct 데이터셋에서 50K 샘플의 비판 데이터를 구축하고, 이를 기반으로 DeepSeekMath-base, Qwen2.5, Qwen2.5-Math와 같은 7B 모델에 CFT를 적용했습니다. 그 결과, CFT를 적용한 모델들은 수학 및 STEM 분야의 다양한 벤치마크에서 기존 SFT 방식보다 평균 4~10 포인트 높은 성능을 보였습니다. 또한, ablation 실험을 통해 데이터셋 소스, 노이즈 응답의 출처, 그리고 교사 비판 모델에 대해 CFT가 견고함을 확인했습니다.

다만, 현재 CFT 방식은 GPT-4o가 생성한 비판 데이터셋에 일부 오류(최소 20% 정도)가 포함되어 있고, 모델이 자기 비판 능력을 갖추지 못한 점 등 개선할 여지가 있음을 지적합니다.

2. Method & Dataset

2.1. WebInstruct

다양한 주제:
WebInstruct는 수학(65%), 물리(8%), 화학(4%), 비즈니스(10%), 인문학(4%) 등 다양한 주제를 다룹니다.

노이즈 포함:
대형 언어 모델을 이용해 응답을 추출 및 정제했지만, 검증이나 품질 관리가 부족하여 노이즈가 많이 포함될 수 있습니다.

부분집합 구성:

WebInstruct-SFT: 원본 데이터에서 직접 샘플링한 50K 예제 (높은 오류율 포함).

WebInstruct-verified: GPT-4o-1120으로 검증한 상위 50K 예제.
WebInstruct-GPT-4o: 질문은 그대로 사용하고 응답은 GPT-4o-1120이 생성한 50K 예제.
WebInstruct-CFT (Ours): GPT-4o-1120이 원본 응답에 대해 상세한 비판을 제공한 50K 예제 (약 56%는 정답으로 판단).
WebInstruct-CFT-Tiny (Ours): 32B 모델 훈련용으로 구성된 4K 예제 축소판.

2.2. MetaMath & NuminaMath

비판 데이터 합성: MetaMathQA와 NuminaMath 데이터셋에서도 각각 50K 예제를 무작위 샘플링한 후, GPT-4o를 사용해 원본 응답에 대한 비판을 생성했습니다.
일반성 검증: 이를 통해 CFT 접근법이 다양한 데이터셋에서도 효과적임을 입증하였습니다.

2.3. Training Objective

학습 목표: 질문 x와 노이즈 응답 y를 결합한 입력에 대해, 모델이 해당 쌍에 대한 비판 c를 생성하도록 훈련합니다.
손실 함수 식:

여기서 θ는 언어 모델의 파라미터를 의미

3. Experiments

3.1. Experimental Setup

평가 데이터셋

표준 수학 추론 벤치마크 (MATH, Minerva-Math, GSM8K)와 대회 수준 수학 (AIME 2024, AMC 2023, OlympiadBench)을 사용.

STEM 전반(정리 이해, 물리, 화학 등)을 평가하기 위해 TheoremQA, MMLU-Pro, GPQA도 포함.

훈련 세부 사항

SFT: 원본 노이즈 응답, GPT-4o 검증 응답, GPT-4o 생성 응답 등 세 가지 설정.

CFT: 섹션 2에서 구성한 CFT 데이터셋 사용.

일관된 하이퍼파라미터(러닝레이트 5e-6, 배치 사이즈 512 등) 적용.

3.2. Main Results (CFT vs. SFT)

베이스 모델 성능

세 가지 7B 모델(DeepSeek-Math-7B, Qwen2.5-7B, Qwen2.5-Math-7B)에서 CFT가 SFT 대비 평균 4~10% 향상.

특히, Qwen2.5-Math-7B는 기본 37.8%에서 CFT 적용 후 57.1% 달성.

Training Dynamics

CFT는 빠른 수렴(약 30 스텝)과 전체 훈련 동안 높은 정확도(예: MATH 80%, Minerva-Math 40%)를 보임.

3.3. More Results (CFT Models vs. Existing Models)

7B CFT 모델

Qwen2.5-Math-7B-CFT는 평균 48.1%의 성능을 기록하며, DeepSeek-Math-7B-Instruct, Mathstral-7B, NuminaMath-7B-CoT 등 기존 모델들을 크게 능가.

단 50K 샘플의 훈련 데이터로, 수백만 샘플을 사용한 모델들과 경쟁 가능.

32B CFT 모델

Qwen2.5-32B-Instruct-CFT는 단 4K 샘플로 최적 성능을 달성하여, 데이터 효율성이 우수함.

GPQA, TheoremQA, AMC23 등에서 Sky-T1-32B-Preview보다 높은 성능을 보임.

3.4. Comparison with RL-based Method

비교 대상

강화 학습 기반의 SimpleRL (순수 RL 및 Distill+RL)을 비교.

결과

SimpleRL은 32xH100 GPU로 1.5일 훈련하는 반면, CFT는 8xH100 GPU로 1시간 훈련.

여러 벤치마크에서 CFT가 SimpleRL과 동일하거나 더 나은 성능을 보임.

특히 AMC23, Minerva-Math에서 CFT가 우수한 결과를 기록.

3.5. Ablation Studies

데이터셋 소스

SFT에서는 MetaMathQA와 NuminaMath가 더 좋은 성능을 보였으나, CFT에서는 WebInstruct가 최고 성능(57.1%)을 달성.

이는 CFT가 단순 데이터 품질 외에도 잘못된 솔루션을 비판하는 학습을 통해 강력한 추론 능력을 개발함을 시사.

응답 소스

Qwen2.5-Math-7B가 자체 생성한 솔루션과 WebInstruct 원본 솔루션 간에 큰 차이 없이 유사한 성능을 보임 (특히, Minerva-Math에서 9.2% 향상).

교사 비판 모델(Teacher Critique Model)

GPT-4o-mini도 효과적이나, 더 강력한 GPT-4o-1120 사용 시 모든 벤치마크에서 성능이 더욱 향상됨 (예: 평균 57.1%, GSM8K에서 6.4%, OlympiadBench에서 6.5% 증가)

4. Limitations

4.1. The Noisy Critique Data

검토 결과

WebInstruct에서 GPT-4o-1120이 생성한 50개의 비판 사례 중 약 20%에 오류나 부정확한 피드백이 포함됨.

오류 유형

올바른 단계가 잘못 오류로 판단됨

중요한 실수를 간과함

부정확한 수학적 설명 제공

개선 방향

신뢰할 수 있고 검증 가능한 비판 데이터를 활용하여 CFT 성능 향상 가능

자동 검증 방법(정식 수학 검증 도구나 전문가 모델과의 교차 검증) 개발 필요

인적 검증 데이터셋 구축(비용은 많이 들지만 금본위 역할 가능)

4.2. Limitations of Self-Critique

실험 결과

단일 패스 및 이단계 자기 비판 모두 직접 추론(temperature 0.0)보다 낮은 성능을 보임

온도가 높아질수록 성능 저하 현상이 나타남

주요 문제점

일관된 평가 기준 유지 실패: 실제 오류를 놓치거나 올바른 해결책을 잘못 오류로 판단

높은 온도 사용 시 모델 추론 과정의 불안정성 발생

최종 결정

자기 비판 메커니즘 대신, 직접 추론 방식을 사용하여 최종 CFT를 구현

6. Conclusion

새로운 패러다임 제안
CFT는 기존 SFT가 단순 응답 모방에 집중하는 것과 달리, 모델에게 응답을 비판하고 분석하도록 학습시켜 비판적 사고를 강화합니다.

우수한 성능

다양한 실험에서 수학적 추론 작업에서 SFT보다 4-10% 높은 성능을 보임

50K 샘플만 사용하여 2M+ 샘플을 사용하는 기존 방법을 능가함

효율성

단 8 H100 GPU 시간의 훈련으로 강화 학습 방식(예: DeepSeek-R1, 140배 많은 계산 자원 필요)과 동등한 성능 달성

확장성

수학적 추론뿐 아니라 GPQA, TheoremQA 등 다양한 STEM 분야에서 우수한 성능 발휘

전통적인 지시 튜닝 없이도 모델이 효과적으로 지시를 따름

미래 방향

CFT와 SFT, RL 등의 결합, 다중 모달 확장, 이론적 기반 조사 등 향후 연구를 통한 언어 모델 능력 개선 가능

저작자표시 비영리 변경금지 (새창열림)

'ML & DL > 논문리뷰' 카테고리의 다른 글

MLGym: A New Framework and Benchmarkfor Advancing AI Research Agents (0)	2025.02.23
Text2SQL is Not Enough: Unifying AI and Databases with TAG (0)	2025.02.09
SRMT: SHARED MEMORY FOR MULTI-AGENT LIFE-LONG PATHFINDING (0)	2025.01.26
TALK LIKE A GRAPH: ENCODING GRAPHS FORLARGE LANGUAGE MODELS (0)	2025.01.12
A Generalization of Transformer Networks to Graphs (0)	2025.01.05

공부하는 무니

Critique Fine-Tuning:Learning to Critique is More Effective than Learning to Imitate

Abstract

1. Introduction