본문 바로가기
ML & DL/논문리뷰

QWEN2 TECHNICAL REPORT

by 공부하는 무니 2024. 9. 15.
반응형

ABSTRACT

알리바바의 Qwen 팀이 새로운 인공지능 모델 시리즈인 'Qwen2'를 발표했습니다. 이 모델은 기존의 큰 언어 모델과 다양한 형태의 정보를 처리할 수 있는 멀티모달 모델을 개선한 최신 버전이라고 합니다.
Qwen2의 주요 특징은 다음과 같습니다.
1. 다양한 크기의 모델
   Qwen2는 작은 모델부터 큰 모델까지 다양하게 제공합니다. 가장 작은 모델은 5억 개의 매개변수를, 가장 큰 모델은 720억 개의 매개변수를 가지고 있습니다. 이렇게 다양한 크기의 모델을 제공하는 이유는 사용자의 필요와 환경에 맞게 선택할 수 있도록 하기 위해서인듯 합니다.
2. 뛰어난 성능
   Qwen2는 이전 모델인 Qwen1.5보다 더 좋은 성능을 보여주고 있습니다. 심지어 일부 비공개 모델들과 비교해도 꽤 좋은 성능을 보여줍니다. 특히 언어 이해, 글 생성, 여러 언어 처리, 코딩, 수학, 논리적 추론 등 다양한 분야에서 뛰어난 성능을 보여줍니다.
3. 대표 모델의 놀라운 성과
   Qwen2의 가장 큰 모델인 Qwen2-72B는 여러 테스트에서 매우 좋은 점수를 받았습니다. 예를 들어, MMLU라는 테스트에서 84.2점, HumanEval에서 64.6점 등을 받았습니다. 
4. 다국어 지원
   Qwen2는 약 30개 언어를 잘 이해하고 처리할 수 있습니다. 영어, 중국어, 스페인어, 프랑스어, 독일어, 아랍어, 러시아어, 한국어, 일본어, 태국어, 베트남어 등 정말 다양한 언어를 지원합니다. 
5. 개방성
   Qwen 팀은 이 모델을 모두가 사용할 수 있도록 공개했습니다. Hugging Face와 ModelScope 플랫폼에서 Qwen2 모델을 무료로 다운로드 받을 수 있고, GitHub에서는 사용 예제 코드도 제공하고 있습니다. 

1 INTRODUCTION

2022년 OpenAI의 ChatGPT 출시는 전 세계적으로 LLM에 대한 관심을 크게 증폭시켰습니다. 이어 Meta의 Llama 시리즈 공개는 오픈소스 커뮤니티에서 GPT 수준의 로컬 LLM 개발 열기를 불러일으켰습니다.

 

최신 LLM 동향은 다음과 같습니다.
   - Anthropic의 Claude-3 Opus와 OpenAI의 GPT-4o(omni)가 Chatbot Arena에서 연이어 최고 성능을 기록했습니다.
   - Meta의 Llama-3는 독점 모델들과의 성능 격차를 좁히며 GPT-4 수준으로 평가받고 있습니다.
   - Qwen, Mistral, Gemma 등 다수의 경쟁력 있는 오픈 웨이트 모델들이 등장하고 있습니다.
   Qwen 팀은 기존 Qwen 시리즈와 Qwen1.5를 발표한 데 이어, 시각-언어 모델인 Qwen-VL과 오디오-언어 모델인 Qwen-Audio를 선보였습니다.


Qwen2은 아래와 같습니다.
   - 기반: Transformer 아키텍처를 사용하며, 다음 토큰 예측 방식으로 학습되었습니다.
   - 구성: 기본 언어 모델(비정렬)과 지시 조정 모델(인간 선호도에 맞춤)을 포함합니다.
   - 모델 크기: 0.5B, 1.5B, 7B, 72B 파라미터의 밀집 모델과 57B 파라미터의 MoE 모델(토큰당 14B 활성화)을 제공합니다.
   - 용도: 소형 모델은 모바일 기기용, 대형 모델은 다양한 규모의 GPU 배포용입니다.

학습 데이터 및 방법은 아래와 같습니다.
   - 7조 개 이상의 토큰으로 구성된 대규모, 고품질 데이터셋으로 사전 학습을 진행했습니다.
   - 이전 버전 대비 언어 데이터의 스펙트럼을 확장하고, 코드와 수학 콘텐츠의 양과 질을 향상시켰습니다.
   - 사후 학습 과정에서 지도 학습 미세 조정과 직접 선호도 최적화(DPO)를 적용했습니다.

6. 성능 평가:
   Qwen2는 기본 언어 능력과 지시 조정 기능 모두에서 경쟁 모델들을 능가하는 성능을 보여주었습니다. 특히:
   - Qwen2-72B-Instruct: MT-Bench 9.1, Arena-Hard 48.1, LiveCodeBench 35.7 기록
   - Qwen2-72B(기본 모델): MMLU 84.2, GPQA 37.9, HumanEval 64.6, GSM8K 89.5, BBH 82.4 달성

2 TOKENIZER & MODEL

2.1 TOKENIZER

1. 토크나이저 선택
   Qwen2는 이전 버전인 Qwen과 동일한 토크나이저를 사용합니다. 이 토크나이저는 바이트 레벨 바이트페어 인코딩(byte-level byte-pair encoding)을 기반으로 합니다.

2. 토크나이저 특징
   - 높은 인코딩 효율성: 다른 토크나이저들과 비교했을 때 더 나은 압축률을 보여줍니다.
   - 다국어 지원 강화: 이러한 효율성은 Qwen2의 다국어 처리 능력을 향상시키는 데 기여합니다.

3. 공통 어휘 구성
   - 모든 크기의 Qwen2 모델은 동일한 어휘를 사용합니다.
   - 어휘 구성:
     * 151,643개의 일반 토큰
     * 3개의 제어 토큰
   - 총 어휘 크기: 151,646개 토큰

4. 임베딩 크기
   - 주목할 점: 분산 학습(distributed training)을 고려하여 실제 임베딩의 유효 크기는 어휘 크기보다 더 큽니다.
   - 이는 학습 과정에서의 효율성과 성능 최적화를 위한 값으로 선택했다고 합니다.

2.2 MODEL ARCHITECTURE

1. 기본 구조
   - Qwen2 시리즈는 기본적으로 Transformer 아키텍처를 기반으로 한 대규모 언어 모델입니다.
   - 주요 특징: 인과적 마스크(causal masks)를 사용한 자기 주의(self-attention) 메커니즘을 채택했습니다.
   - 이는 Vaswani et al. (2017)이 제안한 원래의 Transformer 구조를 따르고 있습니다.

2. 모델 구성
   Qwen2 시리즈는 크게 두 가지 유형의 모델로 구성됩니다:
   a) 밀집 언어 모델(Dense Language Models)
      - 4가지 규모의 모델을 제공합니다.
      - 이는 다양한 컴퓨팅 환경과 응용 사례에 대응하기 위한 것입니다.
   
   b) 전문가 혼합 모델(Mixture-of-Experts, MoE)
      - 하나의 MoE 모델을 포함합니다.
      - MoE는 여러 '전문가' 네트워크를 조합하여 효율적인 대규모 모델을 구현하는 기법입니다.

3. 설명 구조
   - 먼저 밀집 모델의 세부 사항을 소개합니다.
   - 이후 MoE 모델의 고유한 특성을 자세히 설명할 예정입니다.

이러한 아키텍처 설계는 Qwen2 시리즈의 다양성과 확장성을 보여줍니다. 밀집 모델은 다양한 규모의 일반적인 응용에 적합하며, MoE 모델은 대규모 연산을 효율적으로 처리할 수 있는 특별한 구조를 제공합니다. 이를 통해 Qwen2는 다양한 사용 사례와 리소스 환경에 유연하게 대응할 수 있는 능력을 갖추고 있습니다.

2.2.2 QWEN2 DENSE MODEL

1. 기본 구조
   - 여러 개의 Transformer 층으로 구성됩니다.
   - 각 층은 인과적 주의 메커니즘(causal attention mechanisms)과 피드포워드 신경망(FFNs)을 포함합니다.

2. Qwen과의 주요 차이점
   a) 그룹 쿼리 주의(Grouped Query Attention, GQA)
      - 기존의 다중 헤드 주의(Multi-Head Attention, MHA) 대신 GQA를 채택했습니다.
      - GQA는 추론 시 KV 캐시 사용을 최적화하여 처리량을 크게 향상시킵니다.
      - 다양한 모델 크기에 대한 자세한 KV 헤드 구성은 2.2.3절에서 설명됩니다.
   b) YARN을 이용한 이중 청크 주의(Dual Chunk Attention, DCA)
      - Qwen2의 컨텍스트 윈도우를 확장하기 위해 도입되었습니다.
      - 긴 시퀀스를 관리 가능한 길이의 청크로 분할합니다.
      - 입력이 한 청크 내에서 처리 가능한 경우, 원래의 주의 메커니즘과 동일한 결과를 생성합니다.
      - 청크 내부 및 청크 간 토큰들의 상대적 위치 정보를 효과적으로 포착하여 긴 컨텍스트 성능을 개선합니다.
      - YARN(Peng et al., 2023)을 사용하여 어텐션 가중치를 재조정함으로써 길이 외삽을 개선합니다.

3. 기타 주요 기술
   - 활성화 함수: SwiGLU (Dauphin et al., 2017)
   - 위치 임베딩: 회전 위치 임베딩(Rotary Positional Embeddings, RoPE) (Su et al., 2024)
   - 주의 메커니즘: QKV 바이어스 (Su, 2023)
   - 정규화: RMSNorm (Jiang et al., 2023b)
   - 학습 안정성: 사전 정규화(pre-normalization) 적용

이러한 기술적 요소들은 Qwen2 모델의 아래 성능을 개선합니다.
1. GQA는 추론 속도를 향상시키며, 특히 긴 시퀀스 처리에 효과적입니다.
2. DCA와 YARN의 조합은 모델의 긴 컨텍스트 처리 능력을 크게 향상시킵니다.
3. SwiGLU, RoPE, QKV 바이어스 등의 기술은 모델의 표현력과 학습 효율성을 높입니다.
4. RMSNorm과 사전 정규화는 대규모 모델 학습의 안정성을 개선합니다.

2.2.2 QWEN2 MIXTURE-OF-EXPERTS MODEL

1. 기본 구조
   - Qwen1.5-MoE-A2.7B와 유사한 구조를 가집니다.
   - 기존 FFN(Feed-Forward Network) 대신 n개의 개별 FFN으로 구성된 MoE FFN을 사용합니다.
   - 각 FFN은 하나의 '전문가'로 기능합니다.

2. 토큰 라우팅
   - 각 토큰은 게이트 네트워크 G에 의해 할당된 확률에 따라 특정 전문가 Ei로 전달됩니다.
   - p = softmax(G(x))
   - y = Σ(i∈top-k(p)) pi * Ei(x)

3. 주요 설계 고려사항
   a) 전문가 세분화 (Expert Granularity)
      - MoE 모델은 여러 FFN을 개별 전문가로 사용합니다.
      - Qwen2는 미세 세분화된 전문가(fine-grained experts)를 채용하여 더 많은 수의 작은 전문가를 동시에 활성화합니다.
      - 이 접근법은 더 다양하고 동적인 전문가 조합을 가능하게 하여 전체적인 성능과 적응성을 향상시킵니다.
   b) 전문가 라우팅 (Expert Routing)
      - 공유 전문가와 라우팅 특화 전문가를 MoE 층에 통합하는 최신 트렌드를 따릅니다.
      - 이 방식은 다양한 작업에 걸쳐 공유 전문가를 적용하면서도 특정 라우팅 시나리오에 대해 선택적으로 전문가를 사용할 수 있게 합니다.
  c) 전문가 초기화 (Expert Initialization)
      - 밀집 모델의 가중치를 활용하는 '업사이클링' 방식을 기반으로 합니다.
      - 미세 세분화된 전문가 간의 다양성을 강조하여 모델의 표현력을 향상시킵니다.
      - 프로세스:
        1. FFN을 복제하여 지정된 전문가 수와 중간 크기에 맞춥니다.
        2. 각 FFN 복사본 내에서 파라미터를 셔플하여 다양성을 촉진합니다.
        3. 복제된 FFN에서 전문가를 추출하고 나머지 차원을 버립니다.
        4. 각 미세 세분화된 전문가의 50% 파라미터를 무작위로 재초기화합니다.

4. 모델 구성
   - Qwen2 MoE 모델(57B-A14B)은 총 57B 파라미터를 가지며, 각 토큰 처리 시 14B 파라미터가 활성화됩니다.
   - 64개의 라우팅된 전문가와 8개의 공유 전문가를 포함합니다.
   - 한 번에 8개의 전문가가 활성화됩니다(공유 전문가 제외).

2.2.3 MODEL CONFIGURATION

1. 모델 라인업
   Qwen2 시리즈는 총 5가지 크기의 모델로 구성됩니다
   - Qwen2-0.5B
   - Qwen2-1.5B
   - Qwen2-7B
   - Qwen2-57B-A14B (MoE 모델)
   - Qwen2-72B

2. 하이퍼파라미터 및 주요 정보
   - 표 1에 각 모델의 상세한 하이퍼파라미터와 중요 정보가 나열되어 있습니다.
   - 주요 정보에는 사전 학습된 토큰의 수 등이 포함됩니다.

3. Qwen2-57B-A14B의 특징
   - 이 모델은 Qwen2-7B를 기반으로 확장(upscale)되었습니다.
   - MoE(Mixture-of-Experts) 구조를 채택하여 효율적인 대규모 모델을 구현했습니다.

4. KV(Key-Value) 크기 최적화
   - Qwen2 모델들은 Qwen1.5 모델들에 비해 토큰 당 KV 크기가 상당히 작습니다.
   - 이는 다음과 같은 이점을 제공합니다:
     a) 메모리 사용량 감소: 전체적인 메모리 사용량이 줄어듭니다.
     b) 긴 컨텍스트 추론 작업에서의 이점: 특히 긴 문맥을 처리할 때 메모리 효율성이 크게 향상됩니다.

5. 모델 간 비교
   - 각 모델의 크기와 구조는 다양한 용도와 리소스 환경에 맞춰 설계되었습니다.
   - 0.5B부터 72B까지의 다양한 크기는 다양한 응용 시나리오를 커버할 수 있게 합니다.

6. 사전 학습 규모
   - 표 1에는 각 모델이 사전 학습에 사용한 토큰 수가 명시되어 있습니다.
   - 이는 모델의 학습 깊이와 잠재적 성능을 가늠할 수 있는 중요한 지표입니다.

3  PRE-TRAINING

3.1 PRE-TRAINING DATA

1. 핵심 목표
   - 데이터셋 개선
   - 확장된 컨텍스트 길이를 효과적으로 처리하는 방법 연구

2. 새로운 사전 학습 데이터셋
   - 대규모, 고품질, 다국어 데이터셋 개발
   - 이전 Qwen 및 Qwen1.5 모델 대비 개선된 특성

3. 주요 개선 사항
   a) 품질 향상
      - 개선된 필터링 알고리즘 사용 (휴리스틱 및 모델 기반 방법)
      - Qwen 모델을 활용하여 저품질 데이터 필터링
      - 고품질 사전 학습 데이터 합성에 모델 활용
   b) 데이터 확장
      - Qwen1.5 대비 대폭 증가된 고품질 코드, 수학, 다국어 데이터
      - 약 30개 언어 지원 (영어, 중국어, 스페인어, 프랑스어, 독일어, 아랍어, 러시아어, 한국어, 일본어, 태국어, 베트남어 등)
   c) 분포 개선
      - 인간과 유사한 학습 분포를 위해 축소 모델로 실험 진행
      - 다양한 소스와 도메인의 데이터 혼합 최적화

4. 데이터셋 규모
   - Qwen1.5의 3조 토큰에서 7조 토큰으로 확장
   - 품질 기준을 완화하여 12조 토큰 데이터셋도 시도했으나, 7조 토큰 모델 대비 유의미한 성능 향상 없음
   - 결론: 데이터 양 증가가 반드시 사전 학습에 이득이 되지는 않음

5. 최종 선택
   - 비용 고려하여 고품질 7조 토큰 데이터셋 사용 (대형 모델 학습용)
   - 추가 탐색은 향후 모델 반복에서 진행 예정

6. 모델별 사전 학습 데이터
   - Qwen2 밀집 모델(Qwen2-0.5B 제외): 7조 토큰 이상의 대규모 데이터셋 사용
   - Qwen2-0.5B: 12조 토큰 데이터셋 사용
   - MoE 모델: 추가 4.5조 토큰으로 사전 학습 (업사이클링 원칙에 따름)

7. 추가 특징
   - 고품질 다중 작업 지시 데이터를 사전 학습 과정에 통합
   - 목적: 컨텍스트 내 학습 및 지시 따르기 능력 향상

3.2 LONG-CONTEXT TRAINING

Qwen2의 장문 컨텍스트 처리 능력을 향상시키기 위해 여러 전략을 사용했습니다. 먼저, 사전 학습 마지막 단계에서 컨텍스트 길이를 4,096 토큰에서 32,768 토큰으로 늘렸고, 이에 맞춰 고품질의 긴 데이터를 추가했습니다. RoPE의 기본 주파수를 10,000에서 1,000,000으로 변경하여 장문 처리 성능을 최적화했습니다. 또한 YARN 메커니즘과 이중 청크 주의 메커니즘을 도입해 모델의 길이 외삽 잠재력을 극대화했습니다. 이러한 전략들 덕분에 Qwen2는 최대 131,072 토큰 길이의 시퀀스를 높은 성능으로 처리할 수 있게 되었으며, 초기 실험에서 퍼플렉서티 저하가 최소화되는 결과를 보였습니다.

 

4 POST-TRAINING

4.1 POST-TRAINING DATA

Qwen2는 대규모 사전 학습 후 사후 학습 단계를 거칩니다. 이 과정은 코딩, 수학, 논리적 추론, 지시 따르기, 다국어 이해 등 다양한 영역에서 모델의 능력을 향상시키는 데 중요합니다. 또한 모델이 생성하는 내용이 인간의 가치와 조화를 이루도록 하여 도움이 되고, 정직하며, 해롭지 않게 만듭니다.

전통적인 방법과 달리, Qwen2는 최소한의 인간 주석으로 확장 가능한 정렬에 중점을 둡니다. 이를 위해 지도 학습 미세 조정(SFT)과 인간 피드백을 통한 강화 학습(RLHF)에 사용될 고품질 시연 데이터와 선호도 데이터를 획득하는 방법을 연구했습니다.

사후 학습 데이터는 시연 데이터 D와 선호도 데이터 P로 구성됩니다. D는 지시와 만족스러운 응답의 쌍이고, P는 지시와 두 개의 응답(선호되는 응답과 그렇지 않은 응답)으로 이루어집니다.

데이터 구축 과정은 두 단계로 이루어집니다
1. 협력적 데이터 주석: 대규모 지시 말뭉치에서 데이터 온톨로지를 추출하여 다양하고 복잡한 고품질 지시를 만듭니다. 인간 주석을 통해 목표 응답과 그의 긍정/부정 대응을 얻습니다.
2. 자동화된 데이터 합성: 다양한 자동화된 정렬 전략을 사용하여 코드, 수학, 지시 따르기, 창작, 역할 놀이, 안전 등의 영역에서 대량의 인공 주석 데이터를 합성합니다.

이러한 접근 방식은 인간의 수동 레이블링 필요성을 최소화하면서도 데이터의 품질과 신뢰성을 극대화하는 것을 목표로 합니다.

 

4.1.1 COLLABORATIVE DATA ANNOTATION

1. 자동 온톨로지 추출
   - InsTag라는 오픈셋 세분화 태거를 사용하여 대규모 지시 데이터셋에서 기본 온톨로지를 추출합니다.
   - 추출된 온톨로지의 정확성을 보장하기 위해 수동으로 정제 작업을 수행합니다.

2. 지시 선택
   - 각 지시에 태그를 달고, 태그 다양성, 의미적 풍부성, 복잡성, 의도 완전성을 기준으로 평가합니다.
   - 이 기준에 따라 대표적인 지시들을 선별합니다.

3. 지시 진화
   - 지시 데이터셋을 풍부하게 만들기 위해 '자기 진화 전략'을 사용합니다.
   - Qwen 모델들을 이용해 기존 지시에 제약 조건이나 요구사항을 추가합니다.
   - 이를 통해 지시의 복잡성을 증가시키고 데이터셋 내 난이도의 다양성을 확보합니다.

4. 수동 주석
   - 다양한 생성 전략과 여러 규모의 Qwen 모델을 사용하여 하나의 지시에 대해 여러 응답을 생성합니다.
   - 주석자들이 이 응답들을 선호도에 따라 순위를 매깁니다.
   - 최고의 응답이 정해진 기준을 충족하는지 확인합니다.
   - 이 과정을 통해 시연 데이터와 선호도 데이터를 모두 얻습니다.

4.1.2 AUTOMATED DATA SYNTHESIS

1. 거부 샘플링 (Rejection Sampling)
   - 수학 등 명확한 답이 있는 과제에 사용됩니다.
   - LLM이 여러 답변(추론 경로)을 생성합니다.
   - 정확하고 합리적인 경로만 보존하여 시연 데이터로 활용합니다.
   - 옳은 경로와 틀린 경로를 대조하여 선호도 데이터를 생성합니다.

2. 실행 피드백
   - 코딩 과제에 사용됩니다.
   - LLM이 해결책과 테스트 케이스를 생성합니다.
   - 컴파일 및 실행을 통해 해결책의 효과를 평가합니다.
   - 지시 따르기 평가에도 적용됩니다. 예를 들어, 길이 제한 같은 제약이 있는 지시에 대해 LLM이 Python 검증 함수를 만들어 응답이 요구사항을 충족하는지 확인합니다.

3. 데이터 재활용
   - 문학 작문 과제에 사용됩니다.
   - 공개 도메인의 고품질 문학 작품을 수집합니다.
   - LLM을 사용해 다양한 상세도의 지시를 개발합니다.
   - 이 지시와 원작을 짝지어 시연 데이터로 활용합니다.
   - 예: 역할극 데이터 생성 시, Wikipedia 등에서 상세한 캐릭터 프로필을 가져와 LLM이 관련 지시와 응답을 생성하게 합니다.

4. 헌법적 피드백
   - LLM이 사전 정의된 원칙에 따라 응답을 생성하도록 하는 과정입니다.
   - 안전성과 가치 준수를 위한 '헌법 데이터셋'을 컴파일합니다.
   - 이 데이터셋은 따라야 할 원칙과 피해야 할 원칙을 명시합니다.
   - LLM이 이 지침에 맞거나 어긋나는 응답을 생성하도록 지시하여 시연 및 선호도 데이터의 참조로 활용합니다.

4.2 SUPERVISED FINE-TUNING

1. 데이터셋
   - 50만 개 이상의 예시를 포함하는 대규모 지시 데이터셋을 구축했습니다.
   - 이 데이터셋은 지시 따르기, 코딩, 수학, 논리적 추론, 역할 놀이, 다국어 능력, 안전성 등 다양한 기술을 다룹니다.

2. 파인튜닝 과정
   - 시퀀스 길이: 32,768 토큰
   - 학습 에포크: 2회

3. 학습률 최적화
   - 시작 학습률: 7 × 10^-6
   - 종료 학습률: 7 × 10^-7
   - 학습 과정 동안 학습률을 점진적으로 감소시켰습니다.

4. 과적합 방지 전략
   - 가중치 감소(weight decay): 0.1 적용
   - 그래디언트 클리핑: 최대값 1.0으로 제한

4.3 REINFORCEMENT LEARNING FROM HUMAN FEEDBACK

Qwen2의 RLHF 훈련은 오프라인과 온라인 두 단계로 구성됩니다. 오프라인 단계에서는 미리 컴파일된 선호도 데이터셋 P를 사용하여 직접 선호도 최적화(DPO) 방법으로 선호되는 응답과 그렇지 않은 응답 사이의 가능성 차이를 최대화합니다.

온라인 단계에서는 모델이 실시간으로 성능을 개선합니다. 현재 정책 모델에서 여러 응답을 샘플링하고, 보상 모델이 가장 선호되는 응답과 가장 선호되지 않는 응답을 선택하여 선호도 쌍을 형성합니다. 이 쌍은 각 에피소드에서 DPO에 사용됩니다.

또한, 온라인 병합 최적화기를 사용하여 정렬 세금(모델 생성을 인간 선호도에 맞추는 과정에서 발생하는 성능 저하)을 완화합니다. 이러한 방식으로 Qwen2는 인간의 선호도에 더 잘 부합하면서도 기존의 성능을 유지하는 방향으로 학습됩니다.

 

5 EVALUATION

5.1 BASE LANGUAGE MODELS

Qwen2 모델 평가는 기본 모델과 지시 조정 모델 모두를 대상으로 포괄적인 평가 프로토콜을 사용합니다. 이 프로토콜은 일반 지식 이해, 언어 이해, 텍스트 생성, 코딩, 수학, 추론 등 다양한 능력을 검토합니다.
기본 모델의 경우, 대규모 언어 모델(LLM)을 위해 확립된 벤치마크 데이터셋을 사용하여 평가합니다. 대부분의 경우 퓨샷 프롬프팅 방식으로 응답을 유도합니다. 
지시 조정 모델의 경우, 벤치마크 평가 외에도 인간의 선호도 평가를 중요하게 다룹니다.
기본 언어 모델 평가에서는 Qwen2 시리즈의 여러 모델을 지식과 기본 능력을 측정하는 벤치마크 데이터셋으로 평가합니다. 또한 다국어 벤치마크 데이터셋을 적용하여 언어 지원 능력을 평가합니다. 
Qwen2는 여러 크기의 모델을 제공하므로, 각 모델을 비슷하거나 더 큰 크기의 최신(SOTA) 모델들과 비교합니다. 이를 통해 Qwen2의 성능을 기존 모델들과 객관적으로 비교할 수 있습니다.

5.1.1 CORE CAPABILITIES

평가 방법
- 기본 언어 모델의 핵심 능력을 평가하기 위해 퓨샷 또는 제로샷 프롬프팅을 사용한 벤치마크 데이터셋 평가를 실시했습니다.
- 평가는 자연어 이해, 일반 질문 답변, 코딩, 수학, 과학 지식, 추론 등의 성능에 초점을 맞췄습니다.
- MMLU, GPQA, HumanEval, GSM8K 등 다양한 벤치마크 데이터셋을 사용했습니다.
- 다국어 능력 평가를 위해 시험, 이해력, 수학, 번역 등 네 가지 카테고리의 다국어 데이터셋을 사용했습니다.

주요 결과
1. Qwen2-72B
   - 일반 지식 이해에서 Llama-3-70B를 앞섰습니다.
   - 과학적 평가, 코딩, 수학 분야에서 이전 모델들을 크게 뛰어넘었습니다.
   - 중국어 이해력에서 경쟁 모델들을 크게 앞섰습니다.
2. Qwen2-57B-A14B (MoE 모델)
   - 30B 파라미터 밀집 모델과 비슷한 성능을 보이면서도 더 효율적입니다.
   - 자연어 이해에서 Yi-1.5-34B와 비슷한 성능을 보였고, 코딩과 수학 작업에서는 기준 모델들을 능가했습니다.
3. Qwen2-7B
   - 대부분의 데이터셋에서 다른 7B 모델들보다 우수한 성능을 보였습니다.
   - 특히 코딩, 수학, 중국어 작업에서 뛰어났습니다.
4. Qwen2-1.5B & Qwen2-0.5B
   - 언어 이해, 코딩, 수학 분야에서 경쟁 모델들을 앞섰습니다.
   - 중국어 이해에서 특히 우수한 성능을 보였습니다.

5.2 INSTRUCTION-TUNED MODEL

5.2.1 OPEN BENCHMARK EVALUATION

평가 방법
1. 다면적 접근: 기본 기술과 인간 선호도 평가를 위해 공개 데이터셋과 벤치마크 사용
2. 자체 상세 검사: 주요 영역에서 모델 역량 추가 조사
3. 장문 컨텍스트 처리 능력 평가에 중점
4. 안전성 평가: 다국어 안전성 평가 및 레드팀 연습 포함

주요 벤치마크
- 언어 이해와 지식: MMLU, MMLU-Pro, GPQA, Theorem QA
- 코딩: HumanEval, MBPP, MultiPL-E, LiveCodeBench v1
- 수학: GSM8K, MATH
- 인간 선호도 정렬 및 지시 따르기: MT-Bench, Arena-Hard, AlignBench, MixEval, IFEval

주요 결과
1. Qwen2-72B-Instruct:
   - 언어 이해, 코딩, 수학 분야에서 경쟁 모델들을 앞섬
   - 인간 선호도 정렬과 지시 따르기에서 큰 이점 보임
2. Qwen2-57B-A14B-Instruct (MoE 모델):
   - 대부분의 벤치마크에서 Qwen1.5-32B-Chat보다 우수한 성능
   - 수학을 제외한 대부분의 평가에서 Yi-1.5-34B-Chat보다 우위
3. Qwen2-7B-Instruct:
   - Qwen1.5-7B-Chat보다 전반적으로 크게 개선, 특히 코딩과 수학 관련 작업에서 높은 점수
   - Llama-3-8B-Instruct와 경쟁력 있는 성능, 코딩에서 우수
   - 지시 따르기에서는 개선 필요
4. Qwen2-1.5B-Instruct & Qwen2-0.5B-Instruct:
   - 핵심 능력과 지시 따르기 작업에서 이전 모델들보다 뚜렷한 이점 보임
   - 사전 학습 데이터 규모 확대가 성능 향상의 주요 요인

5.2.2 IN-HOUSE AUTOMATIC EVALUATION

평가 방법
- 공개 벤치마크만으로는 LLM의 능력을 완전히 이해하기 어렵다고 판단하여 자체 데이터셋 제작
- 지식 이해, 텍스트 생성, 코딩 등 다양한 능력 평가
- 중국어와 영어로 평가 진행

중국어 평가 결과
1. 소형 모델: Qwen2-1.5B-Instruct가 파라미터 수가 적음에도 Qwen1.5-1.8B-Chat보다 대부분의 평가에서 우수
2. 7B 모델: Qwen2가 Qwen1.5보다 더 큰 이점 보임
3. 대형 모델: Qwen2-72B가 파라미터 수가 훨씬 많은 Qwen1.5-110B-Chat보다 우수한 성능 보임
4. MoE 모델: 지식 이해를 제외한 대부분의 영역에서 Qwen1.5-32B-Chat보다 우수한 성능 보임
   - 지식 이해 성능 차이는 사전 학습 토큰 부족 때문으로 추정
   - 향후 MoE 모델의 사전 학습을 계속하여 확장성 행동 탐구 예정

영어 평가 결과
1. 소형 모델: Qwen2가 Qwen1.5 모델들을 크게 앞섬
2. 대형 모델: Qwen2-72B-Instruct가 Llama-3-70B와 비교 시 이해력과 코딩에서 약간 뒤처짐
   - 영어 성능 차이의 원인으로 사전 학습에 사용된 영어 토큰의 양과 사후 학습 데이터의 양과 다양성 차이로 추정

전반적으로 Qwen2 모델들은 이전 버전인 Qwen1.5보다 대부분의 영역에서 우수한 성능을 보여주었습니다. 특히 중국어 평가에서 두드러진 향상을 보였으며, 영어 평가에서도 소형 모델들의 성능이 크게 개선되었습니다. 다만 대형 영어 모델의 경우 일부 영역에서 추가적인 개선 여지가 있는 것으로 나타났습니다.

5.2.3 LONG CONTEXT CAPABILITIES

평가 방법
1. Needle in a Haystack (NIAH)
2. NeedleBench
3. LV-Eval

1. Needle in a Haystack (NIAH) 결과
   - Qwen2-72B-Instruct: 128K 토큰 전체 컨텍스트에서 뛰어난 정보 검색 정확도 보임
   - Qwen2-7B-Instruct: 128K 토큰까지 높은 정확도 유지
   - Qwen2-57B-A14B-Instruct: 64K 토큰까지 능숙하게 처리
   - 소형 모델들: 32K 토큰 컨텍스트 지원

2. NeedleBench 결과
   - YARN과 DCA 통합으로 Qwen2 모델들의 장문 컨텍스트 능력 크게 향상
   - Qwen2-7B-Instruct: 1M 컨텍스트 길이를 주장하는 ChatGLM4-9B-1M 능가
   - Qwen2-72B-Instruct: 강력한 성능 보임, 정확도 감소가 ChatGLM4-9B-1M보다 적음

3. LV-Eval 결과
   - YARN과 DCA 통합으로 Qwen2 모델들의 장문 컨텍스트 능력 크게 향상
   - Qwen2-7B-Instruct: ChatGLM4-9B-1M와 대등한 성능 보이나 긴 컨텍스트에서 더 뚜렷한 성능 하락
   - Qwen2-72B-Instruct: 모든 길이에서 강력한 성능 보임, 장문 컨텍스트 작업 처리 능력 입증

종합적으로, Qwen2 모델들은 다양한 장문 컨텍스트 평가에서 우수한 성능을 보여주었습니다. 특히 대형 모델인 Qwen2-72B-Instruct는 매우 긴 컨텍스트에서도 뛰어난 성능을 유지했으며, 작은 모델들도 상당한 장문 처리 능력을 보여주었습니다. YARN과 DCA 기술의 통합이 이러한 성능 향상에 크게 기여한 것으로 나타났습니다.

 

5.2.4 MULTILINGUAL EVALUATION

평가 방법
1. 포괄적인 인간 평가를 통한 다국어 능력 평가
2. 대규모 언어 모델의 다양한 능력을 평가하는 테스트 케이스 설계
3. 여러 언어로 된 테스트 케이스 포함
4. 각 언어별로 해당 언어를 전공한 전문 평가자 1명 초빙
5. 각 테스트 케이스에 대해 모델의 응답을 1-5점 척도로 평가

결과
1. Qwen2-72B-Instruct의 성능:
   - GPT-3.5-Turbo를 크게 앞섬
   - GPT-4-Turbo와 경쟁력 있는 성능
   - Claude-3-Opus보다 약간 뒤처짐

2. 성능 분석
   - Qwen2의 다국어 사전 학습과 지시 조정 데이터가 모델의 다국어 능력 향상에 기여
   - 대부분의 최신 독점 LLM들과 경쟁력 있는 성능 보여줌

이러한 결과는 Qwen2-72B-Instruct가 다국어 처리 능력에서 상당한 진전을 이루었음을 보여줍니다. 특히 GPT-3.5-Turbo를 크게 앞서고 GPT-4-Turbo와 비슷한 수준의 성능을 보인 것은 주목할 만합니다. 이는 Qwen2 모델이 다국어 지원 측면에서 최신 대규모 언어 모델들과 경쟁할 수 있는 수준에 도달했음을 시사합니다.

 

5.2.5 SAFETY & RESPONSIBILITY

1. 목적
   - 오픈 웨이트 LLM의 안전하고 책임 있는 개발
   - AI 기술 오용의 영향 완화

2. 평가 방법
   - 다국어 안전성 평가 구현
   - 불법 행위, 사기, 포르노그래피, 개인정보 관련 주제에 대한 모델 안전성 평가
   - 잠재적으로 위험한 프롬프트를 수집하여 모델의 안전한 응답 능력 테스트

3. 결과 (Table 14 참조)
   - Qwen2-72B-Instruct의 성능:
     * GPT-4(독점 모델)보다 우수
     * Mixtral-8x22B-Instruct(오픈 웨이트 모델)보다 크게 우수
   - 유해 응답 비율이 낮을수록 좋은 성능을 의미

4. 개선 필요성
   - 전반적으로 좋은 성능에도 불구하고 여전히 개선의 여지가 있음
   - 특히 포르노그래피 카테고리에서 개선 필요
     * 이는 인간도 구별하기 어려운 전통적으로 까다로운 영역

이 평가는 Qwen2-72B-Instruct가 안전성 측면에서 경쟁 모델들보다 우수한 성능을 보이고 있음을 보여줍니다. 그러나 연구팀은 더 안전하고 책임 있는 모델을 만들기 위해 지속적인 개선이 필요하다고 인식하고 있습니다. 특히 포르노그래피와 같은 민감한 주제에 대한 처리 능력 향상이 향후 연구의 중요한 과제로 남아있습니다.

 

5.2.6 CONTAMINATION ANALYSIS

1. 배경
   - 대규모 언어 모델의 데이터 오염 정의와 분석 방법은 여전히 활발한 연구 분야입니다.

2. 오염 방지 방법
   a) N-gram 매칭을 사용해 잠재적 오염 데이터 제외
   b) 최장 공통 부분 수열(LCS) 기반 제약 추가:
      - 테스트와 학습 시퀀스에서 기호와 구두점 제거 후 토큰화
      - |LCS(st, se)| ≥ 13 및 |LCS(st, se)| ≥ 0.6 × min(|st|, |se|) 조건 만족 시 학습 시퀀스 제거

3. 오염 영향 평가
   - OpenAI(2023) 방식 따라 엄격한 비오염 테스트 세트 구성
   - 13-gram 중복이 있는 샘플 제외하여 비오염 테스트 세트 생성
   - 원본과 비오염 테스트 세트에서의 성능 비교

4. 결과 (Table 15 참조)
   - 일부 데이터셋에서 높은 오염 비율 나타남
   - 대부분의 식별된 오염 샘플은 거짓 양성(false positive)으로 판단
     * 주로 수학과 코딩 데이터셋에서 발생
   - 일반적인 코드 스니펫과 수학 방정식은 실제 테스트 해결에 의미 있는 이점 제공하지 않음
   - Qwen2 모델의 성능이 원본과 비오염 테스트 데이터 사이에서 일관성 유지

5. 결론
   - 잠재적 데이터 오염 문제가 모델 성능에 중대한 영향을 미치지 않는 것으로 판단됨

이 분석은 Qwen2 모델의 학습 데이터 오염 가능성과 그 영향을 철저히 조사했음을 보여줍니다. 엄격한 기준을 적용했음에도 불구하고, 대부분의 '오염'으로 식별된 샘플이 실제로는 거짓 양성일 가능성이 높으며, 모델 성능에 유의미한 영향을 미치지 않는 것으로 나타났습니다. 이는 Qwen2 모델의 성능이 데이터 오염으로 인해 부당하게 향상되지 않았음을 시사합니다.

6 CONCLUSION

Qwen2는 0.5억에서 720억 매개변수 범위의 다목적 기본 및 지시 조정 언어 모델 세트로, 밀집 모델과 전문가 혼합(MoE) 아키텍처 모델을 포함합니다. Qwen2는 이전의 오픈 웨이트 모델들, 특히 전작인 Qwen1.5를 능가하며, 언어 이해, 생성, 다국어 능력, 코딩, 수학, 추론 등 광범위한 벤치마크에서 독점 모델들과 경쟁력 있는 성능을 보여줍니다. 이번 업데이트에서는 장문 컨텍스트 처리, 다국어 지원, 코딩, 수학 능력, 안전성과 책임성에 특별히 주력했습니다. 
커뮤니티 내 혁신과 접근성 증진을 위해 Qwen2 모델 가중치를 공개적으로 접근 가능하게 만들었습니다. 이를 통해 연구자들과 개발자들이 다양한 응용 프로그램과 연구 프로젝트에서 Qwen2의 잠재력을 최대한 활용할 수 있게 되었습니다. 이러한 노력을 통해 AI 기술의 발전과 사회에 대한 긍정적인 영향에 기여하고자 합니다.

반응형

댓글