본문 바로가기
ML & DL/논문리뷰

[GPT-2] Language Models are Unsupervised Multitask Learners

by 공부하는 무니 2024. 4. 18.
반응형

Abstract

이 논문은 대량의 웹 데이터로 학습시킨 언어 모델이 명시적인 지도 학습 없이 다양한 작업을 수행할 수 있음을 보여줍니다.

주요 내용은 다음과 같습니다:

1. 40GB의 웹 텍스트 데이터로 GPT-2라는 대규모 언어 모델을 학습시켰습니다. 

2. 이 모델은 언어 모델링, 질의응답, 기계번역, 요약 등 다양한 자연어처리 작업에서 지도 학습 없이도 준수한 성능을 보였습니다.

3. 모델 크기를 키울수록 제로샷 성능이 크게 향상되었고, 이는 대규모 언어 모델이 자연어 이해 능력을 습득할 수 있음을 시사합니다.

4. 웹 데이터를 활용한 비지도 다중 작업 학습이 강력한 언어 모델 학습에 효과적임을 입증했습니다.

5. 다만 이 방식의 한계점과 부작용에 대해서도 논의하였습니다.

즉, 양질의 대규모 텍스트만 있다면 인공지능이 인간의 지도 없이 스스로 언어를 이해하고 활용하는 능력을 기를 수 있다는 점을 보인 연구라 할 수 있겠습니다.

 

1. Introduction

 

현재의 기계학습 시스템은 특정 과제를 잘 수행하도록 큰 데이터셋으로 지도 학습되어 있습니다. 하지만 새로운 과제에는 취약한 단점이 있죠. 

이러한 한계를 극복하기 위해 다중 작업 학습과 전이 학습 등의 방법이 연구되고 있습니다. 하지만 아직 실용적인 수준은 아닙니다.

본 논문에서는 언어 모델을 활용한 또 다른 접근법을 제안합니다. 바로 대규모의 다양한 텍스트 데이터로 학습된 거대 언어 모델이 여러 작업을 수행할 수 있게 된다는 것입니다. 

기존에는 과제별로 레이블된 데이터로 지도 학습을 했다면, 이제는 방대한 원시 텍스트를 활용해 언어 모델을 학습시키는 것만으로도 여러 과제를 처리할 수 있게 됩니다.

이를 위해 본 논문에서는 웹에서 수집한 대용량 텍스트 데이터셋인 WebText를 구축하고, 이를 사용해 GPT-2라는 거대 언어 모델을 학습시켰습니다. 그리고 다양한 벤치마크에서 이 모델의 성능을 검증하였습니다.

 

2. Approach

 

이 장에서는 대규모 텍스트 데이터로 학습한 언어 모델을 활용해 다양한 작업을 수행하는 방법에 대해 설명합니다.

핵심은 방대한 텍스트 코퍼스에서 언어 모델을 학습시키면, 이 모델이 텍스트 데이터에 내재된 패턴과 지식을 습득하게 되고, 이를 바탕으로 여러 작업을 수행할 수 있게 된다는 것입니다.

 

2.1. Training Dataset

- 고품질의 웹 텍스트 데이터를 대량으로 확보하기 위해 Reddit에서 3 karma 이상의 포스트에 연결된 웹페이지를 크롤링했습니다. 
- 중복 제거 등 정제 과정을 거쳐 최종적으로 40GB 규모의 WebText 데이터셋을 구축했습니다.
- 높은 품질을 위해 Wikipedia 문서는 제외했고, Reddit 사용자들이 유용하다고 평가한 웹페이지만 포함시켰습니다.

 

2.2. Input Representation

- 언어 모델은 모든 텍스트에 대해 확률을 부여할 수 있어야 합니다. 하지만 기존 언어 모델은 제한된 어휘 사전으로 인해 이것이 불가능했죠.
- 이를 해결하기 위해 바이트 수준 Byte Pair Encoding (BPE) 기법을 활용했습니다. 
- BPE를 통해 자주 등장하는 바이트 시퀀스는 하나의 토큰으로 취급하고, 드문 시퀀스는 개별 바이트로 분리함으로써, 큰 어휘 사전 없이도 모든 텍스트를 처리할 수 있게 되었습니다.

 

2.3. Model

- Transformer 아키텍처 기반의 거대 언어 모델인 GPT-2를 개발했습니다.
- GPT-2는 Layer Normalization 위치 변경, 가중치 초기화 방식 개선 등 GPT에 비해 구조를 일부 수정했습니다. 
- 모델 크기를 117M, 345M, 762M, 1542M 파라미터 등 네 가지로 구성하여 성능 변화를 비교했습니다.
- 특히 1542M 파라미터를 가진 GPT-2는 기존 GPT 대비 10배 이상 큰 모델입니다. 이는 과연 모델 크기 증가가 성능에 어떤 영향을 미칠지 살펴보기 위함이었습니다.

학습된 언어 모델을 다양한 벤치마크 태스크에 적용하여 제로-샷 방식으로 성능을 측정했습니다. 이를 통해 태스크 특화 파인튜닝 없이도 언어 모델이 과제를 수행할 수 있음을 확인하고자 했습니다.

 

3. Experiments

 

3.1. Language Modeling


- WebText로 학습한 GPT-2 언어 모델을 평가하기 위해 다양한 언어 모델링 벤치마크 데이터셋에 대해 제로-샷 방식으로 성능을 측정했습니다.
- 그 결과 GPT-2는 8개 중 7개 데이터셋에서 기존 최고 성능을 뛰어넘는 퍼플렉서티 스코어를 달성했습니다.
- 특히 Penn Treebank나 WikiText-2와 같이 작은 데이터셋에서도 GPT-2는 큰 성능 향상을 보였고, LAMBADA나 Children's Book Test와 같이 장기 의존성 평가에 특화된 데이터셋에서도 높은 성능을 보였습니다.
- 한편 1 Billion Word 데이터셋에서는 GPT-2가 기존 방법에 비해 낮은 성능을 보였는데, 이는 이 데이터셋이 가장 크고 복잡한 전처리를 거쳤기 때문으로 분석됩니다.

 

3.2. Children's Book Test

 

- 어린이 도서에서 발췌한 문장에서 누락된 단어를 예측하는 Children's Book Test (CBT)에서 GPT-2는 크게 향상된 성능을 보였습니다.
- GPT-2는 명사와 고유명사 예측에서 각각 93.3%와 89.1%의 정확도를 달성해 인간 수준에 근접한 성능을 보였습니다.
- 모델 크기에 따른 성능 변화를 분석한 결과, 파라미터 수가 커질수록 성능이 꾸준히 향상되는 경향을 관찰할 수 있었습니다.

 

3.3. LAMBADA

 

- LAMBADA 데이터셋은 담화 수준에서의 broad context 이해 능력을 평가하기 위해 만들어진 챌린징한 벤치마크입니다.
- GPT-2는 이 데이터셋에서 퍼플렉서티를 8.6으로 크게 낮추고 정확도를 52.66%까지 끌어올렸습니다.
- 에러 분석 결과 GPT-2가 생성한 답안은 대부분 그럴듯한 내용이지만, 정답으로 간주되기에는 문장 마지막 단어로서 적합하지 않은 경우가 많았습니다.
- 이에 문장 마지막 단어에 특화된 규칙을 추가로 적용하니 정확도가 63.24%까지 상승하며 새로운 최고 성능을 달성하게 되었습니다.

 

3.4. Winograd Schema Challenge


- 애매한 대명사 참조를 해결하는 능력을 평가하는 Winograd Schema Challenge에서 GPT-2는 기존 최고 성능 대비 7% 향상된 70.7%의 정확도를 달성했습니다.
- 다만 이 데이터셋은 273개의 문제만 포함하고 있어 결과 해석에 주의가 필요합니다.

 

3.5. Reading Comprehension


- GPT-2는 질의응답 데이터셋인 CoQA에 대해 파인튜닝 없이 55 F1 스코어를 달성했습니다. 이는 지도학습으로 학습한 베이스라인 중 3개보다 우수한 성능입니다.
- 하지만 GPT-2의 응답은 여전히 사실 관계나 상식에 대한 이해가 부족한 것으로 보입니다.

 

3.6. Summarization

 

- GPT-2는 CNN/Daily Mail 요약 데이터셋에서 fine-tuning 없이 생성한 요약문으로 평가했을 때 제한적인 성능을 보였습니다.
- ROUGE 스코어 기준으로 볼 때 추출적 요약 베이스라인에 근접하는 성능이었지만, 문장 순서가 뒤섞이는 등의 문제점이 관찰되었습니다.

3.7. Translation

- WMT-14 English-French 번역 태스크에서 영어 문장만을 언어 모델에 입력하고 바로 프랑스어로 번역하도록 했을 때, GPT-2는 5 BLEU를 기록했습니다.
- 반대로 French-English에서는 11.5 BLEU로 훨씬 높은 성능을 보였는데, 이는 프랑스어 문장을 입력할 때 영어 번역문에 포함된 언어 모델의 강력한 영어 성능이 발휘되기 때문으로 추정됩니다.

3.8. Question Answering:

- 질문의 정답을 생성하도록 하는 설정에서 GPT-2는 fine-tuning 없이 4.1% 정확도를 달성했습니다.
- 특히 GPT-2가 생성한 답변의 신뢰도가 실제 정답 여부와 높은 상관관계를 보였는데, 가장 높은 신뢰도를 보인 1%의 질문들에 대해서는 63%의 정확도를 보였습니다.
- 이는 GPT-2가 생성한 답변의 신뢰도가 유의미한 지표임을 시사합니다. 다만 여전히 추출 기반 질의응답 시스템에 비해서는 낮은 성능이었습니다.

# 4. Generalization vs Memorization
4장에서는 GPT-2의 성능이 학습 데이터를 단순히 암기한 결과인지, 아니면 일반화 능력에 기인한 것인지 분석했습니다. 이를 쉽게 설명하면 다음과 같습니다.

- 기존 이미지 데이터셋에서 학습 데이터와 테스트 데이터 간 중복이 성능 지표를 부풀리는 문제가 있다는 연구에 영감을 받아, WebText에서도 이와 유사한 현상이 나타나는지 조사했습니다. 

- n-gram 중복 검사를 통해 WebText 학습 데이터와 각종 벤치마크 테스트 데이터 사이의 중복도를 측정했습니다. 그 결과 대부분의 데이터셋에서 3% 내외의 중복도를 보였고, 이는 학습 데이터와 테스트 데이터를 별도로 구축한 벤치마크들의 경우에도 비슷한 수준이었습니다.

- 한편 학습 데이터와의 중복도가 높은 샘플의 경우 GPT-2의 성능이 다소 높게 나오는 경향이 관찰되었습니다. 그러나 중복 샘플들을 제외하고 성능을 다시 측정해도 큰 차이가 없었기에, GPT-2의 성능이 데이터 중복에 크게 의존하지 않는다고 볼 수 있습니다.

- GPT-2의 일반화 능력을 가늠하기 위해, 학습 데이터와 검증 데이터에서의 성능을 비교했습니다. 그 결과 두 경우 모두 유사한 수준으로 꾸준히 향상되는 것을 확인할 수 있었습니다. 이는 GPT-2가 학습 데이터를 단순히 암기하는 것이 아니라 일반화 능력을 갖추고 있음을 시사합니다.

- 종합하면 GPT-2의 우수한 성능은 데이터 중복이나 암기에 기인한 것이 아니라, 방대한 텍스트 데이터로부터 습득한 일반화 능력에서 비롯된 것으로 볼 수 있습니다. 다만 정확한 분석을 위해서는 중복 데이터 검출 등 더 정교한 방법이 필요할 것입니다.

# 5. Related Work

- GPT-2의 연구는 크게 두 가지 흐름에 기반하고 있습니다. 하나는 언어 모델의 규모를 점진적으로 키워온 연구들이고, 다른 하나는 사전학습 방법을 활용해 문서 분류, 기계 독해 등 다양한 자연어처리 태스크의 성능을 끌어올린 연구들입니다.

- 언어 모델 규모 확장과 관련해서는 One Billion Word Benchmark 등 대규모 코퍼스로 RNN 언어 모델을 학습시킨 Jozefowicz 등의 연구나, Common Crawl 데이터로 모델을 학습시킨 Billion Word Imputation 연구 등이 대표적입니다.

- 한편 사전학습 언어 모델을 활용해 태스크 특화 성능을 높이려는 연구들도 활발히 진행되었습니다. ELMo, GPT, BERT 등이 컨텍스트를 반영한 단어 임베딩을 학습하는 대표적인 사전학습 기법들이죠.

- 본 연구에서는 기존 연구 대비 10배 이상 큰 GPT-2 모델을 학습시켜 사전학습 언어 모델의 규모 확장 가능성을 타진했고, 40GB에 달하는 방대한 WebText 코퍼스를 구축해 고품질 텍스트 데이터의 중요성을 확인했다는 점에서 의의가 있습니다.

- 또한 기존에는 사전학습 이후 태스크별 파인튜닝을 수행한 반면, 본 연구에서는 태스크 수행을 위한 추가 학습 없이 제로샷 방식으로 언어 모델의 성능을 평가했다는 점도 주목할 만합니다. 이는 거대 언어 모델이 갖는 태스크 수행 능력을 가늠하기 위한 시도였습니다.

# 6. Discussion
- GPT-2의 실험 결과는 다양한 벤치마크에서 제로샷 방식으로도 준수한 성능을 달성할 수 있음을 보여주었습니다. 이는 충분히 큰 언어 모델이 별도의 지도학습 없이도 태스크 수행 능력을 갖출 수 있음을 시사합니다.

- 특히 기계 독해나 질의응답 태스크에서는 GPT-2가 지도학습 베이스라인에 근접하는 성능을 보였습니다. 다만 요약과 같은 일부 태스크에서는 여전히 성능 격차가 크게 나타나, 제로샷 방식의 한계점도 확인할 수 있었습니다.

- GPT-2의 제로샷 성능은 일종의 베이스라인으로 간주될 수 있습니다. 향후 태스크별 파인튜닝을 통해 성능을 얼마나 더 끌어올릴 수 있을지가 주목됩니다. 특히 GPT-2의 생성 방식이 추출적 요약 등 기존 연구와는 다소 결이 다르기에, 새로운 접근법의 가능성을 시사한다고 볼 수 있습니다. 

- 한편 GPT-2가 보여준 일반화 능력이 과연 어디까지 적용될 수 있을지는 더 논의가 필요합니다. GPT-2도 평가 대상 태스크 중 상당수는 여전히 무작위 수준의 성능을 보였기 때문입니다. 보다 강건하고 실용적인 모델로 발전하기 위해서는 적용 범위와 한계점에 대한 심도 있는 분석이 필요할 것입니다.

- 언어 표현 학습에 대한 기존 연구들은 주로 사전학습된 언어 모델의 내부 표현이 갖는 언어학적 특성을 분석하는 데 초점을 맞추었습니다. 반면 GPT-2의 결과는 출력 자체로도 충분히 의미 있는 태스크 수행이 가능함을 보여주었습니다. 이는 향후 연구 방향을 설정하는 데 있어 시사하는 바가 크다고 할 수 있습니다.

# 7. Conclusion
- 이 연구에서는 방대한 웹 텍스트 데이터로 학습한 GPT-2 언어 모델이 다양한 자연어처리 벤치마크에서 제로샷으로도 인상적인 성능을 달성할 수 있음을 확인했습니다. 

- 40GB 규모의 WebText 데이터셋으로 학습한 GPT-2는 언어 모델링 태스크에서 8개 중 7개 평가셋에서 기존 최고 성능을 능가했을 뿐 아니라, 질의응답, 독해, 번역 등 다양한 태스크에서도 준수한 제로샷 성능을 보였습니다.

- 이는 고품질의 대규모 텍스트 데이터만 확보된다면 기존의 지도학습 방식 없이도 언어 모델이 상당 수준의 언어 이해와 활용 능력을 습득할 수 있음을 시사합니다.

- GPT-2의 성능은 모델 크기에 비례해 향상되는 경향을 보였습니다. 모델 규모를 키우는 것이 범용적인 언어 처리 능력 향상에 기여할 수 있음을 알 수 있었죠. 

- 종합하면 이 연구는 대규모 언어 모델이 갖는 잠재력과 가능성을 보여준 것으로 평가할 수 있습니다. 충분한 규모의 언어 모델은 명시적 지도 신호 없이도 방대한 코퍼스에 내재된 언어 지식과 패턴을 학습함으로써 다양한 자연어 태스크를 수행할 수 있게 됩니다. 

- 다만 GPT-2의 능력을 실용적인 자연어처리 애플리케이션 수준으로 끌어올리기 위해서는 아직 해결해야 할 문제들이 남아있습니다. 특정 태스크에 특화된 모델을 능가하기 위한 연구, 그리고 윤리적 문제에 대한 고민 등이 필요할 것으로 보입니다.

반응형

댓글