본문 바로가기
반응형

ML & DL/논문리뷰3

[GPT-2] Language Models are Unsupervised Multitask Learners Abstract 이 논문은 대량의 웹 데이터로 학습시킨 언어 모델이 명시적인 지도 학습 없이 다양한 작업을 수행할 수 있음을 보여줍니다. 주요 내용은 다음과 같습니다: 1. 40GB의 웹 텍스트 데이터로 GPT-2라는 대규모 언어 모델을 학습시켰습니다. 2. 이 모델은 언어 모델링, 질의응답, 기계번역, 요약 등 다양한 자연어처리 작업에서 지도 학습 없이도 준수한 성능을 보였습니다. 3. 모델 크기를 키울수록 제로샷 성능이 크게 향상되었고, 이는 대규모 언어 모델이 자연어 이해 능력을 습득할 수 있음을 시사합니다. 4. 웹 데이터를 활용한 비지도 다중 작업 학습이 강력한 언어 모델 학습에 효과적임을 입증했습니다. 5. 다만 이 방식의 한계점과 부작용에 대해서도 논의하였습니다. 즉, 양질의 대규모 텍스트만.. 2024. 4. 18.
[BERT] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding Abstract BERT는 복잡하게 들릴 수 있는데, 실제로는 언어를 이해하는 데 큰 도움이 되는 간단한 아이디어에 기반을 두고 있습니다. BERT는 기본적으로 대량의 텍스트 데이터를 사용하여 컴퓨터가 언어의 구조를 학습할 수 있게 해주는 모델입니다. 이 모델의 핵심은 양방향성을 가진다는 것입니다. 즉, BERT는 문장을 처리할 때, 단어 앞뒤의 문맥을 모두 고려합니다. 이전의 많은 모델들은 문장을 한 방향(왼쪽에서 오른쪽 또는 그 반대)으로만 처리했기 때문에, BERT가 가져온 큰 변화 중 하나 입니다. 이런 방식 덕분에, BERT는 문장 안에서 단어의 의미를 더 정확하게 파악할 수 있게 되고, 이는 다양한 언어 처리 작업에서 더 좋은 성능을 낼 수 있게 해주게 됩니다. 예를 들어, 사람이 질문에 답하.. 2024. 4. 11.
[GPT-1]Improving Language Understandingby Generative Pre-Training Abstract 자연어 이해는 텍스트 속에 숨겨진 의미를 파악하고 질문에 대답하는 등 다양한 작업을 포함하는 분야입니다. 이러한 작업을 위해서는 대량의 텍스트 데이터가 필요한데, 레이블이 붙어 있는 데이터는 부족한 상황입니다. 이 연구에서는 레이블이 없는 텍스트를 활용하여 언어 모델을 사전 학습시키고, 이를 각 작업에 맞게 파인 튜닝하는 방법을 제안합니다. 이 방법은 기존 방식과 달리 모델 구조를 크게 변경하지 않고도 효과적으로 적용할 수 있습니다. 실험 결과, 이 방법으로 학습한 모델이 각 작업에 특화된 모델보다 더 우수한 성능을 보였습니다. 구체적으로 상식 추론, 질의응답, 텍스트 함의 등 다양한 자연어 이해 작업에서 SOTA 대비 큰 성능 향상을 달성했습니다. 즉, 대량의 텍스트 데이터를 활용한 사.. 2024. 4. 4.
반응형