본문 바로가기
반응형

-255

[나는 리뷰어다] 인사이드 머신러닝 인터뷰 "한빛미디어  활동을 위해서 책을 제공받아 작성된 서평입니다." 이 책을 저의 학습 데이터셋에 바칩니다.데이터셋이 없었다면아무것도 알 수 없었을 것입니다.첫 페이지에 보이는 글입니다. 이것만 봐도 저자가 '찐' 이라는 것이 느껴졌습니다. 제목에서 보이다시피 면접대비를 위한 책이지만, 면접을 준비하는 사람 뿐 아니라 머신러닝을 현업으로 하고 있는 모든 분들께도 분명 도움이 되는 내용들이 많습니다. ML 기본 지식, 시스템 설계, 인프라 설계 등 실무를 한다면 한번쯤 겪게 되는 문제들이 예상질문으로 나와있습니다.ML 분야의 면접은 특히 자료가 많이 없어서 준비할 때 막연했던 느낌이 듭니다. 정보의 불균형이 심해서 여러 커뮤니티에서 질문들을 하며 스스로 정리를 잘 했어야 했는데요. 이 책이 더 일찍.. 2024. 4. 28.
[GPT-2] Language Models are Unsupervised Multitask Learners Abstract 이 논문은 대량의 웹 데이터로 학습시킨 언어 모델이 명시적인 지도 학습 없이 다양한 작업을 수행할 수 있음을 보여줍니다. 주요 내용은 다음과 같습니다: 1. 40GB의 웹 텍스트 데이터로 GPT-2라는 대규모 언어 모델을 학습시켰습니다. 2. 이 모델은 언어 모델링, 질의응답, 기계번역, 요약 등 다양한 자연어처리 작업에서 지도 학습 없이도 준수한 성능을 보였습니다. 3. 모델 크기를 키울수록 제로샷 성능이 크게 향상되었고, 이는 대규모 언어 모델이 자연어 이해 능력을 습득할 수 있음을 시사합니다. 4. 웹 데이터를 활용한 비지도 다중 작업 학습이 강력한 언어 모델 학습에 효과적임을 입증했습니다. 5. 다만 이 방식의 한계점과 부작용에 대해서도 논의하였습니다. 즉, 양질의 대규모 텍스트만.. 2024. 4. 18.
[BERT] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding Abstract BERT는 복잡하게 들릴 수 있는데, 실제로는 언어를 이해하는 데 큰 도움이 되는 간단한 아이디어에 기반을 두고 있습니다. BERT는 기본적으로 대량의 텍스트 데이터를 사용하여 컴퓨터가 언어의 구조를 학습할 수 있게 해주는 모델입니다. 이 모델의 핵심은 양방향성을 가진다는 것입니다. 즉, BERT는 문장을 처리할 때, 단어 앞뒤의 문맥을 모두 고려합니다. 이전의 많은 모델들은 문장을 한 방향(왼쪽에서 오른쪽 또는 그 반대)으로만 처리했기 때문에, BERT가 가져온 큰 변화 중 하나 입니다. 이런 방식 덕분에, BERT는 문장 안에서 단어의 의미를 더 정확하게 파악할 수 있게 되고, 이는 다양한 언어 처리 작업에서 더 좋은 성능을 낼 수 있게 해주게 됩니다. 예를 들어, 사람이 질문에 답하.. 2024. 4. 11.
[GPT-1]Improving Language Understandingby Generative Pre-Training Abstract 자연어 이해는 텍스트 속에 숨겨진 의미를 파악하고 질문에 대답하는 등 다양한 작업을 포함하는 분야입니다. 이러한 작업을 위해서는 대량의 텍스트 데이터가 필요한데, 레이블이 붙어 있는 데이터는 부족한 상황입니다. 이 연구에서는 레이블이 없는 텍스트를 활용하여 언어 모델을 사전 학습시키고, 이를 각 작업에 맞게 파인 튜닝하는 방법을 제안합니다. 이 방법은 기존 방식과 달리 모델 구조를 크게 변경하지 않고도 효과적으로 적용할 수 있습니다. 실험 결과, 이 방법으로 학습한 모델이 각 작업에 특화된 모델보다 더 우수한 성능을 보였습니다. 구체적으로 상식 추론, 질의응답, 텍스트 함의 등 다양한 자연어 이해 작업에서 SOTA 대비 큰 성능 향상을 달성했습니다. 즉, 대량의 텍스트 데이터를 활용한 사.. 2024. 4. 4.
반응형