본문 바로가기
반응형

-292

[PPO] Proximal Policy Optimization Algorithms Abstract프록시말 정책 최적화(Proximal Policy Optimization, PPO)는 강화학습을 위한 새로운 정책 경사 방법입니다. 이 방법은 환경과의 상호작용을 통해 데이터를 샘플링하고, 확률적 경사 상승법을 사용하여 "대리" 목적 함수를 최적화하는 과정을 번갈아 수행합니다.기존의 정책 경사 방법은 데이터 샘플 하나당 한 번의 경사 업데이트를 수행하는 반면, PPO는 미니배치 업데이트를 여러 번 수행할 수 있는 새로운 목적 함수를 제안합니다. 이는 트러스트 영역 정책 최적화(Trust Region Policy Optimization, TRPO)의 장점을 가지면서도, 구현이 훨씬 간단하고 더 일반적이며, 실험적으로 더 나은 샘플 복잡도를 보입니다.PPO는 시뮬레이션 로봇 이동과 아타리 게임.. 2024. 5. 5.
[나는 리뷰어다] 인사이드 머신러닝 인터뷰 "한빛미디어  활동을 위해서 책을 제공받아 작성된 서평입니다." 이 책을 저의 학습 데이터셋에 바칩니다.데이터셋이 없었다면아무것도 알 수 없었을 것입니다.첫 페이지에 보이는 글입니다. 이것만 봐도 저자가 '찐' 이라는 것이 느껴졌습니다. 제목에서 보이다시피 면접대비를 위한 책이지만, 면접을 준비하는 사람 뿐 아니라 머신러닝을 현업으로 하고 있는 모든 분들께도 분명 도움이 되는 내용들이 많습니다. ML 기본 지식, 시스템 설계, 인프라 설계 등 실무를 한다면 한번쯤 겪게 되는 문제들이 예상질문으로 나와있습니다.ML 분야의 면접은 특히 자료가 많이 없어서 준비할 때 막연했던 느낌이 듭니다. 정보의 불균형이 심해서 여러 커뮤니티에서 질문들을 하며 스스로 정리를 잘 했어야 했는데요. 이 책이 더 일찍 나왔다면 .. 2024. 4. 28.
[GPT-2] Language Models are Unsupervised Multitask Learners Abstract 이 논문은 대량의 웹 데이터로 학습시킨 언어 모델이 명시적인 지도 학습 없이 다양한 작업을 수행할 수 있음을 보여줍니다. 주요 내용은 다음과 같습니다: 1. 40GB의 웹 텍스트 데이터로 GPT-2라는 대규모 언어 모델을 학습시켰습니다. 2. 이 모델은 언어 모델링, 질의응답, 기계번역, 요약 등 다양한 자연어처리 작업에서 지도 학습 없이도 준수한 성능을 보였습니다. 3. 모델 크기를 키울수록 제로샷 성능이 크게 향상되었고, 이는 대규모 언어 모델이 자연어 이해 능력을 습득할 수 있음을 시사합니다. 4. 웹 데이터를 활용한 비지도 다중 작업 학습이 강력한 언어 모델 학습에 효과적임을 입증했습니다. 5. 다만 이 방식의 한계점과 부작용에 대해서도 논의하였습니다. 즉, 양질의 대규모 텍스트만.. 2024. 4. 18.
[BERT] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding Abstract BERT는 복잡하게 들릴 수 있는데, 실제로는 언어를 이해하는 데 큰 도움이 되는 간단한 아이디어에 기반을 두고 있습니다. BERT는 기본적으로 대량의 텍스트 데이터를 사용하여 컴퓨터가 언어의 구조를 학습할 수 있게 해주는 모델입니다. 이 모델의 핵심은 양방향성을 가진다는 것입니다. 즉, BERT는 문장을 처리할 때, 단어 앞뒤의 문맥을 모두 고려합니다. 이전의 많은 모델들은 문장을 한 방향(왼쪽에서 오른쪽 또는 그 반대)으로만 처리했기 때문에, BERT가 가져온 큰 변화 중 하나 입니다. 이런 방식 덕분에, BERT는 문장 안에서 단어의 의미를 더 정확하게 파악할 수 있게 되고, 이는 다양한 언어 처리 작업에서 더 좋은 성능을 낼 수 있게 해주게 됩니다. 예를 들어, 사람이 질문에 답하.. 2024. 4. 11.
반응형