본문 바로가기
반응형

ML & DL/논문리뷰38

RAPTOR: RECURSIVE ABSTRACTIVE PROCESSINGFOR TREE-ORGANIZED RETRIEVAL ABSTRACT스탠포드 대학교의 연구팀이 개발한 RAPTOR 모델은 언어 모델이 정보를 더 잘 검색하고 이해할 수 있도록 돕기 위한 새로운 접근 방식입니다. 연구 목적일반적으로, 검색을 보강한 언어 모델은 세상에서 일어나는 변화를 더 잘 반영하고, 드문 지식을 통합하는 데 도움이 됩니다. 하지만, 대부분의 기존 방법들은 검색할 때 문서의 짧고 연속된 부분만을 가져오므로 문서 전체의 맥락을 이해하는 데 한계가 있습니다. RAPTOR 모델의 주요 아이디어 1. 재귀적 임베딩, 클러스터링, 요약 • 문서의 작은 부분(청크)을 재귀적으로 임베딩하고, 클러스터링하며, 요약합니다. • 이렇게 하면 문서의 요약 수준이 다른 여러 단계로 구성된 트리를 만들 수 있습니다. 2. 트리 구조를 활용한 검색 • 추론 시, R.. 2024. 5. 26.
Generative Representational Instruction Tuning Abstract자연어 처리에서 생성(generation)과 임베딩(embedding) 작업을 모두 다룰 수 있는 새로운 방법인 GRIT(Generative Representational Instruction Tuning)에 대해 설명하고 있습니다.기존의 언어 모델들은 주로 생성이나 임베딩 중 한 가지 작업에서만 좋은 성능을 보였습니다. 하지만 GRIT은 명령어(instruction)를 통해 생성과 임베딩 작업을 구분함으로써, 하나의 대형 언어 모델로 두 가지 작업을 모두 처리할 수 있게 합니다.GRIT을 적용한 GRITLM 7B 모델은 MTEB(Massive Text Embedding Benchmark)에서 새로운 최고 성능을 달성했고, 다양한 생성 작업에서도 같은 크기의 다른 모델들을 능가했습니다. 더.. 2024. 5. 19.
[PPO] Proximal Policy Optimization Algorithms Abstract프록시말 정책 최적화(Proximal Policy Optimization, PPO)는 강화학습을 위한 새로운 정책 경사 방법입니다. 이 방법은 환경과의 상호작용을 통해 데이터를 샘플링하고, 확률적 경사 상승법을 사용하여 "대리" 목적 함수를 최적화하는 과정을 번갈아 수행합니다.기존의 정책 경사 방법은 데이터 샘플 하나당 한 번의 경사 업데이트를 수행하는 반면, PPO는 미니배치 업데이트를 여러 번 수행할 수 있는 새로운 목적 함수를 제안합니다. 이는 트러스트 영역 정책 최적화(Trust Region Policy Optimization, TRPO)의 장점을 가지면서도, 구현이 훨씬 간단하고 더 일반적이며, 실험적으로 더 나은 샘플 복잡도를 보입니다.PPO는 시뮬레이션 로봇 이동과 아타리 게임.. 2024. 5. 5.
[GPT-2] Language Models are Unsupervised Multitask Learners Abstract 이 논문은 대량의 웹 데이터로 학습시킨 언어 모델이 명시적인 지도 학습 없이 다양한 작업을 수행할 수 있음을 보여줍니다. 주요 내용은 다음과 같습니다: 1. 40GB의 웹 텍스트 데이터로 GPT-2라는 대규모 언어 모델을 학습시켰습니다. 2. 이 모델은 언어 모델링, 질의응답, 기계번역, 요약 등 다양한 자연어처리 작업에서 지도 학습 없이도 준수한 성능을 보였습니다. 3. 모델 크기를 키울수록 제로샷 성능이 크게 향상되었고, 이는 대규모 언어 모델이 자연어 이해 능력을 습득할 수 있음을 시사합니다. 4. 웹 데이터를 활용한 비지도 다중 작업 학습이 강력한 언어 모델 학습에 효과적임을 입증했습니다. 5. 다만 이 방식의 한계점과 부작용에 대해서도 논의하였습니다. 즉, 양질의 대규모 텍스트만.. 2024. 4. 18.
반응형