본문 바로가기
반응형

ML & DL/논문리뷰37

Training Large Language Models to Reason in aContinuous Latent Space 원문: https://arxiv.org/pdf/2412.06769 24년 12월 Meta에서 발표한 논문으로, 사람이 생각을 머릿속으로 하는 것처럼, LLM도 Reasoning을 토큰으로 출력하는 대신 Latent Space에서 수행할 수 있도록 하는 방법론인 COCONUT을 제안합니다.0. Abstract- LLM이 일반적으로 chain-of-thought (CoT)를 사용할 때, “언어 공간"에서만 추론 과정을 표현할 수 있다.- 그러나, 언어 공간이 추론에 항상 최적인 것은 아닐 수 있다. 대부분의 토큰은 텍스트 일관성을 위한 것이며 추론에 필수적이지 않고, 일부 토큰만이 reasoning에 중요한 역할을 한다.- **COCONUT**: 자연어 대신 잠재 공간에서 LLM이 추론하게하자.    - 가.. 2025. 4. 13.
Native Sparse Attention: Hardware-Aligned and NativelyTrainable Sparse Attention 원문: https://arxiv.org/pdf/2502.11089  Introduction - 긴 문맥 모델링의 중요성최근 연구에서는 긴 문맥(long-context) 처리 능력이 차세대 대형 언어 모델(LLM)에서 매우 중요한 요소로 떠오르고 있음• 복잡한 문제 해결과 심층 추론 (예: DeepSeek-AI, 2025) • 긴 코드베이스를 한 번에 처리하는 코드 생성 (예: Zhang et al., 2023) • 수많은 대화를 주고받는 AI 에이전트 시스템 (예: Park et al., 2023)최근 등장한 OpenAI o-series, DeepSeek-R1, Gemini 1.5 Pro 같은 모델들은 ✅ 긴 문서나 코드베이스를 한 번에 처리하고 ✅ 수천 개의 단어가 포함된 대화를 이해하며 ✅ 문맥을 유.. 2025. 3. 23.
Slim attention: cut your context memory in half withoutloss of accuracy — K-cache is all you need for MHA 원문: https://arxiv.org/pdf/2503.05840 이 논문에서는 Transformer 모델의 Slim attention이라는 새로운 attention 메커니즘을 제안한다. Slim attention은 Multi-Head Attention (MHA)에서 context memory 크기를 절반으로 줄여 inference 속도를 향상시킨다. 핵심 아이디어는 value (V) projection을 key (K) projection으로부터 계산하여 KV-cache 크기를 줄이는 것이다. 이 방법은 수학적으로 동일하므로 모델 정확도를 손상시키지 않으며, 특히 긴 context를 처리하는 데 효율적이다. 또한, Slim attention은 encoder-decoder 구조에서 context memor.. 2025. 3. 16.
MLGym: A New Framework and Benchmarkfor Advancing AI Research Agents 원문: https://arxiv.org/pdf/2502.14499 이 논문에서는 MLGym와 MLGym-Bench라는 새로운 프레임워크를 소개하며 인공지능 에이전트의 성능을 평가하고 발전시키기 위한 기준을 제공합니다. MLGym-bench는 컴퓨터 비전, 자연어 처리, 강화 학습, 게임 이론 등 다양한 분야에서 13개의 다채롭고 개방형인 AI 연구 과제로 구성됩니다. 이러한 과제들을 해결하기 위해서는 새로운 아이디어와 가설의 생성, 데이터 생성 및 처리, ML 기법 구현, 모델 학습, 실험 수행, 결과 분석, 그리고 반복적인 개선과정 등 실제 AI 연구에서 요구되는 다양한 역량이 필요합니다.논문에서는 Claude-3.5-Sonnet, Llama-3.1 405B, GPT-4o, o1-preview, Gem.. 2025. 2. 23.
반응형