반응형 전체 글321 SPARSE AUTOENCODERS FIND HIGHLY INTERPRETABLE FEATURES IN LANGUAGE MODELS 원문: https://arxiv.org/pdf/2309.08600 ABSTRACT배경 (무엇이 문제인가?):AI(신경망)는 내부적으로 아주 복잡한 계산을 합니다. 특히 하나의 뉴런이 여러 가지 서로 다른 역할을 동시에 하는 경우가 있습니다. 이를 다의성(polysemanticity)이라고 부르는데, 이런 다의성 때문에 사람들은 AI가 내부에서 어떤 일을 하고 있는지 쉽게 이해하기 어렵습니다.이런 다의성이 생기는 이유 중 하나는 뉴런의 숫자보다 AI가 학습한 정보(특징)의 숫자가 더 많기 때문입니다. 그래서 뉴런들은 여러 개의 특징을 동시에 표현하게 되는데, 이를 중첩(superposition) 이라고 부릅니다.이 연구의 목적과 방법 (무엇을 했는가?):이 논문의 연구진은 이런 문제를 해결하기 위해 희소 .. 2025. 5. 4. [나는 리뷰어다] 쉽고 빠르게 익히는 실전 LLM(2판) "한빛미디어 서평단 활동을 위해서 책을 협찬받아 작성된 서평입니다."🖋 한줄평실무 중심의 명쾌한 해설로 LLM의 활용법을 구체적으로 제시하는 가이드북✔ 책의 구성책은 크게 세 부분으로 구성되어 있습니다.1부 LLM 소개: LLM의 개념과 주요 모델(GPT, BERT, T5 등)을 설명하고, 의미 기반 검색, 벡터 데이터베이스, RAG 파이프라인 및 AI 에이전트 구축 사례를 다룹니다.2부 LLM 활용법: 모델을 최적화하고 맞춤형 프롬프트 엔지니어링 및 임베딩 조정을 통해 실질적으로 활용할 수 있는 방법을 제시합니다.3부 고급 LLM 사용법: RLHF, 피드백 기반 강화 학습 등 고급 기술을 통해 오픈소스 LLM을 세밀히 조정하는 방법을 심도 있게 다룹니다.부록에서는 자주 묻는 질문(FAQ), 용어 해.. 2025. 4. 25. AUDITING LANGUAGE MODELSFOR HIDDEN OBJECTIVES 원문: https://arxiv.org/pdf/2503.10965 이 논문은 대형 언어 모델의 답변 신뢰도를 높이기 위해 RCI라는 새로운 내부 평가 방식을 제안하고 실험적으로 입증한 연구입니다. 특히 답변 생성 중 내부에서 스스로 검증(Internal Verification)하는 과정이 신뢰성 향상에 매우 효과적이라는 것이 핵심 메시지라고 할 수 있습니다. 1. Introduction이 논문은 AI 모델이 겉으로는 좋아 보이는 행동을 하지만, 실제로는 개발자가 원치 않는 숨겨진 목표를 추구할 가능성이 있음을 지적함.따라서 겉모습만 평가하는 것이 아니라, AI의 숨겨진 목표까지도 찾아내는 ‘감사(audit)’의 필요성을 강조함.2. TerminologyObjective(목표): AI가 일관되게 행동을 유.. 2025. 4. 20. Training Large Language Models to Reason in aContinuous Latent Space 원문: https://arxiv.org/pdf/2412.06769 24년 12월 Meta에서 발표한 논문으로, 사람이 생각을 머릿속으로 하는 것처럼, LLM도 Reasoning을 토큰으로 출력하는 대신 Latent Space에서 수행할 수 있도록 하는 방법론인 COCONUT을 제안합니다.0. Abstract- LLM이 일반적으로 chain-of-thought (CoT)를 사용할 때, “언어 공간"에서만 추론 과정을 표현할 수 있다.- 그러나, 언어 공간이 추론에 항상 최적인 것은 아닐 수 있다. 대부분의 토큰은 텍스트 일관성을 위한 것이며 추론에 필수적이지 않고, 일부 토큰만이 reasoning에 중요한 역할을 한다.- **COCONUT**: 자연어 대신 잠재 공간에서 LLM이 추론하게하자. - 가.. 2025. 4. 13. [나는 리뷰어다] 파이썬으로 웹 크롤러 만들기(3판) "한빛미디어 서평단 활동을 위해서 책을 협찬받아 작성된 서평입니다."🖋 한줄평AI 시대, 경쟁력을 확보를 위한 데이터 수집 실전 무기를 갖출 수 있는 책✔ 왜 웹 크롤러를 만들어야 하는가?오늘날 우리는 수많은 정보가 웹에 존재하는 시대에 살고 있습니다. 하지만 웹사이트를 하나하나 직접 브라우저로 열어보는 방식만으로는 이렇게 방대한 데이터를 제대로 활용하기가 쉽지 않죠. 이럴 때 큰 도움이 되는 것이 바로 웹 스크레이핑입니다. 웹 스크레이핑은 원하는 정보를 빠르고 효율적으로 수집할 수 있게 도와주는 아주 강력한 도구예요.웹 스크레이핑이란, 웹 여기저기에 흩어져 있는 데이터를 자동으로 모으고, 이를 우리가 활용할 수 있도록 정리해주는 기술입니다. 사람이 직접 하나하나 페이지를 넘기며 데이터를 복사·붙여넣.. 2025. 3. 28. Native Sparse Attention: Hardware-Aligned and NativelyTrainable Sparse Attention 원문: https://arxiv.org/pdf/2502.11089 Introduction - 긴 문맥 모델링의 중요성최근 연구에서는 긴 문맥(long-context) 처리 능력이 차세대 대형 언어 모델(LLM)에서 매우 중요한 요소로 떠오르고 있음• 복잡한 문제 해결과 심층 추론 (예: DeepSeek-AI, 2025) • 긴 코드베이스를 한 번에 처리하는 코드 생성 (예: Zhang et al., 2023) • 수많은 대화를 주고받는 AI 에이전트 시스템 (예: Park et al., 2023)최근 등장한 OpenAI o-series, DeepSeek-R1, Gemini 1.5 Pro 같은 모델들은 ✅ 긴 문서나 코드베이스를 한 번에 처리하고 ✅ 수천 개의 단어가 포함된 대화를 이해하며 ✅ 문맥을 유.. 2025. 3. 23. Slim attention: cut your context memory in half withoutloss of accuracy — K-cache is all you need for MHA 원문: https://arxiv.org/pdf/2503.05840 이 논문에서는 Transformer 모델의 Slim attention이라는 새로운 attention 메커니즘을 제안한다. Slim attention은 Multi-Head Attention (MHA)에서 context memory 크기를 절반으로 줄여 inference 속도를 향상시킨다. 핵심 아이디어는 value (V) projection을 key (K) projection으로부터 계산하여 KV-cache 크기를 줄이는 것이다. 이 방법은 수학적으로 동일하므로 모델 정확도를 손상시키지 않으며, 특히 긴 context를 처리하는 데 효율적이다. 또한, Slim attention은 encoder-decoder 구조에서 context memor.. 2025. 3. 16. TinyTroupe 라이브러리 실험 TinyTroupe 세 줄 요약github: https://github.com/microsoft/TinyTroupeTinyTroupe는 AI 기반의 다중 에이전트 시뮬레이션 라이브러리로, 사용자가 특정 개인성과 목표를 가진 인공 에이전트인 `TinyPerson`을 생성하여 다양한 비즈니스 시나리오를 실험할 수 있도록 돕는다. 이 도구는 상상력 향상과 소비자 행동 이해를 목표로 하며, 광고 평가, 소프트웨어 테스트, 제품 관리 등 여러 분야에서 활용될 수 있다. TinyTroupe는 연구 및 실험 목적으로 개발되었으며, 사용자 피드백을 통해 지속적으로 발전할 예정이다. TinyTroupe 개요- TinyTroupe는 특정 성격, 관심사, 목표를 가진 사람들을 시뮬레이션할 수 있는 실험적인 Python 라이.. 2025. 3. 9. 이전 1 2 3 4 5 6 ··· 41 다음 반응형