본문 바로가기
반응형

전체 글312

ProtoReasoning: Prototypes as the Foundation forGeneralizable Reasoning in LLMs 원문: https://arxiv.org/pdf/2506.15211 AbstractAI가 추론을 더 잘하도록 만드는 새로운 방법을 제안하는 논문 핵심 아이디어: AI가 서로 다른 분야의 문제를 잘 푸는 이유는 모든 문제 뒤에 공통된 "추론 패턴"이 있기 때문ProtoReasoning 방법문제를 간단한 형태로 변환: 복잡한 자연어 문제를 Prolog나 PDDL 같은 컴퓨터가 이해하기 쉬운 형태로 바꿉니다자동 검증: 답이 맞는지 컴퓨터가 자동으로 확인해줍니다무한 확장: 이 방식으로 새로운 문제를 계속 만들어냅니다결과논리 추론: 4.7% 향상계획 수립: 6.3% 향상일반 추론: 4.0% 향상수학: 1.0% 향상기여점: AI가 단순히 암기가 아니라 진짜 "추론 패턴"을 학습하게 되어, 새로운 종류의 문제도 더 잘.. 2025. 6. 22.
Fast Inference from Transformers via Speculative Decoding 원문: https://arxiv.org/pdf/2211.17192Abstract이 논문은 큰 언어모델(LLM)의 텍스트 생성 속도를 높이는 "추측 디코딩(speculative decoding)" 기법을 소개하고 있다.기존 문제점큰 언어모델은 한 번에 하나씩만 단어를 생성할 수 있어서 느림K개의 토큰을 만들려면 모델을 K번 연속으로 실행해야 함핵심 아이디어작은 모델로 먼저 추측하기: 빠르지만 작은 모델이 여러 개의 단어를 미리 예측큰 모델로 검증하기: 큰 모델이 이 예측들을 한 번에 병렬로 검토해서 맞는지 확인맞으면 채택, 틀리면 수정: 예측이 맞으면 그대로 사용하고, 틀리면 큰 모델이 올바른 답 제시비유로 설명하면 학생(작은 모델)이 시험 문제 여러 개를 먼저 풀어보고, 선생님(큰 모델)이 한 번에 여러.. 2025. 6. 15.
From Natural Language to SQL: Review ofLLM-based Text-to-SQL Systems 원문: https://arxiv.org/pdf/2410.01066 ABSTRACT이 논문은 대형 언어 모델(LLM)을 사용해서 사용자가 일상적으로 쓰는 자연어 질문(예: "올해 가장 많이 팔린 상품은?")을 SQL이라는 데이터베이스 언어로 정확히 변환하는 기술에 대한 것입니다.특히, 이 논문에서는 RAG(Retrieval Augmented Generation) 기술을 함께 사용했을 때 변환 성능이 더 좋아진다는 점을 강조합니다. 이 RAG 기술은 외부에서 필요한 정보를 찾아서 모델이 더 정확한 SQL을 만들 수 있게 도와주는 방식입니다.또한 논문에서는이 분야가 어떻게 발전해왔는지 초기 규칙기반 모델에서 최근 LLM과 RAG를 결합한 최신 모델까지 정리합니다.각종 평가방법과 성능 측정을 위한 기준들(벤치마.. 2025. 6. 8.
[나는 리뷰어다] 윌 라슨의 엔지니어링 리더십 "한빛미디어 서평단 활동을 위해서 책을 협찬받아 작성된 서평입니다."🖋 한줄평테크 리더로 성장하고 싶은 엔지니어에게 실무에서 바로 적용 가능한 전략과 통찰을 제공하는 필독서 ✔ 책의 구성이 책은 총 24개의 챕터와 에필로그, 그리고 다양한 부록으로 이루어져 있으며, 크게 다음과 같은 체계로 구성되어 있습니다.리더십 입문과 초기 적응 (Chapter 1~2)임원직을 향한 여정, 첫 90일 로드맵 등 새로운 리더가 조직에 빠르게 녹아들기 위한 가이드를 제시합니다.전략과 조직 운영 (Chapter 3~7)엔지니어링 전략 수립, 가치 창출, 조직 평가, 인수합병 참여 등 중장기 관점에서 조직을 운영하고 성장시키는 방법을 다룹니다.리더십 스타일 및 커뮤니케이션 (Chapter 8~11)다양한 리더십 스타일, .. 2025. 6. 1.
LLaDA-V: Large Language Diffusion Models withVisual Instruction Tuning 원문: https://www.arxiv.org/pdf/2505.16933코드: https://github.com/ML-GSAI/LLaDA-V (작성 시점 아직 공개 안됨) Abstract 논문의 핵심: LLADA(https://arxiv.org/pdf/2502.09992) 팀에서 새로운 멀티모달 모델인 LLaDA-V 제안함.기존 방식 (순서대로 글자 맞추는 방식, autoregressive)과 다르게, 확산(diffusion) 방식 씀.확산 방식은 이미지나 글 전체를 한번에 채워넣듯 생성하는 방식임.모델 구조:텍스트 전용 확산 모델 LLaDA를 기반으로 만듦.이미지 정보 이해할 수 있게 비전 인코더 추가.이미지랑 텍스트 이어주는 MLP 커넥터 붙임.실험 결과:글만 놓고 보면 LLaDA-V 성능이 유명한 .. 2025. 5. 25.
Learning from Peers in Reasoning Models 원문: https://arxiv.org/pdf/2505.07787 Abstract배경큰 언어 모델(LRMs)들은 스스로 reasoning(추론)을 하면서 잘못된 부분을 어느 정도 스스로 수정할 수 있는 능력이 있음.그런데 시작 부분(접두(prefix) 부분)이 너무 짧고 부실하게 시작되어 버리면, 그 뒤에 잘못된 방향으로 계속 reasoning이 이어져서 수정하기 어려운 문제가 생긴다. 이를 “Prefix Dominance Trap”이라고 부름.해결 아이디어: 친구(동료)에게 배우기 (LeaP)심리학 연구를 보면, 다른 사람들과 토론(피어(peer) 상호작용)을 하면 잘못된 아이디어를 스스로 바르게 고치게 되는 경우가 많다고 한다.그래서 연구진은 모델들끼리 “협업”하는 방식으로 이 문제를 풀고자 했고, .. 2025. 5. 18.
LegoGPT: Generating Physically Stable and Buildable LEGO® Designs from Text 원문: https://arxiv.org/pdf/2505.05469데모 & 코드: https://avalovelace1.github.io/LegoGPT/ LegoGPT: Generating Physically Stable and Buildable LEGO Designs from TextAbstract We introduce LegoGPT, the first approach for generating physically stable LEGO brick models from text prompts. To achieve this, we construct a large-scale, physically stable dataset of LEGO designs, along with their associated cap.. 2025. 5. 11.
SPARSE AUTOENCODERS FIND HIGHLY INTERPRETABLE FEATURES IN LANGUAGE MODELS 원문: https://arxiv.org/pdf/2309.08600 ABSTRACT배경 (무엇이 문제인가?):AI(신경망)는 내부적으로 아주 복잡한 계산을 합니다. 특히 하나의 뉴런이 여러 가지 서로 다른 역할을 동시에 하는 경우가 있습니다. 이를 다의성(polysemanticity)이라고 부르는데, 이런 다의성 때문에 사람들은 AI가 내부에서 어떤 일을 하고 있는지 쉽게 이해하기 어렵습니다.이런 다의성이 생기는 이유 중 하나는 뉴런의 숫자보다 AI가 학습한 정보(특징)의 숫자가 더 많기 때문입니다. 그래서 뉴런들은 여러 개의 특징을 동시에 표현하게 되는데, 이를 중첩(superposition) 이라고 부릅니다.이 연구의 목적과 방법 (무엇을 했는가?):이 논문의 연구진은 이런 문제를 해결하기 위해 희소 .. 2025. 5. 4.
반응형