본문 바로가기
반응형

-308

LLaDA-V: Large Language Diffusion Models withVisual Instruction Tuning 원문: https://www.arxiv.org/pdf/2505.16933코드: https://github.com/ML-GSAI/LLaDA-V (작성 시점 아직 공개 안됨) Abstract 논문의 핵심: LLADA(https://arxiv.org/pdf/2502.09992) 팀에서 새로운 멀티모달 모델인 LLaDA-V 제안함.기존 방식 (순서대로 글자 맞추는 방식, autoregressive)과 다르게, 확산(diffusion) 방식 씀.확산 방식은 이미지나 글 전체를 한번에 채워넣듯 생성하는 방식임.모델 구조:텍스트 전용 확산 모델 LLaDA를 기반으로 만듦.이미지 정보 이해할 수 있게 비전 인코더 추가.이미지랑 텍스트 이어주는 MLP 커넥터 붙임.실험 결과:글만 놓고 보면 LLaDA-V 성능이 유명한 .. 2025. 5. 25.
Learning from Peers in Reasoning Models 원문: https://arxiv.org/pdf/2505.07787 Abstract배경큰 언어 모델(LRMs)들은 스스로 reasoning(추론)을 하면서 잘못된 부분을 어느 정도 스스로 수정할 수 있는 능력이 있음.그런데 시작 부분(접두(prefix) 부분)이 너무 짧고 부실하게 시작되어 버리면, 그 뒤에 잘못된 방향으로 계속 reasoning이 이어져서 수정하기 어려운 문제가 생긴다. 이를 “Prefix Dominance Trap”이라고 부름.해결 아이디어: 친구(동료)에게 배우기 (LeaP)심리학 연구를 보면, 다른 사람들과 토론(피어(peer) 상호작용)을 하면 잘못된 아이디어를 스스로 바르게 고치게 되는 경우가 많다고 한다.그래서 연구진은 모델들끼리 “협업”하는 방식으로 이 문제를 풀고자 했고, .. 2025. 5. 18.
LegoGPT: Generating Physically Stable and Buildable LEGO® Designs from Text 원문: https://arxiv.org/pdf/2505.05469데모 & 코드: https://avalovelace1.github.io/LegoGPT/ LegoGPT: Generating Physically Stable and Buildable LEGO Designs from TextAbstract We introduce LegoGPT, the first approach for generating physically stable LEGO brick models from text prompts. To achieve this, we construct a large-scale, physically stable dataset of LEGO designs, along with their associated cap.. 2025. 5. 11.
SPARSE AUTOENCODERS FIND HIGHLY INTERPRETABLE FEATURES IN LANGUAGE MODELS 원문: https://arxiv.org/pdf/2309.08600 ABSTRACT배경 (무엇이 문제인가?):AI(신경망)는 내부적으로 아주 복잡한 계산을 합니다. 특히 하나의 뉴런이 여러 가지 서로 다른 역할을 동시에 하는 경우가 있습니다. 이를 다의성(polysemanticity)이라고 부르는데, 이런 다의성 때문에 사람들은 AI가 내부에서 어떤 일을 하고 있는지 쉽게 이해하기 어렵습니다.이런 다의성이 생기는 이유 중 하나는 뉴런의 숫자보다 AI가 학습한 정보(특징)의 숫자가 더 많기 때문입니다. 그래서 뉴런들은 여러 개의 특징을 동시에 표현하게 되는데, 이를 중첩(superposition) 이라고 부릅니다.이 연구의 목적과 방법 (무엇을 했는가?):이 논문의 연구진은 이런 문제를 해결하기 위해 희소 .. 2025. 5. 4.
반응형