원문: https://www.arxiv.org/pdf/2505.16933
코드: https://github.com/ML-GSAI/LLaDA-V (작성 시점 아직 공개 안됨)
Abstract
- 논문의 핵심: LLADA(https://arxiv.org/pdf/2502.09992) 팀에서 새로운 멀티모달 모델인 LLaDA-V 제안함.
- 기존 방식 (순서대로 글자 맞추는 방식, autoregressive)과 다르게, 확산(diffusion) 방식 씀.
- 확산 방식은 이미지나 글 전체를 한번에 채워넣듯 생성하는 방식임.
- 모델 구조:
- 텍스트 전용 확산 모델 LLaDA를 기반으로 만듦.
- 이미지 정보 이해할 수 있게 비전 인코더 추가.
- 이미지랑 텍스트 이어주는 MLP 커넥터 붙임.
- 실험 결과:
- 글만 놓고 보면 LLaDA-V 성능이 유명한 모델(LLaMA3-8B, Qwen2-7B)보다 약간 떨어짐.
- 근데 이미지+텍스트 멀티모달 작업에서는 매우 잘함.
- 같은 데이터를 쓰면 LLaMA3-V랑 비슷한 성능 보임.
- 데이터가 많아질수록 성능이 더 좋아짐.
- 기존 하이브리드(자기회귀+확산)나 순수 확산 방식 중 멀티모달 이해 능력은 제일 좋음.
- 결론:
- 확산 모델 기반의 대형언어모델이 멀티모달 분야에서 매우 유망함.
- 앞으로 연구해볼 가치가 큼.
1 Introduction
- 논문의 주제:
멀티모달 대형언어모델(MLLM)은 텍스트 외에도 이미지, 오디오, 비디오 등 다양한 정보를 동시에 처리하고, 자연어 응답을 생성할 수 있는 모델임. - 기존 연구 상황:
대부분 기존 멀티모달 모델은 글자를 하나씩 순서대로 예측하는 자기회귀(autoregressive) 방식을 씀.
최근 들어 확산(diffusion) 방식도 시도되었지만,- 언어 모델 성능 좋은 자기회귀 모델에 의존하거나,
- 언어 능력이 약한 순수 확산 방식을 사용해서 성능이 별로였음.
- 이 연구의 핵심 질문:
"순수 확산 방식(처음부터 끝까지 확산 방식만 사용한)이 과연 자기회귀 방식과 비슷하거나 더 나은 성능을 낼 수 있을까?"
- 연구의 핵심 내용:
이 논문에서는 언어만 처리하던 확산 모델(LLaDA)을 멀티모달 모델(LLaDA-V)로 확장함.- 이미지 데이터를 처리할 수 있도록 비전 인코더(SigLIP) 추가.
- 이미지 특성을 언어 모델로 연결하는 MLP 커넥터 붙임.
- 여러 턴의 대화나 다양한 멀티모달 입력도 다룰 수 있게 학습 목표를 확장하고,
멀티모달 데이터에 맞는 attention 구조 및 추론 방식을 조정함.
- 주요 결과 및 발견:
실험을 통해 다음과 같은 중요한 결과를 얻음.
- 데이터가 많아질수록 LLaDA-V는 자기회귀 기반 모델(LLaMA3-V)보다 더 빠르게 성능이 좋아짐. 특히 수학이나 다양한 분야 지식을 요구하는 문제에서 우수함.
- 텍스트 능력이 조금 떨어지지만, 이미지+텍스트 작업에서는 오히려 LLaMA3-V나 강력한 자기회귀 모델(Qwen2-VL)과 비슷하거나 더 뛰어난 성능을 보임.
- 기존의 하이브리드 모델(자기회귀+확산 혼합)이나 다른 순수 확산 모델과 비교해도, 최고 성능을 달성함.
- 요약한 연구의 주요 기여:
- 순수 확산 모델 기반 멀티모달 모델 (LLaDA-V) 최초 제안
- 데이터 스케일링(양이 많아질 때 더 잘해짐)에서 자기회귀 모델보다 우수함 증명
- 현재 나와 있는 다른 하이브리드나 확산 기반 멀티모달 모델들 중 최고 성능 달성
결론적으로, 확산 모델을 기반으로 한 LLaDA-V가 멀티모달 작업에서 매우 효과적이며 앞으로 더 발전할 가능성이 크다고 주장함.
2 Preliminaries
이 섹션에서는 크게 두 가지를 간단히 소개함:
(1) 확산 방식 기반 대형언어모델 (Large Language Diffusion Models)
(2) 비주얼 인스트럭션 튜닝 (Visual Instruction Tuning)
2-1. 확산 방식 기반 대형언어모델 (Large Language Diffusion Models)
- 현재 많은 언어모델(LLM)들은 글자를 하나씩 차례대로 예측하는 자기회귀 방식(autoregressive)을 주로 사용함.
- 최근 들어 이를 대체할 수 있는 방법으로 이산 확산(discrete diffusion) 방식이 등장함.
- 특히, 이 중 마스크드 확산 모델(masked diffusion models)이 여러 분야에서 좋은 성능을 보였음.
LLaDA라는 모델이 대표적:
- 자기회귀 방식의 대표적인 강력한 모델(LLaMA3-8B-Instruct)과 거의 비슷한 성능을 보이면서도, 확산 방식 특유의 장점을 유지함.
- 자기회귀 방식과 근본적으로 다른 마스크드 확산(masked diffusion) 과정을 사용함.
구체적인 작동 원리는 다음과 같음:
- 원래 문장이 x₀ = [xᵢ] (i = 1, ..., N) 라고 하면,
- 먼저, 앞 방향 과정(forward process)에서 시간(t)을 [0, 1] 사이에서 랜덤으로 하나 뽑음.
- 그 다음, 뽑은 시간 t의 확률에 따라 문장 속 각 단어들을 특수 마스크 토큰([M])으로 가림 → 이렇게 만들어진 문장이 xtx_t.
- 뒤 방향 과정(reverse process)에서 전체가 마스크([M])로 채워진 문장부터 시작해, 원본 문장으로 되돌아가도록 가려진 단어들을 순차적으로 예측하며 복원함.
(수학적이고 더 자세한 공식은 원문에서 별도로 제공된 부록(Appendix A)에 있음)
2-2. 비주얼 인스트럭션 튜닝 (Visual Instruction Tuning)
- 멀티모달 대형언어모델(MLLM)의 대표적인 방법 중 하나.
- 적은 데이터로도 이미지와 텍스트를 동시에 잘 이해하는 모델을 만들 수 있는 매우 효율적인 방법임.
이 방법은 크게 세 가지 구성요소로 이루어짐:
- 비전 타워(Vision Tower): 이미지(CLIP, SigLIP 등 유명 모델)를 시각적 특성으로 변환함.
- MLP 커넥터(Connector): 비전 타워의 결과를 언어모델이 이해할 수 있는 공간(embedding space)으로 옮김.
- 대형언어모델(LLM): 이미지와 텍스트를 함께 이해하는 역할 수행.
이 방식을 통해, 이미지-텍스트 데이터 100만 개 이하만으로도 매우 뛰어난 멀티모달 성능을 얻을 수 있음.
3 Method
- 기존 멀티모달 모델은 대부분 자기회귀(autoregressive) 방식 사용.
- 본 연구는 자기회귀 방식 대신 확산(diffusion) 모델을 이용한 멀티모달 모델 개발에 초점 맞춤.
- 특히, 비주얼 인스트럭션 튜닝을 확산 언어 모델에 적용하는 방법을 제안함.
이를 위해 다음과 같은 내용을 다룸
- 학습 목표 설계:
- 여러 턴(turn)이 오가는 멀티모달 대화를 처리할 수 있도록 학습 목표 설정.
- 어텐션 메커니즘 구조 탐색 (Sec 3.1):
- 모델이 이미지와 텍스트를 동시에 잘 이해할 수 있도록 어텐션 구조를 설계하고 탐구함.
- 추론(inference) 과정 설명 (Sec 3.2):
- 실제로 입력된 이미지와 텍스트를 처리할 때 모델이 어떻게 작동하는지 자세히 설명함.
- 다단계 학습 전략 설계 (Sec 3.3):
- 여러 단계에 걸쳐 효율적으로 모델을 훈련하는 방법을 제안하고 실험함.
이 방법들을 모두 종합하여, 확산 모델이 이미지와 텍스트를 함께 효과적으로 이해할 수 있도록 만듦.
3.1 Training Objective and Architecture
- LLaDA-V의 학습 데이터:
- 대부분의 멀티모달 모델처럼, 이미지와 여러 턴의 대화로 구성된 데이터를 사용함.
- 이해하기 쉽게, 이미지 1개 + 2번의 대화(질문-답변)를 예로 듦.
- LLaDA-V의 핵심 디자인 원칙:
- 모델 구조를 최대한 단순하고 효과적으로 만듦.
- 기존 자기회귀 모델들의 검증된 설계(visual instruction tuning)를 따라감.
- 따라서, 구조는 크게 언어 타워(language tower), 비전 타워(vision tower), MLP 프로젝터(projector)로 구성됨.
구성요소 선택한 모델 이유 언어 타워 LLaDA (확산 방식 언어모델) 자기회귀 기반 LLaMA3와 유사한 성능 비전 타워 SigLIP 2 기존 MLLM에서 검증된 강력한 성능 MLP 프로젝터 2-layer MLP 기존 연구에서 효과 입증됨
학습 목표 (Training Objective)
이미지 정보를 v 라고 하고, 특별한 마스크 토큰은 [M] 으로 표현합니다.
두 번의 대화(턴)를 (v, p0¹, r0¹, p0², r0²) 로 표기합니다.
- p0¹, p0²: 각각 첫 번째, 두 번째 턴의 질문(prompt)
- r0¹, r0²: 각 질문에 대한 정답(ground truth response)
LLaDA-V의 학습 목표를 직관적으로 설명하면 (그림 2 (b)):
- 입력된 이미지와 질문(prompt)은 가리지 않음.
- 답변(response)의 일부를 랜덤하게 마스킹([M])한 뒤, 그 부분을 정확히 맞추도록 모델을 훈련함.
수식적으로는 다음과 같음:
- 이 목표함수는 마스크된 부분에 대한 로그 확률(log-likelihood)의 하한임이 이론적으로 증명되어 있음.
- 쉽게 말하면, 깨끗한 이미지와 질문 정보를 바탕으로 마스크된 답변 토큰을 정확히 복원하는 능력을 높이는 것이 목표임.
어텐션 메커니즘 설계 (Attention Mechanism)
- LLaDA-V의 언어 타워에서 어텐션 메커니즘이 중요함.
- 멀티턴 대화에서 두 가지 어텐션 방식이 가능함
방식 | 설명 | 장단점 |
인과적(causal) 어텐션 | 현재 턴에서 이전 턴만 볼 수 있게 제한 (이전 턴이 다음 턴을 못 봄) | 실제 추론 과정과의 일관성 유지 가능 |
양방향(bidirectional) 어텐션 | 모든 턴을 다 보며 전체 대화의 맥락을 동시에 이해 | 맥락 전체 이해도가 높음, 최근 확산 모델에서도 우수함 입증 |
- 최근 비디오 확산 모델 연구에서도 양방향 어텐션 방식이 우수한 성능을 보였음(생성 품질과 맥락 이해 향상).
- 본 연구에서도 두 어텐션 방식 비교 실험을 진행(섹션 4.4)한 결과, 양방향 어텐션 방식이 대부분의 벤치마크에서 더 좋은 성능을 보였음.
- 그래서 본 연구에서는 양방향 어텐션 방식을 선택함.
결과적으로,
LLaDA-V는 마스크된 확산 방식과 양방향 어텐션 구조를 결합하여, 이미지와 텍스트를 효과적으로 이해할 수 있는 멀티모달 능력을 확보함.
3.2 Inference Process
- 모델을 학습한 뒤, LLaDA-V는 새 입력(prompt)에 대한 답변(response)을 생성할 수 있음.
- 자기회귀 모델이 다음 토큰을 하나씩 순차적으로 생성하는 것과 달리, 마스크드 확산 모델의 역과정(reverse process) 으로 한 번에 답변을 생성함.
예를 들어, 한 턴의 대화를 예시로 설명하면 다음과 같음:
- 우선 생성할 답변 길이를 정하고, 답변을 모두 마스크 토큰([M])으로 초기화함.
- 그림 2(c)에서 보듯이, 마스크된 답변을 점점 원래 문장으로 복원하는 방식으로 답변을 생성함.
- 구체적인 절차:
- 현재 마스크 상태인 r_t에서 다음 단계(r_s, s < t)로 넘어가면서 답변을 점차 완성함.
- 각 단계에서 두 가지를 반복함:
- 이미지(v), 질문(p₀), 현재 마스크 상태(r_t)를 보고 마스크([M])로 된 부분을 예측함.
- 예측된 토큰 중 일부(비율: s/t)를 다시 마스크([M]) 처리하고, 나머지(1 - s/t)는 그대로 유지함.
- 다시 마스크 처리(리마스킹, remasking) 할 때, 완전히 랜덤하게 하지 않고, 신뢰도(confidence)가 낮은 예측 토큰을 우선적으로 다시 마스크 하는 방식을 사용함.
- 이 방식이 더 좋은 성능을 보여주었기 때문에 선택함.
정리하면,
LLaDA-V는 자기회귀적 토큰 예측 대신, 확산 모델의 역과정을 통해 전체 답변을 한 번에 점진적으로 완성해가는 독특한 방식으로 추론함.
3.3 Training Strategies
LLaDA-V는 세 단계로 나누어 학습함.
처음 두 단계는 기존의 검증된 멀티모달 모델 학습 방식(LLaVA-NeXT 등)을 따랐고,
추가적으로 세 번째 단계에서 멀티모달 추론 능력을 더욱 향상시킴.
1단계: 언어-이미지 정렬 (Language-Image Alignment)
- 목적: 이미지 특성과 언어 모델의 임베딩을 맞춰주는 작업.
- 방법:
- 비전 타워와 언어 타워는 고정(학습X)하고, MLP 프로젝터만 학습함.
- 데이터: LLaVA의 사전학습(LLaVA-Pretrain) 데이터 사용.
2단계: 비주얼 인스트럭션 튜닝 (Visual Instruction Tuning)
- 목적: 실제 다양한 이미지/비디오 입력에 대한 멀티모달 이해력을 강화함.
- 방법: 전체 모델(언어+비전+MLP)을 대규모 데이터로 미세조정(fine-tuning)함.
- 데이터: 고품질의 대규모 멀티모달 데이터(MAmmoTH-VL)를 사용함.
두 개의 세부 단계로 나뉨:
(1) 단일 이미지 학습(Single Image Training)
- 약 1천만 개의 단일 이미지 데이터를 사용해서 학습함.
- 이 과정에서 모델은 이미지 하나를 정확히 인식하고 이해하는 능력을 갖추게 됨.
(2) OneVision 학습(OneVision Training)
- 약 2백만 개의 다양한 형태 데이터(단일 이미지, 다중 이미지, 비디오 포함)를 추가로 학습함.
- 이를 통해 복잡한 환경에서 여러 이미지 및 비디오 정보를 동시에 처리할 수 있는 능력을 확장함.
3단계: 멀티모달 추론 강화 (Multimodal Reasoning Enhancement)
- 목적: 복잡한 멀티모달 추론(논리적이고 복합적인 질문 처리)을 수행할 수 있도록 함.
- 두 가지 세부 단계로 구성됨:
(1) 추론 훈련(Reasoning Training)
- 데이터: 추론 과정을 상세히 포함한 약 90만 개의 질문-답변 데이터(VisualWebInstruct)를 사용.
- 모델이 복잡한 추론 과정을 거쳐 정답을 찾는 능력을 높임.
(2) 균형 잡힌 추론 훈련(Balanced Reasoning Training)
- 목표: 추론을 항상 수행하지 않고도 간단한 질문에 바로 답하는 유연성 추가.
- 데이터: 두 가지 데이터를 혼합하여 사용
- VisualWebInstruct 데이터(복잡한 추론 수행)
- OneVision 데이터(단순한 질문은 바로 답하도록 유도)
- 이 때, 프롬프트에 특정 태그를 붙여 학습함:
- 간단한 답변이 필요한 데이터 → /no_think 태그 사용
- 복잡한 추론이 필요한 데이터 중 50% → /think 태그 사용
(Qwen 3의 하이브리드 사고 방식(hybrid thinking)에서 아이디어를 얻어 적용함.)
결과적으로 이 세 단계를 통해 LLaDA-V는
- 언어와 이미지 정보를 효과적으로 연결하고,
- 다양한 상황(이미지 단독, 이미지 다수, 비디오 등)을 처리할 수 있으며,
- 복잡한 멀티모달 추론 문제에도 높은 성능을 보이도록 완성됨.
4. 실험 (Experiment)
이 섹션에서는 연구에서 진행한 실험 설정과 결과를 설명함.
크게 네 가지로 구성됨
- 4.1 실험 설정 (Experimental Settings)
실험에 사용한 환경, 모델 구성, 데이터 등 기본적인 실험 조건을 설명. - 4.2 데이터 규모 확장 실험 (Data Scaling Experiments)
데이터를 늘릴 때 모델 성능이 어떻게 향상되는지 살펴봄. - 4.3 종합적인 벤치마크 평가 (Comprehensive Benchmark Evaluations)
여러 다양한 벤치마크에서 LLaDA-V의 성능을 다른 모델들과 비교해 평가함. - 4.4 어텐션 마스크 선택에 대한 추가 실험 (Ablation Studies on Attention Mask Selection)
어텐션 메커니즘 구조에 따라 성능이 얼마나 달라지는지 추가로 분석함.
4.1 Experimental Settings
모델 구성
- 언어 타워: LLaDA-8B-Instruct 모델 사용
- 공개된 확산(diffusion) 기반의 언어모델
- 광범위한 사전학습(pre-training)과 지도 미세조정(SFT)을 거친 모델
- 단, 선호도 정렬(preference alignment) 기법이 포함되지 않아 Qwen2.5-7B나 LLaMA3-8B보다는 약간 성능이 낮음
- 기준(baseline) 모델과 비교를 위한 설정
- 공정한 비교를 위해 기준 모델의 언어 타워로는 LLaMA3-8B-Instruct를 사용
- 이외 모든 구성 요소는 LLaDA-V와 동일하게 설정함
구성 요소 | 사용모델 |
언어 타워 | LLaDA-8B-Instruct ([42]) |
비전 타워 | siglip2-so400m-patch14-384 ([44]) |
MLP 프로젝터 | 2-layer MLP (무작위 초기화) |
학습 데이터
단계 | 사용 데이터 | 특징 |
1단계(언어-이미지 정렬) | LLaVA-Pretrain | 이미지-텍스트 정렬용 |
2단계(비주얼 인스트럭션 튜닝) | MAmmoTH-VL | - SI-10M: 단일 이미지 1천만 개- OV-2M: 이미지, 다중 이미지, 비디오 포함 2백만 개 |
3단계(멀티모달 추론 강화) | VisualWebInstruct, OV-2M | 복합적인 추론 강화용 |
(세부적인 훈련 전략은 3.3 절에 설명되어 있음)
학습 과정
- 학습은 총 세 단계로 진행됨:
- 1단계에서는 프로젝터(MLP)만 학습하고 언어 및 비전 타워는 고정.
- 2단계, 3단계에서는 전체 모델(언어 타워, 비전 타워, 프로젝터)을 학습.
구체적 학습 설정은 아래 표 참조:
(*M-SI: MAmmoTH의 단일 이미지 데이터 / M-OV: OneVision 데이터 / VW: VisualWebInstruct 데이터)
평가 방식 (Evaluation)
- 다양한 멀티모달 평가 벤치마크를 사용하여 성능 종합적으로 측정
평가 분야 | 사용 벤치마크 |
다학제적 지식 및 수학적 추론 | MMMU, MMMU-Pro, MMStar, MME, SeedBench, MMBench, MathVerse, MathVista |
차트 및 문서 이해 | AI2D, ChartQA, DocVQA, InfoVQA |
실세계 장면 이해 | RealworldQA |
다중 이미지 및 비디오 이해 | MuirBench, MLVU, VideoMME |
이러한 실험 환경과 설정을 바탕으로 LLaDA-V의 성능과 가능성을 종합적으로 평가함.
4.2 Data Scalability of LLaDA-V
LLaDA-V의 성능과 데이터 확장성을 확인하기 위해, 자기회귀 모델인 LLaMA3-V와의 비교 실험을 진행함.
- 두 모델 모두 동일한 데이터, 동일한 학습 과정으로 실험을 진행하여 공정한 비교를 수행.
- 실험은 두 단계로 진행됨:
- 프로젝터 사전학습: LLaVA-Pretrain 데이터 사용.
- 전체 모델 학습(비전 타워, 언어 타워, 프로젝터 모두 학습): MAmmoTH-VL의 단일 이미지 데이터 사용.
- 데이터 규모를 점점 늘려가며, 여섯 개의 멀티모달 벤치마크를 통해 성능을 평가함.
실험 결과 요약
다음 두 가지 중요한 결과를 관찰함 (Fig. 3 참조)
- LLaDA-V는 데이터가 많아질수록 성능이 지속적으로 향상됨.
- 즉, 데이터 확장성(data scalability)이 뛰어남.
- LLaDA-V는 언어 타워의 성능이 조금 더 약함에도 불구하고, 특정 벤치마크(특히 다학제적 지식 및 수학적 추론 분야)에서 LLaMA3-V보다 더 뛰어난 확장성을 보임.
- 예를 들어, MMMU 및 MMMU-Pro 벤치마크에서 특히 뛰어난 성능을 나타냄.
- 심지어 MMMU-Pro 벤치마크의 경우, LLaDA-V는 단 1백만 개 데이터로 학습했을 때, LLaMA3-V가 9백만 개 데이터를 사용한 경우보다 더 높은 성능을 기록함.
- 반면, 차트/문서 이해(AI2D)와 현실 장면 이해(RealworldQA) 벤치마크에서는 LLaDA-V가 LLaMA3-V에 비해 다소 뒤처지는 결과를 보임.
벤치마크별 세부 성능 (그림 3에서 발췌)
벤치마크 | LLaDA-V 성능 | LLaMA3-V 대비 |
MMMU | 뛰어남 | LLaMA3-V보다 우수 |
MMMU-Pro | 매우 뛰어남 | 데이터 1M일 때 이미 LLaMA3-V 9M보다 우수 |
MMStar | 뛰어남 | LLaMA3-V보다 우수 |
MMBench | 뛰어남 | LLaMA3-V보다 우수 |
AI2D | 다소 낮음 | LLaMA3-V보다 낮음 |
RealWorldQA | 다소 낮음 | LLaMA3-V보다 낮음 |
종합적 결론
- LLaDA-V는 확산(diffusion) 방식을 기반으로 한 모델로, 자기회귀 모델 대비 뛰어난 데이터 확장성을 가짐.
- 특히 다학제적(multidisciplinary) 지식 및 수학적 추론 분야에서 매우 효과적임을 입증함.
- 하지만 차트, 문서, 실제 장면 이해 같은 특정 영역에서는 상대적으로 약한 면도 있음을 확인함.
4.3 Benchmark Results
LLaDA-V의 멀티모달 이해 능력을 종합적으로 평가하기 위해,
다음 세 가지 유형의 모델과 총 18개의 벤치마크에서 성능을 비교 평가함:
- 자기회귀(autoregressive) 모델
- 하이브리드(자기회귀+확산) 모델
- 순수 확산(diffusion) 모델
평가한 벤치마크는 다음 분야를 포괄함:
- 다학제적(multidisciplinary) 지식 및 수학적 추론
- 차트 및 문서 이해
- 현실 세계 장면 이해
- 다중 이미지 및 비디오 이해
주요 평가 결과 요약
벤치마크 분야 | LLaDA-V의 성능 | LLaMA3-V와 비교 |
다학제적 지식 및 수학적 추론 | 우수 (MMMU, MMMU-Pro 등에서 뛰어난 성능) | ✅ 더 우수 |
차트 및 문서 이해 | 유사하거나 다소 낮음 (AI2D, DocVQA 등) | 🔻 약간 낮음 |
현실 장면 이해 | 다소 낮음 (RealworldQA 등) | 🔻 낮음 |
다중 이미지 및 비디오 이해 | 우수 (MuirBench, MLVU 등에서 더 뛰어난 성능) | ✅ 더 우수 |
세부 벤치마크 결과 분석
- 하이브리드(자기회귀+확산) 및 순수 확산 모델과의 비교:
- LLaDA-V는 기존의 하이브리드 모델(MetaMorph 등)이나 순수 확산 모델(D-DiT 등)보다 지속적으로 우수한 성능을 보임.
- 자기회귀 모델(LLaMA3-V)과의 비교:
- 언어 모델 성능이 상대적으로 떨어짐에도 불구하고, LLaDA-V가 다학제적 지식, 수학적 추론 분야(MMMU, MMMU-Pro 등)에서 뛰어난 성능을 나타냄.
- 또한, 다중 이미지 및 비디오 이해(MuirBench, MLVU 등)에서도 LLaMA3-V를 능가하는 결과를 보임.
- 그러나 차트/문서 이해(AI2D, DocVQA)와 실제 장면 이해(RealworldQA)에서는 LLaMA3-V보다 뒤처짐.
- 강력한 자기회귀 모델(Qwen2-VL)과의 비교:
- 대부분의 벤치마크에서 Qwen2-VL보다는 성능이 낮음.
- 단, 일부 벤치마크(MMStar 등)에서는 유사한 성능을 기록함.
- 이는 주로 LLaDA-V가 사용하는 언어 타워(LLaDA-8B)의 성능이 Qwen2-VL의 언어 타워(Qwen2-7B)에 비해 떨어지기 때문임.
종합적 결론
- LLaDA-V는 확산(diffusion) 기반 MLLM으로서, 기존 확산이나 하이브리드 모델보다 뛰어난 멀티모달 이해 성능을 보여줌.
- 특히, 다학제적 지식, 수학적 추론, 다중 이미지 및 비디오 이해에서 강점이 있음.
- 언어 모델의 성능이 향후 더욱 개선되면, 강력한 자기회귀 모델(Qwen2-VL 등)과의 성능 격차도 좁혀질 것으로 기대됨.
4.4 Ablation Study
LLaDA-V에서 사용한 어텐션 마스크 전략이 성능에 미치는 영향을 확인하기 위해 추가 실험(ablation study)을 진행함.
- 실험 과정:
- LLaVA-NeXT와 같은 2단계 학습 방법을 이용:
- MLP 프로젝터를 LLaVA-Pretrain 데이터셋에서 학습.
- 전체 모델을 LLaVA-NeXT 데이터셋으로 추가 미세조정(fine-tuning).
- 세부적인 학습 파라미터는 앞서 제시한 표(Tab. 1)에 나와 있음.
- LLaVA-NeXT와 같은 2단계 학습 방법을 이용:
- 비교한 두 가지 어텐션 전략:
- 대화 인과적(dialogue causal) 어텐션: 앞의 대화 턴이 뒤의 턴을 참조하지 못함(과거만 보도록 제한).
- 마스크 없음(no mask, 양방향 어텐션): 모든 턴의 대화를 서로 참조 가능(양방향으로 전체 맥락을 참조).
- 실험 결과 (Tab. 4 참고):
- 마스크 없음 전략(양방향 어텐션)이 12개 벤치마크 중 7개에서 더 높은 성능을 기록함.
- 이는 양방향 어텐션이 전체 대화 맥락을 종합적으로 이해할 수 있어 성능을 높였기 때문이라고 추측됨.
- 추가적으로, 최근의 비디오 확산 모델들에서도 양방향 어텐션 전략이 시간적 일관성을 향상시키기 위해 널리 쓰이고 있음.
결론적으로, LLaDA-V에서는 성능이 더 뛰어난 양방향 어텐션("마스크 없음") 전략을 채택함.
5 Related Work
확산 기반 언어 모델 (Diffusion Language Models)
최근 들어 확산(diffusion) 방식 언어모델이 많은 관심을 받고 있음.
확산 언어모델은 크게 두 가지로 나뉨:
- 연속적(continuous) 확산 모델 [85–100]
- 이산적(discrete) 확산 모델 [25, 35, 36, 101–110]
특히, 마스크드 확산 모델(masked diffusion models)은 이산적 확산 모델의 한 종류로서, 가장 뛰어난 성능을 기록하고 있음.
- Ou 등[41], Shi 등[39], Shao 등[61]은 마스크드 확산 모델의 이론적 기반을 마련하고, GPT-2 수준의 자기회귀 모델과 경쟁 가능한 성능을 입증했음.
- 최근 LLaDA[42]는 마스크드 확산 모델을 8B(80억) 파라미터 규모로 확장하여, 다양한 다운스트림 태스크에서 현대적 LLM(LLaMA3 등)과 비슷한 수준의 성능을 보이는 최초의 확산 언어모델을 제안했음.
- LLaDA는 언어 성능에서는 LLaMA3-8B보다 약간 낮지만, LLaDA-V는 본 연구에서 제안한 프레임워크를 활용하여 멀티모달 작업에서 더 우수한 성능을 보였음.
이는 LLaDA-V가 멀티모달 환경에서의 장점을 가지고 있음을 시사함.
멀티모달 이해 (Multimodal Understanding)
최근 멀티모달 대형 언어모델(MLLM) 은 강력한 대형언어모델(LLM)을 기반으로 다양한 입력 형식을 통합하면서 빠르게 발전해왔음.
멀티모달 모델의 확률적 모델링 방법 관점에서는 크게 세 가지 유형이 있음
모델 유형 | 설명 | 대표적 연구 |
자기회귀 모델(autoregressive) | 텍스트, 이미지 등을 하나씩 순차 예측 | LLaVA, MAmmoTH 등 [1–12] |
자기회귀+확산 하이브리드(AR+Diffusion Hybrid) | 이미지 등 일부를 확산 방식으로 처리, 언어는 자기회귀 처리 | MetaMorph, JanusFlow 등 [27–30] |
순수 확산 모델(Pure Diffusion) | 모든 모달리티를 확산 모델로만 처리 | D-DiT 등 [33,34] |
- 본 연구와 가장 관련이 높은 D-DiT[34]은 시각적 내용은 연속 확산, 텍스트는 이산 확산 방식을 결합함.
- 그러나 언어 모델링 성능이 제한적이어서 자기회귀 방식이나 하이브리드 모델에 비해 크게 뒤처짐.
- 반면 LLaDA-V(본 연구)는 강력한 확산 언어 모델(LLaDA)과 효과적인 학습 방법을 결합하여, 하이브리드 및 순수 확산 기반 모델들 중 최고의 성능을 달성했음.
결론적으로, LLaDA-V는 기존의 멀티모달 모델 대비 확산 모델의 가능성을 크게 확장시킨 연구임.
6 Conclusion
본 논문에서는 LLaDA-V를 제안함.
LLaDA-V는 순수하게 확산(diffusion) 방식을 기반으로 학습과 추론이 모두 이루어지는 멀티모달 대형언어모델(MLLM)임.
- 기존의 확산 기반 언어모델(LLaDA)과 비주얼 인스트럭션 튜닝 방식을 효과적으로 결합하여 이미지와 텍스트를 동시에 이해할 수 있도록 설계됨.
- 하이브리드(자기회귀+확산 혼합) 및 순수 확산 기반 모델들과의 비교에서 가장 뛰어난 성능을 나타냈음.
- 같은 학습 방식을 사용한 자기회귀 모델인 LLaMA3-V보다도 더 뛰어난 데이터 확장성을 보이며, 여러 벤치마크에서 더 우수한 성과를 기록함.
결과적으로 이 연구는, 대형 확산 언어모델이 멀티모달 이해능력까지 효과적으로 확장될 수 있다는 것을 증명함.
연구의 한계점 (Limitations)
- 이미지 처리 방식에 한계가 있음.
- 높은 해상도 이미지를 처리할 때 이미지를 분할한 후 각각 리사이징(resizing)하여 SigLIP2 비전 타워를 통해 처리한 뒤, 다시 특징을 연결(concatenate)하는 방식을 사용.
- 이는 동적 해상도(dynamic resolution)를 지원하는 최신 모델(Qwen2-VL 등)과 비교했을 때, 효율성과 이미지 표현 정확도가 떨어질 수 있음.
- 앞으로 더 진보된 이미지 처리 전략 개발이 필요함.
향후 영향과 활용 가능성 (Broader Impacts)
- LLaDA-V는 멀티모달 이해를 위한 새로운 확산 방식 기반의 확률적 모델링(probabilistic modeling) 연구를 촉진할 수 있을 것으로 기대됨.
- 다만, 다른 최신 멀티모달 언어모델들과 마찬가지로, 입력 데이터에 없거나 사실과 다른 내용을 만들어내는 환각(hallucination) 현상이 발생할 가능성이 있음.
- 향후 더 큰 규모의 데이터를 활용하거나 고급 정렬(alignment) 기법을 추가로 도입하여 이 문제를 해결할 수 있을 것으로 기대됨.
개인적인 시사점
- 새로운 접근 방식에 대한 열린 태도
지금까지는 멀티모달 모델링하면 무조건 자기회귀(autoregressive)가 정답처럼 여겨졌는데,
확산(diffusion) 모델이 자기회귀를 능가하거나 비슷한 성능을 낼 수 있다는 사실이 흥미로웠음.
앞으로는 전통적인 방식을 고집하지 말고, 다양한 모델링 접근법을 실험해보는 게 중요하다고 느꼈음. - 데이터 확장성의 중요성
LLaDA-V 모델이 데이터를 늘릴수록 성능이 급격히 향상된다는 결과를 보면서,
모델 설계만큼이나 데이터를 효율적으로 확보하고 활용하는 것이 중요하다는 걸 다시금 깨달았음. - 멀티모달 분야의 잠재력
이미지, 비디오 등 시각 데이터를 텍스트와 함께 처리할 수 있는 멀티모달 모델이 향후 AI 서비스의 핵심이 될 가능성이 큼.
이제 NLP 엔지니어도 이미지나 비디오 등 다른 모달리티 데이터를 이해하고 활용할 수 있는 능력을 갖추는 게 필요하다는 생각이 듬.
액션 아이템
- 비전 모델과 언어 모델 연결 경험 쌓기
- SigLIP, CLIP과 같은 비전 인코더를 직접 활용해 텍스트 임베딩과 연결하는 경험을 쌓고, 이를 실제 서비스나 프로젝트에 접목해볼 수 있음.
- 멀티턴 대화 데이터 활용법 학습하기
- 실제 프로젝트에서도 멀티턴(multiturn) 대화 데이터를 활용하여 실험을 하고, 인과적(causal) 및 양방향(bidirectional) 어텐션 방식의 차이를 직접 검증해보는 실험을 해볼 수 있음.
아자아자 화이팅!
'ML & DL > 논문리뷰' 카테고리의 다른 글
Fast Inference from Transformers via Speculative Decoding (5) | 2025.06.15 |
---|---|
From Natural Language to SQL: Review ofLLM-based Text-to-SQL Systems (1) | 2025.06.08 |
Learning from Peers in Reasoning Models (1) | 2025.05.18 |
LegoGPT: Generating Physically Stable and Buildable LEGO® Designs from Text (1) | 2025.05.11 |
SPARSE AUTOENCODERS FIND HIGHLY INTERPRETABLE FEATURES IN LANGUAGE MODELS (0) | 2025.05.04 |
댓글