본문 바로가기
ML & DL/논문리뷰

LLaDA-V: Large Language Diffusion Models withVisual Instruction Tuning

by 공부하는 무니 2025. 5. 25.
반응형

원문: https://www.arxiv.org/pdf/2505.16933

코드: https://github.com/ML-GSAI/LLaDA-V (작성 시점 아직 공개 안됨)

 

Abstract

 

  • 논문의 핵심: LLADA(https://arxiv.org/pdf/2502.09992) 팀에서 새로운 멀티모달 모델인 LLaDA-V 제안함.
  • 기존 방식 (순서대로 글자 맞추는 방식, autoregressive)과 다르게, 확산(diffusion) 방식 씀.
  • 확산 방식은 이미지나 글 전체를 한번에 채워넣듯 생성하는 방식임.
  • 모델 구조:
    • 텍스트 전용 확산 모델 LLaDA를 기반으로 만듦.
    • 이미지 정보 이해할 수 있게 비전 인코더 추가.
    • 이미지랑 텍스트 이어주는 MLP 커넥터 붙임.
  • 실험 결과:
    1. 글만 놓고 보면 LLaDA-V 성능이 유명한 모델(LLaMA3-8B, Qwen2-7B)보다 약간 떨어짐.
    2. 근데 이미지+텍스트 멀티모달 작업에서는 매우 잘함.
      • 같은 데이터를 쓰면 LLaMA3-V랑 비슷한 성능 보임.
      • 데이터가 많아질수록 성능이 더 좋아짐.
    3. 기존 하이브리드(자기회귀+확산)나 순수 확산 방식 중 멀티모달 이해 능력은 제일 좋음.
  • 결론:
    • 확산 모델 기반의 대형언어모델이 멀티모달 분야에서 매우 유망함.
    • 앞으로 연구해볼 가치가 큼.

1 Introduction

  • 논문의 주제:
    멀티모달 대형언어모델(MLLM)은 텍스트 외에도 이미지, 오디오, 비디오 등 다양한 정보를 동시에 처리하고, 자연어 응답을 생성할 수 있는 모델임.
  • 기존 연구 상황:
    대부분 기존 멀티모달 모델은 글자를 하나씩 순서대로 예측하는 자기회귀(autoregressive) 방식을 씀.
    최근 들어 확산(diffusion) 방식도 시도되었지만,
    • 언어 모델 성능 좋은 자기회귀 모델에 의존하거나,
    • 언어 능력이 약한 순수 확산 방식을 사용해서 성능이 별로였음.
  • 이 연구의 핵심 질문:

"순수 확산 방식(처음부터 끝까지 확산 방식만 사용한)이 과연 자기회귀 방식과 비슷하거나 더 나은 성능을 낼 수 있을까?"

  • 연구의 핵심 내용:
    이 논문에서는 언어만 처리하던 확산 모델(LLaDA)을 멀티모달 모델(LLaDA-V)로 확장함.
    • 이미지 데이터를 처리할 수 있도록 비전 인코더(SigLIP) 추가.
    • 이미지 특성을 언어 모델로 연결하는 MLP 커넥터 붙임.
    • 여러 턴의 대화나 다양한 멀티모달 입력도 다룰 수 있게 학습 목표를 확장하고,
      멀티모달 데이터에 맞는 attention 구조 및 추론 방식을 조정함.
  • 주요 결과 및 발견:
    실험을 통해 다음과 같은 중요한 결과를 얻음.
  1. 데이터가 많아질수록 LLaDA-V는 자기회귀 기반 모델(LLaMA3-V)보다 더 빠르게 성능이 좋아짐. 특히 수학이나 다양한 분야 지식을 요구하는 문제에서 우수함.
  2. 텍스트 능력이 조금 떨어지지만, 이미지+텍스트 작업에서는 오히려 LLaMA3-V나 강력한 자기회귀 모델(Qwen2-VL)과 비슷하거나 더 뛰어난 성능을 보임.
  3. 기존의 하이브리드 모델(자기회귀+확산 혼합)이나 다른 순수 확산 모델과 비교해도, 최고 성능을 달성함.
  • 요약한 연구의 주요 기여:
    • 순수 확산 모델 기반 멀티모달 모델 (LLaDA-V) 최초 제안
    • 데이터 스케일링(양이 많아질 때 더 잘해짐)에서 자기회귀 모델보다 우수함 증명
    • 현재 나와 있는 다른 하이브리드나 확산 기반 멀티모달 모델들 중 최고 성능 달성

결론적으로, 확산 모델을 기반으로 한 LLaDA-V가 멀티모달 작업에서 매우 효과적이며 앞으로 더 발전할 가능성이 크다고 주장함.

 

 

2 Preliminaries

이 섹션에서는 크게 두 가지를 간단히 소개함:
(1) 확산 방식 기반 대형언어모델 (Large Language Diffusion Models)
(2) 비주얼 인스트럭션 튜닝 (Visual Instruction Tuning)

2-1. 확산 방식 기반 대형언어모델 (Large Language Diffusion Models)

  • 현재 많은 언어모델(LLM)들은 글자를 하나씩 차례대로 예측하는 자기회귀 방식(autoregressive)을 주로 사용함.
  • 최근 들어 이를 대체할 수 있는 방법으로 이산 확산(discrete diffusion) 방식이 등장함.
  • 특히, 이 중 마스크드 확산 모델(masked diffusion models)이 여러 분야에서 좋은 성능을 보였음.

LLaDA라는 모델이 대표적:

  • 자기회귀 방식의 대표적인 강력한 모델(LLaMA3-8B-Instruct)과 거의 비슷한 성능을 보이면서도, 확산 방식 특유의 장점을 유지함.
  • 자기회귀 방식과 근본적으로 다른 마스크드 확산(masked diffusion) 과정을 사용함.

구체적인 작동 원리는 다음과 같음:

  • 원래 문장이 x₀ = [xᵢ] (i = 1, ..., N) 라고 하면,
  • 먼저, 앞 방향 과정(forward process)에서 시간(t)을 [0, 1] 사이에서 랜덤으로 하나 뽑음.
  • 그 다음, 뽑은 시간 t의 확률에 따라 문장 속 각 단어들을 특수 마스크 토큰([M])으로 가림 → 이렇게 만들어진 문장이 xtx_t.
  • 뒤 방향 과정(reverse process)에서 전체가 마스크([M])로 채워진 문장부터 시작해, 원본 문장으로 되돌아가도록 가려진 단어들을 순차적으로 예측하며 복원함.

(수학적이고 더 자세한 공식은 원문에서 별도로 제공된 부록(Appendix A)에 있음)

2-2. 비주얼 인스트럭션 튜닝 (Visual Instruction Tuning)

  • 멀티모달 대형언어모델(MLLM)의 대표적인 방법 중 하나.
  • 적은 데이터로도 이미지와 텍스트를 동시에 잘 이해하는 모델을 만들 수 있는 매우 효율적인 방법임.

이 방법은 크게 세 가지 구성요소로 이루어짐:

  1. 비전 타워(Vision Tower): 이미지(CLIP, SigLIP 등 유명 모델)를 시각적 특성으로 변환함.
  2. MLP 커넥터(Connector): 비전 타워의 결과를 언어모델이 이해할 수 있는 공간(embedding space)으로 옮김.
  3. 대형언어모델(LLM): 이미지와 텍스트를 함께 이해하는 역할 수행.

이 방식을 통해, 이미지-텍스트 데이터 100만 개 이하만으로도 매우 뛰어난 멀티모달 성능을 얻을 수 있음.

 

3 Method

  • 기존 멀티모달 모델은 대부분 자기회귀(autoregressive) 방식 사용.
  • 본 연구는 자기회귀 방식 대신 확산(diffusion) 모델을 이용한 멀티모달 모델 개발에 초점 맞춤.
  • 특히, 비주얼 인스트럭션 튜닝을 확산 언어 모델에 적용하는 방법을 제안함.

이를 위해 다음과 같은 내용을 다룸

  1. 학습 목표 설계:
    • 여러 턴(turn)이 오가는 멀티모달 대화를 처리할 수 있도록 학습 목표 설정.
  2. 어텐션 메커니즘 구조 탐색 (Sec 3.1):
    • 모델이 이미지와 텍스트를 동시에 잘 이해할 수 있도록 어텐션 구조를 설계하고 탐구함.
  3. 추론(inference) 과정 설명 (Sec 3.2):
    • 실제로 입력된 이미지와 텍스트를 처리할 때 모델이 어떻게 작동하는지 자세히 설명함.
  4. 다단계 학습 전략 설계 (Sec 3.3):
    • 여러 단계에 걸쳐 효율적으로 모델을 훈련하는 방법을 제안하고 실험함.

이 방법들을 모두 종합하여, 확산 모델이 이미지와 텍스트를 함께 효과적으로 이해할 수 있도록 만듦.

3.1 Training Objective and Architecture

  • LLaDA-V의 학습 데이터:
    • 대부분의 멀티모달 모델처럼, 이미지와 여러 턴의 대화로 구성된 데이터를 사용함.
    • 이해하기 쉽게, 이미지 1개 + 2번의 대화(질문-답변)를 예로 듦.
  • LLaDA-V의 핵심 디자인 원칙:
    • 모델 구조를 최대한 단순하고 효과적으로 만듦.
    • 기존 자기회귀 모델들의 검증된 설계(visual instruction tuning)를 따라감.
    • 따라서, 구조는 크게 언어 타워(language tower), 비전 타워(vision tower), MLP 프로젝터(projector)로 구성됨.

    구성요소 선택한 모델 이유
    언어 타워 LLaDA (확산 방식 언어모델) 자기회귀 기반 LLaMA3와 유사한 성능
    비전 타워 SigLIP 2 기존 MLLM에서 검증된 강력한 성능
    MLP 프로젝터 2-layer MLP 기존 연구에서 효과 입증됨

학습 목표 (Training Objective)

이미지 정보를 v 라고 하고, 특별한 마스크 토큰은 [M] 으로 표현합니다.

두 번의 대화(턴)를 (v, p0¹, r0¹, p0², r0²) 로 표기합니다.

  • p0¹, p0²: 각각 첫 번째, 두 번째 턴의 질문(prompt)
  • r0¹, r0²: 각 질문에 대한 정답(ground truth response)

LLaDA-V의 학습 목표를 직관적으로 설명하면 (그림 2 (b)):

  • 입력된 이미지와 질문(prompt)은 가리지 않음.
  • 답변(response)의 일부를 랜덤하게 마스킹([M])한 뒤, 그 부분을 정확히 맞추도록 모델을 훈련함.

수식적으로는 다음과 같음:

  • 이 목표함수는 마스크된 부분에 대한 로그 확률(log-likelihood)의 하한임이 이론적으로 증명되어 있음.
  • 쉽게 말하면, 깨끗한 이미지와 질문 정보를 바탕으로 마스크된 답변 토큰을 정확히 복원하는 능력을 높이는 것이 목표임.

어텐션 메커니즘 설계 (Attention Mechanism)

  • LLaDA-V의 언어 타워에서 어텐션 메커니즘이 중요함.
  • 멀티턴 대화에서 두 가지 어텐션 방식이 가능함
방식 설명 장단점
인과적(causal) 어텐션 현재 턴에서 이전 턴만 볼 수 있게 제한 (이전 턴이 다음 턴을 못 봄) 실제 추론 과정과의 일관성 유지 가능
양방향(bidirectional) 어텐션 모든 턴을 다 보며 전체 대화의 맥락을 동시에 이해 맥락 전체 이해도가 높음, 최근 확산 모델에서도 우수함 입증
  • 최근 비디오 확산 모델 연구에서도 양방향 어텐션 방식이 우수한 성능을 보였음(생성 품질과 맥락 이해 향상).
  • 본 연구에서도 두 어텐션 방식 비교 실험을 진행(섹션 4.4)한 결과, 양방향 어텐션 방식이 대부분의 벤치마크에서 더 좋은 성능을 보였음.
  • 그래서 본 연구에서는 양방향 어텐션 방식을 선택함.

결과적으로,
LLaDA-V는 마스크된 확산 방식과 양방향 어텐션 구조를 결합하여, 이미지와 텍스트를 효과적으로 이해할 수 있는 멀티모달 능력을 확보함.

3.2 Inference Process

  • 모델을 학습한 뒤, LLaDA-V는 새 입력(prompt)에 대한 답변(response)을 생성할 수 있음.
  • 자기회귀 모델이 다음 토큰을 하나씩 순차적으로 생성하는 것과 달리, 마스크드 확산 모델의 역과정(reverse process) 으로 한 번에 답변을 생성함.

예를 들어, 한 턴의 대화를 예시로 설명하면 다음과 같음:

  1. 우선 생성할 답변 길이를 정하고, 답변을 모두 마스크 토큰([M])으로 초기화함.
  2. 그림 2(c)에서 보듯이, 마스크된 답변을 점점 원래 문장으로 복원하는 방식으로 답변을 생성함.
  3. 구체적인 절차:
    • 현재 마스크 상태인 r_t에서 다음 단계(r_s, s < t)로 넘어가면서 답변을 점차 완성함.
    • 각 단계에서 두 가지를 반복함:
      1. 이미지(v), 질문(p₀), 현재 마스크 상태(r_t)를 보고 마스크([M])로 된 부분을 예측함.
      2. 예측된 토큰 중 일부(비율: s/t)를 다시 마스크([M]) 처리하고, 나머지(1 - s/t)는 그대로 유지함.
  4. 다시 마스크 처리(리마스킹, remasking) 할 때, 완전히 랜덤하게 하지 않고, 신뢰도(confidence)가 낮은 예측 토큰을 우선적으로 다시 마스크 하는 방식을 사용함.
    • 이 방식이 더 좋은 성능을 보여주었기 때문에 선택함.

정리하면,
LLaDA-V는 자기회귀적 토큰 예측 대신, 확산 모델의 역과정을 통해 전체 답변을 한 번에 점진적으로 완성해가는 독특한 방식으로 추론함.

 

3.3 Training Strategies

LLaDA-V는 세 단계로 나누어 학습함.
처음 두 단계는 기존의 검증된 멀티모달 모델 학습 방식(LLaVA-NeXT 등)을 따랐고,
추가적으로 세 번째 단계에서 멀티모달 추론 능력을 더욱 향상시킴.

1단계: 언어-이미지 정렬 (Language-Image Alignment)

  • 목적: 이미지 특성과 언어 모델의 임베딩을 맞춰주는 작업.
  • 방법:
    • 비전 타워언어 타워는 고정(학습X)하고, MLP 프로젝터만 학습함.
    • 데이터: LLaVA의 사전학습(LLaVA-Pretrain) 데이터 사용.

2단계: 비주얼 인스트럭션 튜닝 (Visual Instruction Tuning)

  • 목적: 실제 다양한 이미지/비디오 입력에 대한 멀티모달 이해력을 강화함.
  • 방법: 전체 모델(언어+비전+MLP)을 대규모 데이터로 미세조정(fine-tuning)함.
  • 데이터: 고품질의 대규모 멀티모달 데이터(MAmmoTH-VL)를 사용함.

두 개의 세부 단계로 나뉨:

(1) 단일 이미지 학습(Single Image Training)

  • 1천만 개의 단일 이미지 데이터를 사용해서 학습함.
  • 이 과정에서 모델은 이미지 하나를 정확히 인식하고 이해하는 능력을 갖추게 됨.

(2) OneVision 학습(OneVision Training)

  • 약 2백만 개의 다양한 형태 데이터(단일 이미지, 다중 이미지, 비디오 포함)를 추가로 학습함.
  • 이를 통해 복잡한 환경에서 여러 이미지 및 비디오 정보를 동시에 처리할 수 있는 능력을 확장함.

3단계: 멀티모달 추론 강화 (Multimodal Reasoning Enhancement)

  • 목적: 복잡한 멀티모달 추론(논리적이고 복합적인 질문 처리)을 수행할 수 있도록 함.
  • 두 가지 세부 단계로 구성됨:

(1) 추론 훈련(Reasoning Training)

  • 데이터: 추론 과정을 상세히 포함한 약 90만 개의 질문-답변 데이터(VisualWebInstruct)를 사용.
  • 모델이 복잡한 추론 과정을 거쳐 정답을 찾는 능력을 높임.

(2) 균형 잡힌 추론 훈련(Balanced Reasoning Training)

  • 목표: 추론을 항상 수행하지 않고도 간단한 질문에 바로 답하는 유연성 추가.
  • 데이터: 두 가지 데이터를 혼합하여 사용
    • VisualWebInstruct 데이터(복잡한 추론 수행)
    • OneVision 데이터(단순한 질문은 바로 답하도록 유도)
  • 이 때, 프롬프트에 특정 태그를 붙여 학습함:
    • 간단한 답변이 필요한 데이터 → /no_think 태그 사용
    • 복잡한 추론이 필요한 데이터 중 50% → /think 태그 사용

(Qwen 3의 하이브리드 사고 방식(hybrid thinking)에서 아이디어를 얻어 적용함.)

 

결과적으로 이 세 단계를 통해 LLaDA-V는

  • 언어와 이미지 정보를 효과적으로 연결하고,
  • 다양한 상황(이미지 단독, 이미지 다수, 비디오 등)을 처리할 수 있으며,
  • 복잡한 멀티모달 추론 문제에도 높은 성능을 보이도록 완성됨.

4. 실험 (Experiment)

이 섹션에서는 연구에서 진행한 실험 설정과 결과를 설명함.
크게 네 가지로 구성됨

  • 4.1 실험 설정 (Experimental Settings)
    실험에 사용한 환경, 모델 구성, 데이터 등 기본적인 실험 조건을 설명.
  • 4.2 데이터 규모 확장 실험 (Data Scaling Experiments)
    데이터를 늘릴 때 모델 성능이 어떻게 향상되는지 살펴봄.
  • 4.3 종합적인 벤치마크 평가 (Comprehensive Benchmark Evaluations)
    여러 다양한 벤치마크에서 LLaDA-V의 성능을 다른 모델들과 비교해 평가함.
  • 4.4 어텐션 마스크 선택에 대한 추가 실험 (Ablation Studies on Attention Mask Selection)
    어텐션 메커니즘 구조에 따라 성능이 얼마나 달라지는지 추가로 분석함.

4.1 Experimental Settings

모델 구성

  • 언어 타워: LLaDA-8B-Instruct 모델 사용
    • 공개된 확산(diffusion) 기반의 언어모델
    • 광범위한 사전학습(pre-training)과 지도 미세조정(SFT)을 거친 모델
    • 단, 선호도 정렬(preference alignment) 기법이 포함되지 않아 Qwen2.5-7B나 LLaMA3-8B보다는 약간 성능이 낮음
  • 기준(baseline) 모델과 비교를 위한 설정
    • 공정한 비교를 위해 기준 모델의 언어 타워로는 LLaMA3-8B-Instruct를 사용
    • 이외 모든 구성 요소는 LLaDA-V와 동일하게 설정함
구성 요소 사용모델
언어 타워 LLaDA-8B-Instruct ([42])
비전 타워 siglip2-so400m-patch14-384 ([44])
MLP 프로젝터 2-layer MLP (무작위 초기화)

 

 

학습 데이터

단계 사용 데이터 특징
1단계(언어-이미지 정렬) LLaVA-Pretrain 이미지-텍스트 정렬용
2단계(비주얼 인스트럭션 튜닝) MAmmoTH-VL - SI-10M: 단일 이미지 1천만 개- OV-2M: 이미지, 다중 이미지, 비디오 포함 2백만 개
3단계(멀티모달 추론 강화) VisualWebInstruct, OV-2M 복합적인 추론 강화용

(세부적인 훈련 전략은 3.3 절에 설명되어 있음)

 

학습 과정

  • 학습은 총 세 단계로 진행됨:
    1. 1단계에서는 프로젝터(MLP)만 학습하고 언어 및 비전 타워는 고정.
    2. 2단계, 3단계에서는 전체 모델(언어 타워, 비전 타워, 프로젝터)을 학습.

구체적 학습 설정은 아래 표 참조:

(*M-SI: MAmmoTH의 단일 이미지 데이터 / M-OV: OneVision 데이터 / VW: VisualWebInstruct 데이터)

 

평가 방식 (Evaluation)

  • 다양한 멀티모달 평가 벤치마크를 사용하여 성능 종합적으로 측정
평가 분야 사용 벤치마크
다학제적 지식 및 수학적 추론 MMMU, MMMU-Pro, MMStar, MME, SeedBench, MMBench, MathVerse, MathVista
차트 및 문서 이해 AI2D, ChartQA, DocVQA, InfoVQA
실세계 장면 이해 RealworldQA
다중 이미지 및 비디오 이해 MuirBench, MLVU, VideoMME

 

이러한 실험 환경과 설정을 바탕으로 LLaDA-V의 성능과 가능성을 종합적으로 평가함.

 

4.2 Data Scalability of LLaDA-V

LLaDA-V의 성능과 데이터 확장성을 확인하기 위해, 자기회귀 모델인 LLaMA3-V와의 비교 실험을 진행함.

  • 두 모델 모두 동일한 데이터, 동일한 학습 과정으로 실험을 진행하여 공정한 비교를 수행.
  • 실험은 두 단계로 진행됨:
    1. 프로젝터 사전학습: LLaVA-Pretrain 데이터 사용.
    2. 전체 모델 학습(비전 타워, 언어 타워, 프로젝터 모두 학습): MAmmoTH-VL의 단일 이미지 데이터 사용.
  • 데이터 규모를 점점 늘려가며, 여섯 개의 멀티모달 벤치마크를 통해 성능을 평가함.

실험 결과 요약

다음 두 가지 중요한 결과를 관찰함 (Fig. 3 참조)

  1. LLaDA-V는 데이터가 많아질수록 성능이 지속적으로 향상됨.
    • 즉, 데이터 확장성(data scalability)이 뛰어남.
  2. LLaDA-V는 언어 타워의 성능이 조금 더 약함에도 불구하고, 특정 벤치마크(특히 다학제적 지식 및 수학적 추론 분야)에서 LLaMA3-V보다 더 뛰어난 확장성을 보임.
    • 예를 들어, MMMUMMMU-Pro 벤치마크에서 특히 뛰어난 성능을 나타냄.
    • 심지어 MMMU-Pro 벤치마크의 경우, LLaDA-V는 단 1백만 개 데이터로 학습했을 때, LLaMA3-V가 9백만 개 데이터를 사용한 경우보다 더 높은 성능을 기록함.
  3. 반면, 차트/문서 이해(AI2D)와 현실 장면 이해(RealworldQA) 벤치마크에서는 LLaDA-V가 LLaMA3-V에 비해 다소 뒤처지는 결과를 보임.

벤치마크별 세부 성능 (그림 3에서 발췌)

벤치마크 LLaDA-V 성능 LLaMA3-V 대비
MMMU 뛰어남 LLaMA3-V보다 우수
MMMU-Pro 매우 뛰어남 데이터 1M일 때 이미 LLaMA3-V 9M보다 우수
MMStar 뛰어남 LLaMA3-V보다 우수
MMBench 뛰어남 LLaMA3-V보다 우수
AI2D 다소 낮음 LLaMA3-V보다 낮음
RealWorldQA 다소 낮음 LLaMA3-V보다 낮음

종합적 결론

  • LLaDA-V는 확산(diffusion) 방식을 기반으로 한 모델로, 자기회귀 모델 대비 뛰어난 데이터 확장성을 가짐.
  • 특히 다학제적(multidisciplinary) 지식 및 수학적 추론 분야에서 매우 효과적임을 입증함.
  • 하지만 차트, 문서, 실제 장면 이해 같은 특정 영역에서는 상대적으로 약한 면도 있음을 확인함.

4.3 Benchmark Results

LLaDA-V의 멀티모달 이해 능력을 종합적으로 평가하기 위해,
다음 세 가지 유형의 모델과 총 18개의 벤치마크에서 성능을 비교 평가함:

  • 자기회귀(autoregressive) 모델
  • 하이브리드(자기회귀+확산) 모델
  • 순수 확산(diffusion) 모델

평가한 벤치마크는 다음 분야를 포괄함:

  • 다학제적(multidisciplinary) 지식 및 수학적 추론
  • 차트 및 문서 이해
  • 현실 세계 장면 이해
  • 다중 이미지 및 비디오 이해

주요 평가 결과 요약

벤치마크 분야 LLaDA-V의 성능 LLaMA3-V와 비교
다학제적 지식 및 수학적 추론 우수 (MMMU, MMMU-Pro 등에서 뛰어난 성능) ✅ 더 우수
차트 및 문서 이해 유사하거나 다소 낮음 (AI2D, DocVQA 등) 🔻 약간 낮음
현실 장면 이해 다소 낮음 (RealworldQA 등) 🔻 낮음
다중 이미지 및 비디오 이해 우수 (MuirBench, MLVU 등에서 더 뛰어난 성능) ✅ 더 우수

세부 벤치마크 결과 분석

  • 하이브리드(자기회귀+확산) 및 순수 확산 모델과의 비교:
    • LLaDA-V는 기존의 하이브리드 모델(MetaMorph 등)이나 순수 확산 모델(D-DiT 등)보다 지속적으로 우수한 성능을 보임.
  • 자기회귀 모델(LLaMA3-V)과의 비교:
    • 언어 모델 성능이 상대적으로 떨어짐에도 불구하고, LLaDA-V가 다학제적 지식, 수학적 추론 분야(MMMU, MMMU-Pro 등)에서 뛰어난 성능을 나타냄.
    • 또한, 다중 이미지 및 비디오 이해(MuirBench, MLVU 등)에서도 LLaMA3-V를 능가하는 결과를 보임.
    • 그러나 차트/문서 이해(AI2D, DocVQA)와 실제 장면 이해(RealworldQA)에서는 LLaMA3-V보다 뒤처짐.
  • 강력한 자기회귀 모델(Qwen2-VL)과의 비교:
    • 대부분의 벤치마크에서 Qwen2-VL보다는 성능이 낮음.
    • 단, 일부 벤치마크(MMStar 등)에서는 유사한 성능을 기록함.
    • 이는 주로 LLaDA-V가 사용하는 언어 타워(LLaDA-8B)의 성능이 Qwen2-VL의 언어 타워(Qwen2-7B)에 비해 떨어지기 때문임.

종합적 결론

  • LLaDA-V는 확산(diffusion) 기반 MLLM으로서, 기존 확산이나 하이브리드 모델보다 뛰어난 멀티모달 이해 성능을 보여줌.
  • 특히, 다학제적 지식, 수학적 추론, 다중 이미지 및 비디오 이해에서 강점이 있음.
  • 언어 모델의 성능이 향후 더욱 개선되면, 강력한 자기회귀 모델(Qwen2-VL 등)과의 성능 격차도 좁혀질 것으로 기대됨.

4.4 Ablation Study

LLaDA-V에서 사용한 어텐션 마스크 전략이 성능에 미치는 영향을 확인하기 위해 추가 실험(ablation study)을 진행함.

  • 실험 과정:
    • LLaVA-NeXT와 같은 2단계 학습 방법을 이용:
      1. MLP 프로젝터를 LLaVA-Pretrain 데이터셋에서 학습.
      2. 전체 모델을 LLaVA-NeXT 데이터셋으로 추가 미세조정(fine-tuning).
    • 세부적인 학습 파라미터는 앞서 제시한 표(Tab. 1)에 나와 있음.
  • 비교한 두 가지 어텐션 전략:
    • 대화 인과적(dialogue causal) 어텐션: 앞의 대화 턴이 뒤의 턴을 참조하지 못함(과거만 보도록 제한).
    • 마스크 없음(no mask, 양방향 어텐션): 모든 턴의 대화를 서로 참조 가능(양방향으로 전체 맥락을 참조).

  • 실험 결과 (Tab. 4 참고):
    • 마스크 없음 전략(양방향 어텐션)이 12개 벤치마크 중 7개에서 더 높은 성능을 기록함.
    • 이는 양방향 어텐션이 전체 대화 맥락을 종합적으로 이해할 수 있어 성능을 높였기 때문이라고 추측됨.
  • 추가적으로, 최근의 비디오 확산 모델들에서도 양방향 어텐션 전략이 시간적 일관성을 향상시키기 위해 널리 쓰이고 있음.

결론적으로, LLaDA-V에서는 성능이 더 뛰어난 양방향 어텐션("마스크 없음") 전략을 채택함.

5 Related Work

확산 기반 언어 모델 (Diffusion Language Models)

최근 들어 확산(diffusion) 방식 언어모델이 많은 관심을 받고 있음.
확산 언어모델은 크게 두 가지로 나뉨:

  • 연속적(continuous) 확산 모델 [85–100]
  • 이산적(discrete) 확산 모델 [25, 35, 36, 101–110]

특히, 마스크드 확산 모델(masked diffusion models)은 이산적 확산 모델의 한 종류로서, 가장 뛰어난 성능을 기록하고 있음.

  • Ou 등[41], Shi 등[39], Shao 등[61]은 마스크드 확산 모델의 이론적 기반을 마련하고, GPT-2 수준의 자기회귀 모델과 경쟁 가능한 성능을 입증했음.
  • 최근 LLaDA[42]는 마스크드 확산 모델을 8B(80억) 파라미터 규모로 확장하여, 다양한 다운스트림 태스크에서 현대적 LLM(LLaMA3 등)과 비슷한 수준의 성능을 보이는 최초의 확산 언어모델을 제안했음.
  • LLaDA는 언어 성능에서는 LLaMA3-8B보다 약간 낮지만, LLaDA-V는 본 연구에서 제안한 프레임워크를 활용하여 멀티모달 작업에서 더 우수한 성능을 보였음.

이는 LLaDA-V가 멀티모달 환경에서의 장점을 가지고 있음을 시사함.

멀티모달 이해 (Multimodal Understanding)

최근 멀티모달 대형 언어모델(MLLM) 은 강력한 대형언어모델(LLM)을 기반으로 다양한 입력 형식을 통합하면서 빠르게 발전해왔음.

멀티모달 모델의 확률적 모델링 방법 관점에서는 크게 세 가지 유형이 있음

모델 유형 설명 대표적 연구
자기회귀 모델(autoregressive) 텍스트, 이미지 등을 하나씩 순차 예측 LLaVA, MAmmoTH 등 [1–12]
자기회귀+확산 하이브리드(AR+Diffusion Hybrid) 이미지 등 일부를 확산 방식으로 처리, 언어는 자기회귀 처리 MetaMorph, JanusFlow 등 [27–30]
순수 확산 모델(Pure Diffusion) 모든 모달리티를 확산 모델로만 처리 D-DiT 등 [33,34]
  • 본 연구와 가장 관련이 높은 D-DiT[34]은 시각적 내용은 연속 확산, 텍스트는 이산 확산 방식을 결합함.
    • 그러나 언어 모델링 성능이 제한적이어서 자기회귀 방식이나 하이브리드 모델에 비해 크게 뒤처짐.
  • 반면 LLaDA-V(본 연구)는 강력한 확산 언어 모델(LLaDA)과 효과적인 학습 방법을 결합하여, 하이브리드 및 순수 확산 기반 모델들 중 최고의 성능을 달성했음.

결론적으로, LLaDA-V는 기존의 멀티모달 모델 대비 확산 모델의 가능성을 크게 확장시킨 연구임.

6 Conclusion

본 논문에서는 LLaDA-V를 제안함.
LLaDA-V는 순수하게 확산(diffusion) 방식을 기반으로 학습과 추론이 모두 이루어지는 멀티모달 대형언어모델(MLLM)임.

  • 기존의 확산 기반 언어모델(LLaDA)과 비주얼 인스트럭션 튜닝 방식을 효과적으로 결합하여 이미지와 텍스트를 동시에 이해할 수 있도록 설계됨.
  • 하이브리드(자기회귀+확산 혼합) 및 순수 확산 기반 모델들과의 비교에서 가장 뛰어난 성능을 나타냈음.
  • 같은 학습 방식을 사용한 자기회귀 모델인 LLaMA3-V보다도 더 뛰어난 데이터 확장성을 보이며, 여러 벤치마크에서 더 우수한 성과를 기록함.

결과적으로 이 연구는, 대형 확산 언어모델이 멀티모달 이해능력까지 효과적으로 확장될 수 있다는 것을 증명함.

연구의 한계점 (Limitations)

  • 이미지 처리 방식에 한계가 있음.
    • 높은 해상도 이미지를 처리할 때 이미지를 분할한 후 각각 리사이징(resizing)하여 SigLIP2 비전 타워를 통해 처리한 뒤, 다시 특징을 연결(concatenate)하는 방식을 사용.
    • 이는 동적 해상도(dynamic resolution)를 지원하는 최신 모델(Qwen2-VL 등)과 비교했을 때, 효율성과 이미지 표현 정확도가 떨어질 수 있음.
  • 앞으로 더 진보된 이미지 처리 전략 개발이 필요함.

향후 영향과 활용 가능성 (Broader Impacts)

  • LLaDA-V는 멀티모달 이해를 위한 새로운 확산 방식 기반의 확률적 모델링(probabilistic modeling) 연구를 촉진할 수 있을 것으로 기대됨.
  • 다만, 다른 최신 멀티모달 언어모델들과 마찬가지로, 입력 데이터에 없거나 사실과 다른 내용을 만들어내는 환각(hallucination) 현상이 발생할 가능성이 있음.
  • 향후 더 큰 규모의 데이터를 활용하거나 고급 정렬(alignment) 기법을 추가로 도입하여 이 문제를 해결할 수 있을 것으로 기대됨.

개인적인 시사점

 

  • 새로운 접근 방식에 대한 열린 태도
    지금까지는 멀티모달 모델링하면 무조건 자기회귀(autoregressive)가 정답처럼 여겨졌는데,
    확산(diffusion) 모델이 자기회귀를 능가하거나 비슷한 성능을 낼 수 있다는 사실이 흥미로웠음.
    앞으로는 전통적인 방식을 고집하지 말고, 다양한 모델링 접근법을 실험해보는 게 중요하다고 느꼈음.
  • 데이터 확장성의 중요성
    LLaDA-V 모델이 데이터를 늘릴수록 성능이 급격히 향상된다는 결과를 보면서,
    모델 설계만큼이나 데이터를 효율적으로 확보하고 활용하는 것이 중요하다는 걸 다시금 깨달았음.
  • 멀티모달 분야의 잠재력
    이미지, 비디오 등 시각 데이터를 텍스트와 함께 처리할 수 있는 멀티모달 모델이 향후 AI 서비스의 핵심이 될 가능성이 큼.
    이제 NLP 엔지니어도 이미지나 비디오 등 다른 모달리티 데이터를 이해하고 활용할 수 있는 능력을 갖추는 게 필요하다는 생각이 듬.

액션 아이템 

 

  • 비전 모델과 언어 모델 연결 경험 쌓기
    • SigLIP, CLIP과 같은 비전 인코더를 직접 활용해 텍스트 임베딩과 연결하는 경험을 쌓고, 이를 실제 서비스나 프로젝트에 접목해볼 수 있음.
  • 멀티턴 대화 데이터 활용법 학습하기
    • 실제 프로젝트에서도 멀티턴(multiturn) 대화 데이터를 활용하여 실험을 하고, 인과적(causal) 및 양방향(bidirectional) 어텐션 방식의 차이를 직접 검증해보는 실험을 해볼 수 있음.

 

 

아자아자 화이팅!

반응형

댓글