1. Introduction

LLM 이 NLP분야에서 크게 발전해 온 것은 사실이나, 입력은 Discrete Text로 받기 때문에 이미지에 대해서는 '장님'과 같다. 동시에 LVM(Large Vision Model)은 이미지를 볼 수는 있지만, 대부분은 추론 과정에서 지연된다.
이에 대한 보안으로, LLM과 LVM이 합쳐진 MLLM이 등장한다.
MLLM은 보통 receive, reason 그리고 멀티모달 출력을 낼 수 있는 llm 기반 모델을 의미했다.

MLLM 이전에는 멀티모달에 크게 기여를 한 Discriminative와 Generative 모델로 나눠진 연구들이 많았다.
- 예를 들어, CLIP은 Discriminative의 대표적인 예로, 이미지와 텍스트 정보를 통일된 표현 공간에 사영시켜 downstream multimodal task의 연결다리 역할을 했다.

반면에 OFA는 Generative의 대표적 예로, sequence-to-sequence 방식으로 멀티모달 task를 통일시켰다.

(1) MLLM은 억대 단위 파라미터의 LLM을 기반으로 한다. (이전 모델에서는 불가능 했던 것)
(2) MLLM은 새로운 학습 방법을 사용한다. : instruction tuning 등과 같은 방법을 사용하여, 잠재력을 방출한다.

위 2개 특성을 지닌 MLLM은 새로운 능력을 탐구한다.
ex) 이미지에 기반해서 웹사이트에 코드 작성, 밈의 깊은 의미 이해, OCR없이 수학 추론 등등

GPT-4가 출시된 이후로, MLLM분야는 그 엄청난 성능에 열광하며 연구에 박차를 가했다.

이전의 MLLM 연구들은 이미지/비디오/오디오에 기반하여 텍스트를 생성하는 것에 집중했었다면,
후속 연구는 범위를 확장했다.

문법 교정
이미지, 비디오, 오디오, 텍스트 간의 서로 다른 모달리티 출력
향상된 언어 지원 (다양한 언어로의 확장)
사용 영역의 확장 - 의료 이미지 이해, 문서 파싱 등

이 논문은 주로 이미지와 언어간의 모달리티에 주로 중점을 두고 있음.

해당 논문은 다음의 내용을 포함하고 있다.
1. Maintream architecture (§2)
2. A full recipe of training strategy and data (§3)
3. Common practices of performance evaluation (§4)
MLLM이 집중하는 주요 문제점.
1. What aspects can be further improved or extended? (§ 5,7)
2. How ro relieve the multimodal hallucination issue? (§ 6)
3가지 핵심 기술 (§8)
1. M-ICL : commonly used in inference stage to boost few-shot performance.
2. M-CoT : typically used in complex reasoning tasks.
3. General Idea to develop LLM-based systems to solve composite reasoning tasks or to adress common iser queries.

+ 요약 및 잠재적 미래 연구 방향

2. Architecture

크게 3 구조로 나눌 수 있다.

Pre-trained modality encoder : image/audio encoders (사람으로 치면, 눈이나 귀. 정보를 받아들이고 전처리 함.)
Pre-trained LLM : (사람으로 치면 뇌! 이해하고, 추론하는 곳)
A modality interface to connect them (위 2개 과정의 정렬을 맞춰주는 곳)

2.1. Modality Encoder

Encoder의 역할은, raw information을 압축하여 더 compact한 표현으로 나타내는 것이다.
모델은 처음부터 학습시키는 것 보다는 이미 다른 modality에 aligned된 pre-trained model을 사용하는 방법을 많이 사용한다.
예를 들어 CLIP같은 경우, 이미지-텍스트 페어 데이터에 대해 대용량으로 학습된 이미지 인코더를 사용한다. 이처럼 사전학습된 모델을 사용하면 LLM과 align 맞추기가 훨씬 용이하다.

MiniGPT-4는 EVA-CLIP 인코더를 사용했고, Osprey는 컨볼루션 기반의 ConvNext-L을 소개한다.

어떤 모델들은 인코더가 없는 구조를 연구했는데, 예를 들어 Fuyu-8b 모델은 LLM에 보내기 바로 전에 이미지가 project된다. 그래서, 인풋이 이미지의 해상도에 국한되지 않는 장점이 있다.
인코더를 선정할 때, 흔히들 "파라미터 사이즈, 해상도, 학습된 corpus" 를 고려한다.
많은 연구들에서 경험적으로 "높은 이미지 해상도"를 사용하는것이 높은 성능을 도출한다고 밝혀왔다.

Iinput 이미지의 해상도를 높이는 방법은 크게 2가지로 나뉜다.
1. Direct Scaling
  - Dual-Encoder mechanism
2. Patch-division methods

1. Direct Scaling

해상도 높은 이미지를 인코더의 인풋으로 주는 방법.
: 단, encoder tuning 이나 pre-trained encoder를 해상도 높은 걸로 바꿔야 할 수도 있음.
Dual-Encoder mechanism
: 고해상 피처를 cross attention을 통해 저해상 branch로 전달.

2. Patch-division methods

step1. 고해상도의 이미지를 패치단위로 나누어 각각 저해상도 인코더에 전달. -> **local 정보 추출
step2. 고해상도의 이미지를 저해상도로 바꾸어 저해상도 인코더에 전달. -> ** global 정보 추출

2.2 Pre-trained LLM

LLM을 첯음부터 학습시키는 것보다는, 이미 학습된 LLM을 가져오는게 훨씬 효율적이다.

LLaMA시리즈나 Vicuna 계열은 오픈소스이지만, 영어로만 학습이 되어 다국어에 취약하다. 반면에 Qwen은 영어와 중국어를 지원하는 이중어 모델이다.
LLM의 파라미터 사이즈를 올리는 것은 이미지 해상도를 높이는 것과 같은 부가적인 이득을 가져온다.
예를 들어, 단순히 모델을 7B -> 13B로 올려도 웬만한 벤치마크에서 성능이 향상한다.
34B짜리 모델을 쓰면, 영어로만 학습시킨 모델이 zero-shot으로 중국어도 처리가 가능해진다.
ex) Lu et al. 에서 13B 모델을 35B로 키워보고, 65B 모델을 70B로 키워본 결과, 더 큰 모델이 MLLM의 벤치마크에서 더 좋은 성능을 가져옴을 확인함.
경험적으로, MoE(Mixture of Experts, Sparse model)가 dense model을 사용했을 때보다 거의 모든 벤치마크에서 성능이 향상함을 확인(MM1, MoE-LLaVA)

* What's MoE ?

Dense layer만으로 모델을 스케일링 하는 것은 컴퓨팅 자원이나 복잡도가 기하급수적으로 증가하므로, 파라미터 수가 적은 sparse model을 스케일링 하는 방법 .

Sparse MoE Layers : 기존 트랜스포머의 feed-forward network (FFN) 레이어를 N개의 expert로 나눠서 사용하는 개념입니다. 이 expert는 FFN이지만, 특정 토큰들을 담당한다고 생각하면 됩니다.

Gate Network (Router) : 각 토큰이 어떤 expert에 소속되는지를 결정하는 network.

작은 FFN마다 서로 다른 activation을 갖는다. -> 파라미터가 늘어남.
하짐나, 실제로 사용(학습)할 때에는 선택된 FFN만 사요하므로, cost 증가량이 늘어나지는 않는다.

import dataclasses
from typing import List

import torch
import torch.nn.functional as F
from simple_parsing.helpers import Serializable
from torch import nn


@dataclasses.dataclass
class MoeArgs(Serializable):
    num_experts: int
    num_experts_per_tok: int


class MoeLayer(nn.Module):
    def __init__(self, experts: List[nn.Module], gate: nn.Module, moe_args: MoeArgs):
        super().__init__()
        assert len(experts) > 0
        self.experts = nn.ModuleList(experts)
        self.gate = gate
        self.args = moe_args

    def forward(self, inputs: torch.Tensor):
        # Step 1 : Expert로 보내기 위한 gate linear layer 통과
        gate_logits = self.gate(inputs)
        # Step 2 : gate logits에 대해 Top-K개 Expert 뽑기
        weights, selected_experts = torch.topk(gate_logits, self.args.num_experts_per_tok)
        # Step 3 : Top-K개의 experts에 대한 weights 구하기 (by softmax)
        weights = F.softmax(weights, dim=1, dtype=torch.float).to(inputs.dtype)
        results = torch.zeros_like(inputs)

        # N개의 experts 돌면서 순회
        for i, expert in enumerate(self.experts):
            # Step 4 : i_th expert에 해당하는 tokens 뽑기
            batch_idx, nth_expert = torch.where(selected_experts == i)
            # Step 5 : i_th expert에 해당하는 token들 i_th expert에 통과
            # Step 6 : 통과된 결과값에 expert weight 반영
            results[batch_idx] += weights[batch_idx, nth_expert, None] * expert(
                inputs[batch_idx]
            )
        return results

2.3 Modality interface

LLM은 input으로 text를 받기 때문에, 다른 모달리티와의 Gap을 연결하는게 중요하다.
하지만, end-to-end로 학습시키는 건 비용이 많이 든니, 아래 방법들을 사용.

Learnable Connector 사용.
- 1. Token-level
- 2. Feature-level
Image Translate model 사용.
- 3. Expert Model
Token-level > Feature-level > Expert Model

1. Token-level

Encoder의 출력을 token으로 변환되어, Text token과 concat되어 LLM의 input으로 들어간다.
"학습 가능한 Query Token group을 활용하여, Query기반 방식으로 정보를 추출한다."

Q-Former (BLIP-2)

Query가 텍스트에서 가장 많은 정보를 제공하는 Visual Representation을 추출하는 방법을 학습할 수 있도록 Q-former를 학습시키는 것을 목표로 합니다. BLIP에서 영감을 받아 동일한 입력 형식과 모델 파라미터를 공유하는 세 가지 Pre-training Objective를 동시에 최적화 합니다.
Step1 : ITC (Image-Text Contrastive Loss)
Image representation(이미지 표현)과 text representation(텍스트 표현)을 align(정렬)하는 것. 즉, 이미지와 텍스트 간의 차이(gap)를 줄이는 것이 목표.
image transformer에서 나온 query output과 text transformer에서 나온 output간의 pair-wise 유사도를 계산하고, 가장 값이 높은 pair를 query-text pair로 선정
image와 text가 서로의 정보를 참고하면 cheating이 되기 때문에 이를 막고자 Uni-modal Self-Attention Mask를 사용

Step2 : ITG (Image-grounded Text Generation)

입력 이미지가 조건으로 주어지면 텍스트를 생성하도록 Q-former를 학습
Image Encoder에서 뽑아낸 이미지 정보는 공유된 Self-Attention layer를 통해 text tokens로 전해진다.
이 때, Query는 Text와 관련된 이미지 정보들을 뽑도록 학습된다.
Multimodal Causal Self-Attention을 사용해 Query는 서로에 대해 Attnetion 할 수 있도록 한다.

Image-Text Pair가 Positive(Mathced)인지 Negative(Unmathed)인지 예측하도록 모델에 요청하는 이진 분류 작업
이 때, 모든 Query와 Text가 서로 가지고 있는 모든 정보를 참고해도 문제없으니, Bi-directional Self-Attention Mask를 사용
또한 모델의 성능을 향상시키기 위해 Hard Negative Mining 전략을 채택하여 informative한 Negative Pair를 생성하여 학습

Q-Former의 output query는 완전연결 계층(Fully Connected Layer)를 통해 LLM로 전달
완전연결 계층은 output query의 차원을 LLM의 text embedding 차원으로 Linear Projection하는 역할
Linear Projection된 결과물은 LLM의 text embedding 앞에 붙어 ‘soft visual prompt’로 활용

MLP-based (LLaVA: Large Language and Vision Assistant (Visual Instruction Tuning))

다양한 종류의 Task가 Instruction형태로 들어 있는 Instruction,Output 쌍의 데이터 셋을 통해 LM을 Fine-tuning (Sepervised-learning)

LLM:Vicuna활용

VisionEncoder:Pre-TrainedCLIPVisualEncoder인 ViT-L/14활용

2. Feature-level

모듈을 추가하는 방법.

Transformer layers들은 freeze 시켜두고, 추가적인 cross-attention layers를 더함으로써, 시각적 단서로 언어적 기능을 강화함. (Flamingo)
각각의 Transformer layer에 Visual Expert Module을 연결함으로써, dual-interaction이 가능하게 함. (CogVLM)

성능을 더 높이기 위해, Pre-trained LLM의 QKV 가중치 값을 초기화 하는 것도 방법!

학습가능한 프롬프트(이미지 정보 임베딩 값에 텍스트 피처 concat) 를 Transformer layer에 추가한다. (LLaMA-Adapter)

3. Expert Model

Image captioning model을 사용하여, 멀티모달 input을 language output으로 변환.

=> Pre-trained vision model로 action등의 정보를 추출하거나, ASR 모델로 description의 질 향상. (VideoChat-Text)
전문적 모델을 사용하는 것이 간단하긴 하지만, 유연하게 사용하기는 어렵다.
특히나, foreign 모달리티를 텍스트로 변경하는 건, 정보 손실의 우려가 있다. (공간적, 시간적 관계의 왜곡 우려)

3.Training Strategy and Data

완벽한 MLLM이 되기 위해서는 아래 3단계 필요.

Pre-training
Instruction-tuning
1. Data-Adaptation
2. Self-Instruction
3. Data-Mixture
Alignment tuning
1. RLHF
  1. Supervised fine-tuning
  2. Reward modeling
  3. Reinforcement learning
2. DPO

3.1 Pre-traning

데이터
: 대용량의 text-paired 데이터 필요. ex) (이미지, 캡션), (음성, 전사본), (비디오, 캡션) ...

목적
이미지에 대한 캡션 예측.
Approach
학습된 모델을 freeze시키고, learnable interface만 학습시키기.
=> 만약, 데이터의 질이 좋다면, frozen시킨 모델을 unlock 하는 것이 훨씬 좋다.

3.2. Instruction-tuning

- 목적함수

N : 실제 응답의 길이

3.2.1. Data-Adaptation

VQA Dataset

input : <image>, <question>
output : <response>

: 기본 dataset을 가지고, instruction data 형태로 만들어서 사용. (이게 base)
그 뒤에는 수작업으로 좀 만들다가, 나머지는 ChatGPT사용.

- 문제: Caption이 간결해서, output length에 limit이 걸린다.

- 해결: (1) Instruction을 명시적으로 구체화 함. (ChatBridge : "breif" 와 "a sentence"로 나눔)
(2) 현존하는 answer의 길이 늘리기. (M3IT : Rephrase original answer by ChatGPT)

3.2.2. Self-Instruction

많은 멀티태스크 데이터들이 있지만, 대부분 실생활에서의 반응을 반영하지 않는다.

이러한 문제들로 인해, self-instruction을 통해 데이터를 모으는 연구들이 있다.

LLM을 사용하여 수작업으로 만들어낸 샘플 데이터를 기반으로 instruction-following 데이터를 생성한다.
(주로 수작업 샘플 데이터 -> ChatGPT로 생성)

ex) LLaVA : 이미지를 bounding-box와 caption으로 translate 함. (GPT-4로 프롬프팅)

이러한 방식으로 instruction data을 만들고 LLaVA-Intruct-150K 라 부름.

이와 같은 방법으로 MiniGPT-4, Chat-Bridge, GPT4Tools, DetGPT 등 모두 서로다른 목적에 따른 데이터 구축.

최근, 멀티모달 모델 GPT-4V의 등장으로, 많은 연구들이 더 높은 퀄리티의 데이터를 얻기 위해 GPT-4V를 사용.

(LVIS-Instruct4V, ALLaVA)

3.2.3. Data-Mixture

멀티모달과 상관없이, Language-only user-assistant 대화 데이터도 instruction-following 능력을 향상시키는데 필요하다.

ex) LaVIN

: language-only와 multimodal 데이터에서 랜덤하게 샘플링하여 미니배치 구축.

ex) Multi Instruct

:혼합 명령어 튜닝(두 유형의 데이터를 결합하고 무작위로 섞음) 및 순차 명령어 튜닝(텍스트 데이터와 다중 모드 데이터 뒤따름)을 포함하여 단일 모달 및 다중 모드 데이터의 융합을 통해 훈련을 위한 다양한 전략을 조사

Mixed instruction tuning : combine both types of data and randomly shuffle
Sequential instruction tuning : text data followed by multimodal data

+ 데이터 질 확인

: Instruction-tuning 데이터의 질이 양만큼 중요하다

Lynx : 대용량이어도 노이즈가 많은 image-text 데이터로 pre-traning 시키는 것은 적지만 깨끗한 데이터로 학습시킨 모델만큼 잘 작동하지 않는다.
Wei et al. : 높은 퀄리티의 적은 instruction-tuning 데이터를 사용하는게 성능에 더 좋다.

따라서, 데이터 품질을 평가하기 위한 2가지 측정기준을 제안하고 그에 따라 열등한 데이터를 자동으로 필터링하 방법 소개.

Prompt Diversity
Lynx : 프롬프트의 다양성이 모델 성능과 일반화 능력에 치명적.
Task Coverage
Du et al. : 경험적으로, 모델 성능 향상에 있어서 이미지 추론 작업이 captioning과 QA 작업보다 우수함을 발견.
더불어, instuction의 복잡도를 높이는 것이 task diversity를 높이는 것보다 더 이득이다.

3.3 Alignment tuning

인간의 특정한 선호에 맞도록 aligned 되도록 하기 위해서 2가지 방법을 많이 사용한다.
(ex. 더 적은 hallucination 생성하도록 하는 등)

Reinforcement Learning with Human Feedback (RLHF)
Direct Preference Optimization (DPO)

RLHF

LLM을 인간의 선호에 맞게 align 맞추기 위해서 사용하는 강화학습 방법.

학습 과정에서 인간이 단 주석을 감독삼아 사용.

3가지 핵심 단계를 거친다.

1. Supervised fine-tuning
: 바라는 결과를 출력하기 위해서 pre-trained model을 파인튜닝하는 것이 목적.

그렇게 RLHF 설정 하에서 fine-tuned model은 policy model이라고 부른다.

supervised policy model π SFT는 instruction-tuned model에서 초기화 될 수 있으므로 생략될 수도 있음.

2. Reward modeling
멀티모달 프롬프트 x(이미지, 텍스트)와 응답 쌍 (y_w, y_l) 이 주어졌을 때, 보상모델 r_θ는 선호되는 응답인 y_w에 더 높은 보상을 주는 쪽으로 학습한다. 그리고 y_l의 경우에는 반대로 작용한다.

는 인간에 의해 레이블된 비교 데이터셋.

실제로 보상 모델 rθ는 policy model 과 유사한 구조를 공유한다.

3. Reinforcement learning
"Proximal Policy Optimization (PPO) algorithm"을 강화학습(RL)을 최적화하기 위해 적용.

DPO : Direct Preference Optimization (보상모델이 아님!)

이진 분류 (Simple Binary Cross-Entropy Loss)를 사용해서, 인간의 선호 labels을 학습.

PPO-based RLHF 알고리즘과 비교하면, DPO는 명시적(확실한) 보상 모델 학습에서 제외되므로, 전체 파이프라인을 2단계로 간단화 시켰다. (1. 인간의 선호도 수집 및 2. 선호도 학습)

Data
1. LLaVA-RLHF : 10K preference pairs
  The dataset mainly serves to reduce hallucinations in model responses
2. RLHF-V : 5.7K fine-grained human feedback data
  segment-level hallucination corrections
3. VLFeedback : more than 380K comparison pairs scored by GPT-4V in terms of helpfulness, faithfulness, and ethical concerns.
  It utilizes AI to provide feedback on model responses

4.EVALUATION

기존의 멀티모달 모델 평가 방법과 비교했을 때, MLLM 평가의 몇 가지 새로운 특징들

MLLM은 일반적으로 다목적이기 때문에, MLLM을 종합적으로 평가하는 것이 중요하다.
MLLM은 OCR이 필요 없는 수학 추론과 같은 새로운 능력을 보여주므로, 새로운 평가 체계가 필요하다. MLLM의 평가는 질문 유형에 따라 폐쇄형(closed-set)과 개방형(open-set)으로 나눌 수 있다

Closed-set

폐쇄형 질문은 답변 가능한 옵션들이 미리 정의되고, 제한된 유형의 질문들로 구성되어 있다.

이 경우, 평가는 보통 특정 과제 데이터셋에서 이루어진다.

평가 벤치마크 (주로 Zero-Shot or Fine-tuning 으로 수행됨)

ScienceQA 정확도 (InstructBLIP)
CIDEr 점수 (NoCaps와 Flickr30K)
: 주로 특정 도메인 과제의 평가에서 사용됨.

이러한 평가 방법은 보통 선택된 소수의 과제나 데이터셋에 국한되어 있어 포괄적인 정량적 비교가 부족하다. 이를 해결하기 위한 몇 가지 노력들이 있는데,

Fu - MME (종합 평가 벤치마크 개발 - 14개 인지 과제 포함)
MMBench (ChatGPT를 사용하여 열린 응답을 미리 정의된 선택지와 일치시킴)

* Data Leakage : 예전에는 사용 가능했던 데이터(하지만 지금은 사용 불가한 데이터)를 학습한 모델의 성능이 더 좋게 나온다.

Open-set

폐쇄형과 달리 개방형의 질문의 응답은 더 유연할 수 있으며, MLLM은 보통 챗봇의 역할을 한다.

때문에 판단하기가 더 까다롭다.

평가 방법

수동 점수 부여
: 사람이 응답을 평가. -> 노동 집약적.
GPT score
: GPT-4 나 ChatGPT를 사용해서 결과를 평가. -> 이미지 관련 텍스트 콘첸츠만을 기반으로 판단
사례 연구
: MLLM의 다양한 능력을 비교하는 보충적인 접근. (GPT랑 Gemini랑 비교해보는 방법)

6.Multimodal Hallucination

Hallucination의 정의 : 이미지에 대해 일관적이지 않은 답변을 생성하는 현상.

기초 개념

멀티모달의 환각에 대한 연구는 3갈래

존재 환각(Existence Hallucination): 가장 기본적인 형태로, 모델이 이미지 내에 특정 객체가 존재한다고 잘못 주장하는 경우를 의미
속성 환각(Attribute Hallucination): 특정 객체의 속성을 잘못 묘사하는 경우를 의미.
ex) 개의 색상을 정확하게 식별하지 못하는 경우.
이 유형은 보통 존재 환각과 연관되는데, 속성의 묘사는 이미지 내에 실제로 존재하는 객체를 기반으로 해야 하기 때문
관계 환각(Relationship Hallucination): 더 복잡한 유형으로, 객체 간의 관계를 잘못 묘사하는 경우.
ex) 객체 간의 상대적인 위치나 상호작용을 잘못 설명하는 경우

평가 방법

CHAIR
: 이 척도는 환각된 객체가 포함된 문장의 비율 또는 모든 언급된 객체 중 환각된 객체의 비율을 측정
POPE
: 폐쇄형 선택지(closed-set choices)를 평가하는 방법

구체적으로, 특정 객체가 이미지에 존재하는지를 묻는 이진 선택(binary choice)을 포함한 여러 질문을 작성하여 평가.

이 방법은 MLLMs(Multimodal Large Language Models)의 강인성을 평가하기 위해 데이터 통계도 고려하여 더 도전적인 환경에서도 평가를 진행. 최종 평가는 "예/아니오"와 같은 키워드를 감지하여 개방형 응답을 폐쇄형 이진 선택으로 변환하는 간단한 방법을 사용

MME
: 존재, 개수, 위치, 색상 등 다양한 측면을 포괄하는 더 종합적인 평가를 제공
HaELM
: 텍스트 전용 대형 언어 모델(LLM)을 심판으로 사용하여, MLLM의 캡션이 참조 캡션과 비교해 올바른지 자동으로 판단하는 방법을 제안
Woodpecker
: 텍스트 전용 LLM이 이미지 맥락에 제한적으로 접근할 수 있다는 점을 고려하여, GPT-4V를 사용해 이미지에 기반한 모델 응답을 직접 평가
FaithScore
: 설명적 하위 문장을 분해하고 각각을 별도로 평가하는 보다 세분화된 척도
AMBER
: LLM을 사용하지 않는 벤치마크로, 판별 작업과 생성 작업을 모두 포함하며 세 가지 유형의 환각 가능성을 다룸.

References

'AI > Language' 카테고리의 다른 글

ROFORMER: ENHANCED TRANSFORMER WITH ROTARYPOSITION EMBEDDING (14)	2024.07.23
Transformer (9)	2024.07.20
[Paper Translate] A SURVEY ON RECENT ADVANCES IN NAMED ENTITYRECOGNITION (6)	2024.07.16
MCL-NER short breif (2)	2024.07.03
Shortened LLaMA (4)	2024.06.01

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Scrutinizer

[Paper Review] A Survey on Multimodal Large Language Model (MLLM)

1. Introduction

목차

2. Architecture