1. Introduction
- LLM 이 NLP분야에서 크게 발전해 온 것은 사실이나, 입력은 Discrete Text로 받기 때문에 이미지에 대해서는 '장님'과 같다. 동시에 LVM(Large Vision Model)은 이미지를 볼 수는 있지만, 대부분은 추론 과정에서 지연된다.
- 이에 대한 보안으로, LLM과 LVM이 합쳐진 MLLM이 등장한다.
- MLLM은 보통 receive, reason 그리고 멀티모달 출력을 낼 수 있는 llm 기반 모델을 의미했다.
- MLLM 이전에는 멀티모달에 크게 기여를 한 Discriminative와 Generative 모델로 나눠진 연구들이 많았다.
- 예를 들어, CLIP은 Discriminative의 대표적인 예로, 이미지와 텍스트 정보를 통일된 표현 공간에 사영시켜 downstream multimodal task의 연결다리 역할을 했다.
- 반면에 OFA는 Generative의 대표적 예로, sequence-to-sequence 방식으로 멀티모달 task를 통일시켰다.
(1) MLLM은 억대 단위 파라미터의 LLM을 기반으로 한다. (이전 모델에서는 불가능 했던 것)
(2) MLLM은 새로운 학습 방법을 사용한다. : instruction tuning 등과 같은 방법을 사용하여, 잠재력을 방출한다.
위 2개 특성을 지닌 MLLM은 새로운 능력을 탐구한다.
ex) 이미지에 기반해서 웹사이트에 코드 작성, 밈의 깊은 의미 이해, OCR없이 수학 추론 등등
GPT-4가 출시된 이후로, MLLM분야는 그 엄청난 성능에 열광하며 연구에 박차를 가했다.
이전의 MLLM 연구들은 이미지/비디오/오디오에 기반하여 텍스트를 생성하는 것에 집중했었다면,
후속 연구는 범위를 확장했다.
- 문법 교정
- 이미지, 비디오, 오디오, 텍스트 간의 서로 다른 모달리티 출력
- 향상된 언어 지원 (다양한 언어로의 확장)
- 사용 영역의 확장 - 의료 이미지 이해, 문서 파싱 등
이 논문은 주로 이미지와 언어간의 모달리티에 주로 중점을 두고 있음.
목차
- 해당 논문은 다음의 내용을 포함하고 있다.
- Maintream architecture (§2)
- A full recipe of training strategy and data (§3)
- Common practices of performance evaluation (§4)
- MLLM이 집중하는 주요 문제점.
- What aspects can be further improved or extended? (§ 5,7)
- How ro relieve the multimodal hallucination issue? (§ 6)
- 3가지 핵심 기술 (§8)
- M-ICL : commonly used in inference stage to boost few-shot performance.
- M-CoT : typically used in complex reasoning tasks.
- General Idea to develop LLM-based systems to solve composite reasoning tasks or to adress common iser queries.
+ 요약 및 잠재적 미래 연구 방향
2. Architecture
크게 3 구조로 나눌 수 있다.
- Pre-trained modality encoder : image/audio encoders (사람으로 치면, 눈이나 귀. 정보를 받아들이고 전처리 함.)
- Pre-trained LLM : (사람으로 치면 뇌! 이해하고, 추론하는 곳)
- A modality interface to connect them (위 2개 과정의 정렬을 맞춰주는 곳)
2.1. Modality Encoder
- Encoder의 역할은, raw information을 압축하여 더 compact한 표현으로 나타내는 것이다.
- 모델은 처음부터 학습시키는 것 보다는 이미 다른 modality에 aligned된 pre-trained model을 사용하는 방법을 많이 사용한다.
- 예를 들어 CLIP같은 경우, 이미지-텍스트 페어 데이터에 대해 대용량으로 학습된 이미지 인코더를 사용한다. 이처럼 사전학습된 모델을 사용하면 LLM과 align 맞추기가 훨씬 용이하다.
MiniGPT-4는 EVA-CLIP 인코더를 사용했고, Osprey는 컨볼루션 기반의 ConvNext-L을 소개한다.
- 어떤 모델들은 인코더가 없는 구조를 연구했는데, 예를 들어 Fuyu-8b 모델은 LLM에 보내기 바로 전에 이미지가 project된다. 그래서, 인풋이 이미지의 해상도에 국한되지 않는 장점이 있다.
- 인코더를 선정할 때, 흔히들 "파라미터 사이즈, 해상도, 학습된 corpus" 를 고려한다.
많은 연구들에서 경험적으로 "높은 이미지 해상도"를 사용하는것이 높은 성능을 도출한다고 밝혀왔다.
Iinput 이미지의 해상도를 높이는 방법은 크게 2가지로 나뉜다.- Direct Scaling
- Dual-Encoder mechanism
- Patch-division methods
- Direct Scaling
1. Direct Scaling
- 해상도 높은 이미지를 인코더의 인풋으로 주는 방법.
: 단, encoder tuning 이나 pre-trained encoder를 해상도 높은 걸로 바꿔야 할 수도 있음. - Dual-Encoder mechanism
: 고해상 피처를 cross attention을 통해 저해상 branch로 전달.
2. Patch-division methods
step1. 고해상도의 이미지를 패치단위로 나누어 각각 저해상도 인코더에 전달. -> **local 정보 추출
step2. 고해상도의 이미지를 저해상도로 바꾸어 저해상도 인코더에 전달. -> ** global 정보 추출
2.2 Pre-trained LLM
LLM을 첯음부터 학습시키는 것보다는, 이미 학습된 LLM을 가져오는게 훨씬 효율적이다.
- LLaMA시리즈나 Vicuna 계열은 오픈소스이지만, 영어로만 학습이 되어 다국어에 취약하다. 반면에 Qwen은 영어와 중국어를 지원하는 이중어 모델이다.
- LLM의 파라미터 사이즈를 올리는 것은 이미지 해상도를 높이는 것과 같은 부가적인 이득을 가져온다.
예를 들어, 단순히 모델을 7B -> 13B로 올려도 웬만한 벤치마크에서 성능이 향상한다. - 34B짜리 모델을 쓰면, 영어로만 학습시킨 모델이 zero-shot으로 중국어도 처리가 가능해진다.
ex) Lu et al. 에서 13B 모델을 35B로 키워보고, 65B 모델을 70B로 키워본 결과, 더 큰 모델이 MLLM의 벤치마크에서 더 좋은 성능을 가져옴을 확인함. - 경험적으로, MoE(Mixture of Experts, Sparse model)가 dense model을 사용했을 때보다 거의 모든 벤치마크에서 성능이 향상함을 확인(MM1, MoE-LLaVA)
* What's MoE ?
Dense layer만으로 모델을 스케일링 하는 것은 컴퓨팅 자원이나 복잡도가 기하급수적으로 증가하므로, 파라미터 수가 적은 sparse model을 스케일링 하는 방법 .
Sparse MoE Layers : 기존 트랜스포머의 feed-forward network (FFN) 레이어를 N개의 expert로 나눠서 사용하는 개념입니다. 이 expert는 FFN이지만, 특정 토큰들을 담당한다고 생각하면 됩니다.
Gate Network (Router) : 각 토큰이 어떤 expert에 소속되는지를 결정하는 network.
작은 FFN마다 서로 다른 activation을 갖는다. -> 파라미터가 늘어남.
하짐나, 실제로 사용(학습)할 때에는 선택된 FFN만 사요하므로, cost 증가량이 늘어나지는 않는다.
import dataclasses
from typing import List
import torch
import torch.nn.functional as F
from simple_parsing.helpers import Serializable
from torch import nn
@dataclasses.dataclass
class MoeArgs(Serializable):
num_experts: int
num_experts_per_tok: int
class MoeLayer(nn.Module):
def __init__(self, experts: List[nn.Module], gate: nn.Module, moe_args: MoeArgs):
super().__init__()
assert len(experts) > 0
self.experts = nn.ModuleList(experts)
self.gate = gate
self.args = moe_args
def forward(self, inputs: torch.Tensor):
# Step 1 : Expert로 보내기 위한 gate linear layer 통과
gate_logits = self.gate(inputs)
# Step 2 : gate logits에 대해 Top-K개 Expert 뽑기
weights, selected_experts = torch.topk(gate_logits, self.args.num_experts_per_tok)
# Step 3 : Top-K개의 experts에 대한 weights 구하기 (by softmax)
weights = F.softmax(weights, dim=1, dtype=torch.float).to(inputs.dtype)
results = torch.zeros_like(inputs)
# N개의 experts 돌면서 순회
for i, expert in enumerate(self.experts):
# Step 4 : i_th expert에 해당하는 tokens 뽑기
batch_idx, nth_expert = torch.where(selected_experts == i)
# Step 5 : i_th expert에 해당하는 token들 i_th expert에 통과
# Step 6 : 통과된 결과값에 expert weight 반영
results[batch_idx] += weights[batch_idx, nth_expert, None] * expert(
inputs[batch_idx]
)
return results
2.3 Modality interface
LLM은 input으로 text를 받기 때문에, 다른 모달리티와의 Gap을 연결하는게 중요하다.
하지만, end-to-end로 학습시키는 건 비용이 많이 든니, 아래 방법들을 사용.
- Learnable Connector 사용.
- 1. Token-level
- 2. Feature-level
- Image Translate model 사용.
- 3. Expert Model
- Token-level > Feature-level > Expert Model
1. Token-level
Encoder의 출력을 token으로 변환되어, Text token과 concat되어 LLM의 input으로 들어간다.
"학습 가능한 Query Token group을 활용하여, Query기반 방식으로 정보를 추출한다."
- Q-Former (BLIP-2)
Query가 텍스트에서 가장 많은 정보를 제공하는 Visual Representation을 추출하는 방법을 학습할 수 있도록 Q-former를 학습시키는 것을 목표로 합니다. BLIP에서 영감을 받아 동일한 입력 형식과 모델 파라미터를 공유하는 세 가지 Pre-training Objective를 동시에 최적화 합니다.Step1 : ITC (Image-Text Contrastive Loss) - Image representation(이미지 표현)과 text representation(텍스트 표현)을 align(정렬)하는 것. 즉, 이미지와 텍스트 간의 차이(gap)를 줄이는 것이 목표.
- image transformer에서 나온 query output과 text transformer에서 나온 output간의 pair-wise 유사도를 계산하고, 가장 값이 높은 pair를 query-text pair로 선정
- image와 text가 서로의 정보를 참고하면 cheating이 되기 때문에 이를 막고자 Uni-modal Self-Attention Mask를 사용
- 입력 이미지가 조건으로 주어지면 텍스트를 생성하도록 Q-former를 학습
- Image Encoder에서 뽑아낸 이미지 정보는 공유된 Self-Attention layer를 통해 text tokens로 전해진다.
- 이 때, Query는 Text와 관련된 이미지 정보들을 뽑도록 학습된다.
- Multimodal Causal Self-Attention을 사용해 Query는 서로에 대해 Attnetion 할 수 있도록 한다.
- Image-Text Pair가 Positive(Mathced)인지 Negative(Unmathed)인지 예측하도록 모델에 요청하는 이진 분류 작업
- 이 때, 모든 Query와 Text가 서로 가지고 있는 모든 정보를 참고해도 문제없으니, Bi-directional Self-Attention Mask를 사용
- 또한 모델의 성능을 향상시키기 위해 Hard Negative Mining 전략을 채택하여 informative한 Negative Pair를 생성하여 학습
- Q-Former의 output query는 완전연결 계층(Fully Connected Layer)를 통해 LLM로 전달
- 완전연결 계층은 output query의 차원을 LLM의 text embedding 차원으로 Linear Projection하는 역할
- Linear Projection된 결과물은 LLM의 text embedding 앞에 붙어 ‘soft visual prompt’로 활용
- MLP-based (LLaVA: Large Language and Vision Assistant (Visual Instruction Tuning))
다양한 종류의 Task가 Instruction형태로 들어 있는 Instruction,Output 쌍의 데이터 셋을 통해 LM을 Fine-tuning (Sepervised-learning)
LLM:Vicuna활용
VisionEncoder:Pre-TrainedCLIPVisualEncoder인 ViT-L/14활용
2. Feature-level
모듈을 추가하는 방법.
- Transformer layers들은 freeze 시켜두고, 추가적인 cross-attention layers를 더함으로써, 시각적 단서로 언어적 기능을 강화함. (Flamingo)
- 각각의 Transformer layer에 Visual Expert Module을 연결함으로써, dual-interaction이 가능하게 함. (CogVLM)
성능을 더 높이기 위해, Pre-trained LLM의 QKV 가중치 값을 초기화 하는 것도 방법!
- 학습가능한 프롬프트(이미지 정보 임베딩 값에 텍스트 피처 concat) 를 Transformer layer에 추가한다. (LLaMA-Adapter)
3. Expert Model
Image captioning model을 사용하여, 멀티모달 input을 language output으로 변환.
- => Pre-trained vision model로 action등의 정보를 추출하거나, ASR 모델로 description의 질 향상. (VideoChat-Text)
- 전문적 모델을 사용하는 것이 간단하긴 하지만, 유연하게 사용하기는 어렵다.
- 특히나, foreign 모달리티를 텍스트로 변경하는 건, 정보 손실의 우려가 있다. (공간적, 시간적 관계의 왜곡 우려)
3.Training Strategy and Data
완벽한 MLLM이 되기 위해서는 아래 3단계 필요.
- Pre-training
- Instruction-tuning
- Data-Adaptation
- Self-Instruction
- Data-Mixture
- Alignment tuning
- RLHF
- Supervised fine-tuning
- Reward modeling
- Reinforcement learning
- DPO
- RLHF
3.1 Pre-traning
- 데이터
: 대용량의 text-paired 데이터 필요. ex) (이미지, 캡션), (음성, 전사본), (비디오, 캡션) ...
- 목적
이미지에 대한 캡션 예측. - Approach
학습된 모델을 freeze시키고, learnable interface만 학습시키기.
=> 만약, 데이터의 질이 좋다면, frozen시킨 모델을 unlock 하는 것이 훨씬 좋다.
3.2. Instruction-tuning
- 목적함수
N : 실제 응답의 길이
3.2.1. Data-Adaptation
- VQA Dataset
input : <image>, <question>
output : <response>
: 기본 dataset을 가지고, instruction data 형태로 만들어서 사용. (이게 base)
그 뒤에는 수작업으로 좀 만들다가, 나머지는 ChatGPT사용.
- 문제: Caption이 간결해서, output length에 limit이 걸린다.
- 해결: (1) Instruction을 명시적으로 구체화 함. (ChatBridge : "breif" 와 "a sentence"로 나눔)
(2) 현존하는 answer의 길이 늘리기. (M3IT : Rephrase original answer by ChatGPT)
3.2.2. Self-Instruction
많은 멀티태스크 데이터들이 있지만, 대부분 실생활에서의 반응을 반영하지 않는다.
이러한 문제들로 인해, self-instruction을 통해 데이터를 모으는 연구들이 있다.
- LLM을 사용하여 수작업으로 만들어낸 샘플 데이터를 기반으로 instruction-following 데이터를 생성한다.
(주로 수작업 샘플 데이터 -> ChatGPT로 생성)
ex) LLaVA : 이미지를 bounding-box와 caption으로 translate 함. (GPT-4로 프롬프팅)
이러한 방식으로 instruction data을 만들고 LLaVA-Intruct-150K 라 부름.
이와 같은 방법으로 MiniGPT-4, Chat-Bridge, GPT4Tools, DetGPT 등 모두 서로다른 목적에 따른 데이터 구축.
최근, 멀티모달 모델 GPT-4V의 등장으로, 많은 연구들이 더 높은 퀄리티의 데이터를 얻기 위해 GPT-4V를 사용.
(LVIS-Instruct4V, ALLaVA)
3.2.3. Data-Mixture
멀티모달과 상관없이, Language-only user-assistant 대화 데이터도 instruction-following 능력을 향상시키는데 필요하다.
ex) LaVIN
: language-only와 multimodal 데이터에서 랜덤하게 샘플링하여 미니배치 구축.
ex) Multi Instruct
:혼합 명령어 튜닝(두 유형의 데이터를 결합하고 무작위로 섞음) 및 순차 명령어 튜닝(텍스트 데이터와 다중 모드 데이터 뒤따름)을 포함하여 단일 모달 및 다중 모드 데이터의 융합을 통해 훈련을 위한 다양한 전략을 조사
- Mixed instruction tuning : combine both types of data and randomly shuffle
- Sequential instruction tuning : text data followed by multimodal data
+ 데이터 질 확인
: Instruction-tuning 데이터의 질이 양만큼 중요하다
- Lynx : 대용량이어도 노이즈가 많은 image-text 데이터로 pre-traning 시키는 것은 적지만 깨끗한 데이터로 학습시킨 모델만큼 잘 작동하지 않는다.
- Wei et al. : 높은 퀄리티의 적은 instruction-tuning 데이터를 사용하는게 성능에 더 좋다.
따라서, 데이터 품질을 평가하기 위한 2가지 측정기준을 제안하고 그에 따라 열등한 데이터를 자동으로 필터링하 방법 소개.
- Prompt Diversity
Lynx : 프롬프트의 다양성이 모델 성능과 일반화 능력에 치명적. - Task Coverage
Du et al. : 경험적으로, 모델 성능 향상에 있어서 이미지 추론 작업이 captioning과 QA 작업보다 우수함을 발견.
더불어, instuction의 복잡도를 높이는 것이 task diversity를 높이는 것보다 더 이득이다.
3.3 Alignment tuning
인간의 특정한 선호에 맞도록 aligned 되도록 하기 위해서 2가지 방법을 많이 사용한다.
(ex. 더 적은 hallucination 생성하도록 하는 등)
- Reinforcement Learning with Human Feedback (RLHF)
- Direct Preference Optimization (DPO)
- RLHF
LLM을 인간의 선호에 맞게 align 맞추기 위해서 사용하는 강화학습 방법.
학습 과정에서 인간이 단 주석을 감독삼아 사용.
3가지 핵심 단계를 거친다.
1. Supervised fine-tuning
: 바라는 결과를 출력하기 위해서 pre-trained model을 파인튜닝하는 것이 목적.
그렇게 RLHF 설정 하에서 fine-tuned model은 policy model이라고 부른다.
supervised policy model π SFT는 instruction-tuned model에서 초기화 될 수 있으므로 생략될 수도 있음.
2. Reward modeling
멀티모달 프롬프트 x(이미지, 텍스트)와 응답 쌍 (y_w, y_l) 이 주어졌을 때, 보상모델 r_θ는 선호되는 응답인 y_w에 더 높은 보상을 주는 쪽으로 학습한다. 그리고 y_l의 경우에는 반대로 작용한다.
는 인간에 의해 레이블된 비교 데이터셋.
실제로 보상 모델 rθ는 policy model 과 유사한 구조를 공유한다.
3. Reinforcement learning
"Proximal Policy Optimization (PPO) algorithm"을 강화학습(RL)을 최적화하기 위해 적용.
- DPO : Direct Preference Optimization (보상모델이 아님!)
이진 분류 (Simple Binary Cross-Entropy Loss)를 사용해서, 인간의 선호 labels을 학습.
PPO-based RLHF 알고리즘과 비교하면, DPO는 명시적(확실한) 보상 모델 학습에서 제외되므로, 전체 파이프라인을 2단계로 간단화 시켰다. (1. 인간의 선호도 수집 및 2. 선호도 학습)
- Data
- LLaVA-RLHF : 10K preference pairs
The dataset mainly serves to reduce hallucinations in model responses - RLHF-V : 5.7K fine-grained human feedback data
segment-level hallucination corrections - VLFeedback : more than 380K comparison pairs scored by GPT-4V in terms of helpfulness, faithfulness, and ethical concerns.
It utilizes AI to provide feedback on model responses
- LLaVA-RLHF : 10K preference pairs
4.EVALUATION
기존의 멀티모달 모델 평가 방법과 비교했을 때, MLLM 평가의 몇 가지 새로운 특징들
- MLLM은 일반적으로 다목적이기 때문에, MLLM을 종합적으로 평가하는 것이 중요하다.
- MLLM은 OCR이 필요 없는 수학 추론과 같은 새로운 능력을 보여주므로, 새로운 평가 체계가 필요하다. MLLM의 평가는 질문 유형에 따라 폐쇄형(closed-set)과 개방형(open-set)으로 나눌 수 있다
Closed-set
폐쇄형 질문은 답변 가능한 옵션들이 미리 정의되고, 제한된 유형의 질문들로 구성되어 있다.
이 경우, 평가는 보통 특정 과제 데이터셋에서 이루어진다.
평가 벤치마크 (주로 Zero-Shot or Fine-tuning 으로 수행됨)
- ScienceQA 정확도 (InstructBLIP)
- CIDEr 점수 (NoCaps와 Flickr30K)
: 주로 특정 도메인 과제의 평가에서 사용됨.
이러한 평가 방법은 보통 선택된 소수의 과제나 데이터셋에 국한되어 있어 포괄적인 정량적 비교가 부족하다. 이를 해결하기 위한 몇 가지 노력들이 있는데,
- Fu - MME (종합 평가 벤치마크 개발 - 14개 인지 과제 포함)
- MMBench (ChatGPT를 사용하여 열린 응답을 미리 정의된 선택지와 일치시킴)
* Data Leakage : 예전에는 사용 가능했던 데이터(하지만 지금은 사용 불가한 데이터)를 학습한 모델의 성능이 더 좋게 나온다.
Open-set
폐쇄형과 달리 개방형의 질문의 응답은 더 유연할 수 있으며, MLLM은 보통 챗봇의 역할을 한다.
때문에 판단하기가 더 까다롭다.
평가 방법
- 수동 점수 부여
: 사람이 응답을 평가. -> 노동 집약적. - GPT score
: GPT-4 나 ChatGPT를 사용해서 결과를 평가. -> 이미지 관련 텍스트 콘첸츠만을 기반으로 판단 - 사례 연구
: MLLM의 다양한 능력을 비교하는 보충적인 접근. (GPT랑 Gemini랑 비교해보는 방법)
6.Multimodal Hallucination
- Hallucination의 정의 : 이미지에 대해 일관적이지 않은 답변을 생성하는 현상.
기초 개념
멀티모달의 환각에 대한 연구는 3갈래
- 존재 환각(Existence Hallucination): 가장 기본적인 형태로, 모델이 이미지 내에 특정 객체가 존재한다고 잘못 주장하는 경우를 의미
- 속성 환각(Attribute Hallucination): 특정 객체의 속성을 잘못 묘사하는 경우를 의미.
ex) 개의 색상을 정확하게 식별하지 못하는 경우.
이 유형은 보통 존재 환각과 연관되는데, 속성의 묘사는 이미지 내에 실제로 존재하는 객체를 기반으로 해야 하기 때문 - 관계 환각(Relationship Hallucination): 더 복잡한 유형으로, 객체 간의 관계를 잘못 묘사하는 경우.
ex) 객체 간의 상대적인 위치나 상호작용을 잘못 설명하는 경우
평가 방법
- CHAIR
: 이 척도는 환각된 객체가 포함된 문장의 비율 또는 모든 언급된 객체 중 환각된 객체의 비율을 측정 - POPE
: 폐쇄형 선택지(closed-set choices)를 평가하는 방법
구체적으로, 특정 객체가 이미지에 존재하는지를 묻는 이진 선택(binary choice)을 포함한 여러 질문을 작성하여 평가.
이 방법은 MLLMs(Multimodal Large Language Models)의 강인성을 평가하기 위해 데이터 통계도 고려하여 더 도전적인 환경에서도 평가를 진행. 최종 평가는 "예/아니오"와 같은 키워드를 감지하여 개방형 응답을 폐쇄형 이진 선택으로 변환하는 간단한 방법을 사용
- MME
: 존재, 개수, 위치, 색상 등 다양한 측면을 포괄하는 더 종합적인 평가를 제공 - HaELM
: 텍스트 전용 대형 언어 모델(LLM)을 심판으로 사용하여, MLLM의 캡션이 참조 캡션과 비교해 올바른지 자동으로 판단하는 방법을 제안 - Woodpecker
: 텍스트 전용 LLM이 이미지 맥락에 제한적으로 접근할 수 있다는 점을 고려하여, GPT-4V를 사용해 이미지에 기반한 모델 응답을 직접 평가 - FaithScore
: 설명적 하위 문장을 분해하고 각각을 별도로 평가하는 보다 세분화된 척도 - AMBER
: LLM을 사용하지 않는 벤치마크로, 판별 작업과 생성 작업을 모두 포함하며 세 가지 유형의 환각 가능성을 다룸.
References
'AI > Language' 카테고리의 다른 글
ROFORMER: ENHANCED TRANSFORMER WITH ROTARYPOSITION EMBEDDING (11) | 2024.07.23 |
---|---|
Transformer (7) | 2024.07.20 |
[Paper Translate] A SURVEY ON RECENT ADVANCES IN NAMED ENTITYRECOGNITION (5) | 2024.07.16 |
MCL-NER short breif (1) | 2024.07.03 |
Shortened LLaMA (1) | 2024.06.01 |