본문 바로가기

AI

(16)
[Paper Review] Improving Data Augmentation-based Cross-Speaker Style Transfer for TTSwith Singing Voice, Style Filtering, and F0 Matching 이 논문은 음성 합성에 관한 논문으로, 노래하는 목소리 합성(Singing Voice Conversion, SVC)에 대한 내용이다. 음성 합성에 대해 처음 공부해보게 되면서 읽게 된 논문으로, 새롭게 알게 된 내용과 용어들이 많아 재미있었다.   용어 정리 더보기- Expressive data : 일명 Style data라고도 할 수 있는데, 감정이나 음색적으로 표현이 풍부한 데이터를 의미. -> 감정에 대한 label이 있는건가? 는 더 알아봐야 함.  - Neutral data: 일반적인 음성 데이터. 감정이 두드러지는 음성 데이터가 아닌 일반적인 데이터를 의미.  - F0 (Fundamental Frequency)  :  기저 주파수 (사람들이 고유하게 가지고 있는 기저 주파수) Cross-spe..
DANN : Domain Adversarial Training Neural Network 연구 주제 관련 논문을 서치하다가 알게된 고전적인 방법이다. 이 논문은 2016년에 JMNL 저널에 나온 논문이지만, 아이디어 자체는 간단하여 지금까지도 인용이 많이 되고 있다. 알아두면 좋을 것 같아서 정리하기로 했다.   기존의 Domain Adaptation(DA) 방법에 GAN의 concept을 일부 도입한 방법이라고 이해하면 될 것 같다.  Traditional 한 DA 방법은, 주로 fixed feature representation을 추출하여 원하는 target distribution에 mapping하는 것이다.하지만 위 논문은 representation 자체를 바꾸는 방법으로, 한 번의 training을 통해 위 결과를 도출해 낸다는 것이 가장 큰 특징이라고 할 수 있다.    Domain..
[Paper Review] A Survey on Multimodal Large Language Model (MLLM) 1. IntroductionLLM 이 NLP분야에서 크게 발전해 온 것은 사실이나, 입력은 Discrete Text로 받기 때문에 이미지에 대해서는 '장님'과 같다. 동시에 LVM(Large Vision Model)은 이미지를 볼 수는 있지만, 대부분은 추론 과정에서 지연된다.이에 대한 보안으로, LLM과 LVM이 합쳐진 MLLM이 등장한다.MLLM은 보통 receive, reason 그리고 멀티모달 출력을 낼 수 있는 llm 기반 모델을 의미했다.MLLM 이전에는 멀티모달에 크게 기여를 한 Discriminative와 Generative 모델로 나눠진 연구들이 많았다.예를 들어, CLIP은 Discriminative의 대표적인 예로, 이미지와 텍스트 정보를 통일된 표현 공간에 사영시켜 downstrea..
End-to-End Neural Speaker Diarization with Non-Autoregressive Attractors Attractor 에 대한 설명 Attractor는 머신러닝과 신경망에서 특정 패턴이나 특징을 대표하는 일종의 "중심점" 또는 "끌림점"을 의미합니다. 화자 분할(Speaker Diarization) 맥락에서는, 어트랙터는 다양한 화자의 발화(음성 데이터)에서 해당 화자를 나타내는 특징을 학습하고 그 특징을 사용하여 화자를 구분하는 데 사용됩니다.구체적으로, EEND(End-to-End Neural Diarization) 모델에서는 여러 화자의 음성이 섞여 있는 상황에서, 어트랙터는 각 화자의 음성 특징을 잡아내는 역할을 합니다. 각 화자는 고유한 어트랙터에 의해 구분되며, 모델은 이러한 어트랙터를 기반으로 음성 데이터를 화자별로 분리합니다.어트랙터는 일종의 임베딩(embedding) 벡터로, 같은 화자..
Speaker Diarization _ Dataset & Metrics 5. Diarization evaluation series and datasetsCALLHOME: NIST SRE 2000 (LDC2001S97): 최근 화자 구분 연구에서 가장 흔히 사용하는 데이터 세트. 500개의 다국어 전화통화 세션을 포함하는데, 각 세션은 2~7명의 화자가 있으며 주로 2명의 화자가 주도적으로 대화를 나눈다. Data alignment 확인 AMI Corpus: 100시간의 회의 녹음. 171개의 미팅 세션에서 가져옴. 옷깃 마이크 (lapel microphones)로 녹음하였고, 각각 화자마다 증폭되었다. 또다른 오디오 소스는, 테이블 위에 전방향 마이크를 통해 녹음되었다. 이 데이터셋은 단어, 음소 단위의 시간열과 전사본 그리고 화자 레이블이 forced alignement된..
[Paper Review] Wav2Vec2.0 : A Framework for Self-Supervised Learning of Speech Representations 요약speech 만으로 powerful한 representation을 학습하고, 이후에 script가 있는 오디오 데이터 파인튜닝 하는 것이 개념적으로 더간단하면서 성능이 좋음을 처음 증명해 낸 논문이다. Librispeech의 모든 labeld data(960h)를 사용한 실험에서, 깨끗한 데이터 세트(clean)와 노이즈가 있는 데이터 세트(other)에서 각각 1.8/3.3의 WER을 달성했다.레이블 데이터 양을 조절하면서 파인튜닝하는 실험도 진행하였는데, 라벨 데이터 양을 1시간으로 줄였을 때 성능이 100h subset에서 이전 SOTA모델을 사용했을 때 보다 더 좋은 성능을 보였다. 라벨 데이터 양을 10분으로 줄이고, unlabeled 데이터 53,000h 사용했을때, clean 데이터와 o..
[Paper Review] DATA DRIVEN GRAPHEME-TO-PHONEME REPRESENTATIONS FOR A LEXICON-FREETEXT-TO-SPEECH 초록Grapheme-to-Phoneme (G2P)은 현대의 고품질 Text-to-Speech (TTS) 시스템에서 필수적인 첫 단계입니다. 현재 대부분의 G2P 시스템은 전문가들이 신중하게 제작한 사전을 기반으로 하고 있습니다. 이는 두 가지 문제를 야기합니다. 첫째, 사전은 고정된 음소 집합, 보통 ARPABET 또는 IPA를 사용하여 생성되는데, 이는 모든 언어에 대해 음소를 표현하는 최적의 방법이 아닐 수 있습니다. 둘째, 이러한 전문가 사전을 제작하는 데 필요한 인력 시간이 매우 많습니다.  본 논문에서는 이러한 문제를 해결하기 위해 최근의 자가 지도 학습 발전을 이용하여 고정된 표현 대신 데이터 기반 음소 표현을 얻습니다. 우리는 잘 구축된 사전을 활용하는 강력한 기준선과 우리의 사전 없는 접근..
[Paper Review] CLIP :Learning Transferable Visual Models From Natural Language Supervision Abstract기존 Vision - text미리 정해진 객체 카테고리를 예측하도록 훈련 됨.단점) visual concept을 지정하기 위해서는 추가적인 라벨 데이터가 필요하기 때문에 일반성, 사용성에 제한.고로, 이미지에 대한 원시 텍스트로부터 직접 학습하는 것이 훨씬 더 넓은 지도학습을 활용하는 대안이다.인터넷에서 수집한 4억개의 (이미지,텍스트) 쌍 데이터셋 구축.SOTA image representation을 처음부터 학습하는 효율적/확장적 방법으로, 어떤 캡션이 어떤 이미지와 일치하는지 예측하는 단순한 사전 학습 과제를 수행.학습 후에는, 자연어를 이용하여 down-stream task에 zero-shot tranfer를 할 수 있다.30개 이상의 vision dataset에서 위 방식으로 다양..