본문 바로가기

AI/Speech Processing

(6)
[Paper Review] Improving Data Augmentation-based Cross-Speaker Style Transfer for TTSwith Singing Voice, Style Filtering, and F0 Matching 이 논문은 음성 합성에 관한 논문으로, 노래하는 목소리 합성(Singing Voice Conversion, SVC)에 대한 내용이다. 음성 합성에 대해 처음 공부해보게 되면서 읽게 된 논문으로, 새롭게 알게 된 내용과 용어들이 많아 재미있었다.   용어 정리 더보기- Expressive data : 일명 Style data라고도 할 수 있는데, 감정이나 음색적으로 표현이 풍부한 데이터를 의미. -> 감정에 대한 label이 있는건가? 는 더 알아봐야 함.  - Neutral data: 일반적인 음성 데이터. 감정이 두드러지는 음성 데이터가 아닌 일반적인 데이터를 의미.  - F0 (Fundamental Frequency)  :  기저 주파수 (사람들이 고유하게 가지고 있는 기저 주파수) Cross-spe..
End-to-End Neural Speaker Diarization with Non-Autoregressive Attractors Attractor 에 대한 설명 Attractor는 머신러닝과 신경망에서 특정 패턴이나 특징을 대표하는 일종의 "중심점" 또는 "끌림점"을 의미합니다. 화자 분할(Speaker Diarization) 맥락에서는, 어트랙터는 다양한 화자의 발화(음성 데이터)에서 해당 화자를 나타내는 특징을 학습하고 그 특징을 사용하여 화자를 구분하는 데 사용됩니다.구체적으로, EEND(End-to-End Neural Diarization) 모델에서는 여러 화자의 음성이 섞여 있는 상황에서, 어트랙터는 각 화자의 음성 특징을 잡아내는 역할을 합니다. 각 화자는 고유한 어트랙터에 의해 구분되며, 모델은 이러한 어트랙터를 기반으로 음성 데이터를 화자별로 분리합니다.어트랙터는 일종의 임베딩(embedding) 벡터로, 같은 화자..
Speaker Diarization _ Dataset & Metrics 5. Diarization evaluation series and datasetsCALLHOME: NIST SRE 2000 (LDC2001S97): 최근 화자 구분 연구에서 가장 흔히 사용하는 데이터 세트. 500개의 다국어 전화통화 세션을 포함하는데, 각 세션은 2~7명의 화자가 있으며 주로 2명의 화자가 주도적으로 대화를 나눈다. Data alignment 확인 AMI Corpus: 100시간의 회의 녹음. 171개의 미팅 세션에서 가져옴. 옷깃 마이크 (lapel microphones)로 녹음하였고, 각각 화자마다 증폭되었다. 또다른 오디오 소스는, 테이블 위에 전방향 마이크를 통해 녹음되었다. 이 데이터셋은 단어, 음소 단위의 시간열과 전사본 그리고 화자 레이블이 forced alignement된..
[Paper Review] Wav2Vec2.0 : A Framework for Self-Supervised Learning of Speech Representations 요약speech 만으로 powerful한 representation을 학습하고, 이후에 script가 있는 오디오 데이터 파인튜닝 하는 것이 개념적으로 더간단하면서 성능이 좋음을 처음 증명해 낸 논문이다. Librispeech의 모든 labeld data(960h)를 사용한 실험에서, 깨끗한 데이터 세트(clean)와 노이즈가 있는 데이터 세트(other)에서 각각 1.8/3.3의 WER을 달성했다.레이블 데이터 양을 조절하면서 파인튜닝하는 실험도 진행하였는데, 라벨 데이터 양을 1시간으로 줄였을 때 성능이 100h subset에서 이전 SOTA모델을 사용했을 때 보다 더 좋은 성능을 보였다. 라벨 데이터 양을 10분으로 줄이고, unlabeled 데이터 53,000h 사용했을때, clean 데이터와 o..
[Paper Review] DATA DRIVEN GRAPHEME-TO-PHONEME REPRESENTATIONS FOR A LEXICON-FREETEXT-TO-SPEECH 초록Grapheme-to-Phoneme (G2P)은 현대의 고품질 Text-to-Speech (TTS) 시스템에서 필수적인 첫 단계입니다. 현재 대부분의 G2P 시스템은 전문가들이 신중하게 제작한 사전을 기반으로 하고 있습니다. 이는 두 가지 문제를 야기합니다. 첫째, 사전은 고정된 음소 집합, 보통 ARPABET 또는 IPA를 사용하여 생성되는데, 이는 모든 언어에 대해 음소를 표현하는 최적의 방법이 아닐 수 있습니다. 둘째, 이러한 전문가 사전을 제작하는 데 필요한 인력 시간이 매우 많습니다.  본 논문에서는 이러한 문제를 해결하기 위해 최근의 자가 지도 학습 발전을 이용하여 고정된 표현 대신 데이터 기반 음소 표현을 얻습니다. 우리는 잘 구축된 사전을 활용하는 강력한 기준선과 우리의 사전 없는 접근..
[Paper Review] Mitigating the Exposure Bias in Sentence-Level Grapheme-to-Phoneme (G2P)Transduction 위 논문을 선택한 이유G2P 관련 연구를 진행하는 도중 찾게 되었다.G2P에 대한 논문이 최근 논문은 많지 않아서 예전 논문들 부터 쭉 읽어오던 참이다.  처음 읽을 땐 Non-data-driven 방식인건가? 싶었는데, 결국은 Data-driven 방식이었다는 사실... 하하;; (그치만 오히려 좋아) 이 논문을 읽을 때 같이 읽으면 좋을만한 논문들 : T5, ByT5 해당 논문의 기반이 되는 논문이라고 할 수 있겠다!  이 논문 리뷰는 거의 번역본이라고 할 수 있지만, 약간의 개인적인 의견도 첨가되어있음을 밝힌다.  G2P란?Graphe to Phoneme 의 약자로, 발음에 해당하는 소리를 예측하는 것을 의미한다.따라서 TTS에서 중요시 되는 과정 중 하나이다.AbstractText-to-Text ..