본문 바로가기

전체 글

(30)
[Linux] 서버 간 데이터 이동 명령어 A100 서버에서 A6000 서버로 데이터 옮기는 경우폴더를 .tar.gz 로 압축해야 함tar -czvf [압축된 파일 이름] [압축할 폴더/파일 명]                     2. 압축된 폴더를 우클릭 한 뒤, download link를 얻는다.          3. F12를 누른 뒤, 실제로 파일을 다운로드할 때 생기는 cookie 값을 가져온다.  Network 창을 한 번 싹 지운 뒤에, 파일을 다운로드 하면 뜨는 파일 명 중Headers를 확인하면 cookie 값이 있음.  _xsrf 값과 _authservice_session 값이 있어야 한다.                      4. 다운로드 받을 서버에서 아래 명령어를 작성wget --no-check-certificate --..
[Paper Review] Improving Data Augmentation-based Cross-Speaker Style Transfer for TTSwith Singing Voice, Style Filtering, and F0 Matching 이 논문은 음성 합성에 관한 논문으로, 노래하는 목소리 합성(Singing Voice Conversion, SVC)에 대한 내용이다. 음성 합성에 대해 처음 공부해보게 되면서 읽게 된 논문으로, 새롭게 알게 된 내용과 용어들이 많아 재미있었다.   용어 정리 더보기- Expressive data : 일명 Style data라고도 할 수 있는데, 감정이나 음색적으로 표현이 풍부한 데이터를 의미. -> 감정에 대한 label이 있는건가? 는 더 알아봐야 함.  - Neutral data: 일반적인 음성 데이터. 감정이 두드러지는 음성 데이터가 아닌 일반적인 데이터를 의미.  - F0 (Fundamental Frequency)  :  기저 주파수 (사람들이 고유하게 가지고 있는 기저 주파수) Cross-spe..
DANN : Domain Adversarial Training Neural Network 연구 주제 관련 논문을 서치하다가 알게된 고전적인 방법이다. 이 논문은 2016년에 JMNL 저널에 나온 논문이지만, 아이디어 자체는 간단하여 지금까지도 인용이 많이 되고 있다. 알아두면 좋을 것 같아서 정리하기로 했다.   기존의 Domain Adaptation(DA) 방법에 GAN의 concept을 일부 도입한 방법이라고 이해하면 될 것 같다.  Traditional 한 DA 방법은, 주로 fixed feature representation을 추출하여 원하는 target distribution에 mapping하는 것이다.하지만 위 논문은 representation 자체를 바꾸는 방법으로, 한 번의 training을 통해 위 결과를 도출해 낸다는 것이 가장 큰 특징이라고 할 수 있다.    Domain..
[Paper Review] Whisper : Robust Speech Recognition via Large-Scale Weak Supervision 발단 (기존 방법의 한계) Wav2vec2.0이나 기계학습 방법은, 비지도 학습이 오디오 인코더의 품질을 크게 향상시켰음에도 불구하고, 동등하게 높은 품질의 사전 학습된 디코더가 부족하고, 데이터셋 특유의 fine-tuning 프로토콜이 필요하다는 점이 그들의 유용성과 견고성을 제한하는 중요한 약점임을 시사한다. 기본적으로 음성 인식 시스템의 목표는 배포할 때마다 디코더에 대한 지도 학습의 미세 조정 없이도 다양한 환경에서 신뢰성 있게 작동하는 것!  따라서, 파인튜닝 필요 없는 모델을 만들겠다!!   2. 접근 방법2.1. 데이터 처리오디오 및 텍스트의 전처리를 거의 하지 않음! 대신 데이터셋의 크기가 매우매우 크다! seq2seq 모델이 standardization 을 거치지 않은 raw text 와..
[Paper Review] A Survey on Multimodal Large Language Model (MLLM) 1. IntroductionLLM 이 NLP분야에서 크게 발전해 온 것은 사실이나, 입력은 Discrete Text로 받기 때문에 이미지에 대해서는 '장님'과 같다. 동시에 LVM(Large Vision Model)은 이미지를 볼 수는 있지만, 대부분은 추론 과정에서 지연된다.이에 대한 보안으로, LLM과 LVM이 합쳐진 MLLM이 등장한다.MLLM은 보통 receive, reason 그리고 멀티모달 출력을 낼 수 있는 llm 기반 모델을 의미했다.MLLM 이전에는 멀티모달에 크게 기여를 한 Discriminative와 Generative 모델로 나눠진 연구들이 많았다.예를 들어, CLIP은 Discriminative의 대표적인 예로, 이미지와 텍스트 정보를 통일된 표현 공간에 사영시켜 downstrea..
End-to-End Neural Speaker Diarization with Non-Autoregressive Attractors Attractor 에 대한 설명 Attractor는 머신러닝과 신경망에서 특정 패턴이나 특징을 대표하는 일종의 "중심점" 또는 "끌림점"을 의미합니다. 화자 분할(Speaker Diarization) 맥락에서는, 어트랙터는 다양한 화자의 발화(음성 데이터)에서 해당 화자를 나타내는 특징을 학습하고 그 특징을 사용하여 화자를 구분하는 데 사용됩니다.구체적으로, EEND(End-to-End Neural Diarization) 모델에서는 여러 화자의 음성이 섞여 있는 상황에서, 어트랙터는 각 화자의 음성 특징을 잡아내는 역할을 합니다. 각 화자는 고유한 어트랙터에 의해 구분되며, 모델은 이러한 어트랙터를 기반으로 음성 데이터를 화자별로 분리합니다.어트랙터는 일종의 임베딩(embedding) 벡터로, 같은 화자..
Speaker Diarization _ Dataset & Metrics 5. Diarization evaluation series and datasetsCALLHOME: NIST SRE 2000 (LDC2001S97): 최근 화자 구분 연구에서 가장 흔히 사용하는 데이터 세트. 500개의 다국어 전화통화 세션을 포함하는데, 각 세션은 2~7명의 화자가 있으며 주로 2명의 화자가 주도적으로 대화를 나눈다. Data alignment 확인 AMI Corpus: 100시간의 회의 녹음. 171개의 미팅 세션에서 가져옴. 옷깃 마이크 (lapel microphones)로 녹음하였고, 각각 화자마다 증폭되었다. 또다른 오디오 소스는, 테이블 위에 전방향 마이크를 통해 녹음되었다. 이 데이터셋은 단어, 음소 단위의 시간열과 전사본 그리고 화자 레이블이 forced alignement된..
[Paper Review] Wav2Vec2.0 : A Framework for Self-Supervised Learning of Speech Representations 요약speech 만으로 powerful한 representation을 학습하고, 이후에 script가 있는 오디오 데이터 파인튜닝 하는 것이 개념적으로 더간단하면서 성능이 좋음을 처음 증명해 낸 논문이다. Librispeech의 모든 labeld data(960h)를 사용한 실험에서, 깨끗한 데이터 세트(clean)와 노이즈가 있는 데이터 세트(other)에서 각각 1.8/3.3의 WER을 달성했다.레이블 데이터 양을 조절하면서 파인튜닝하는 실험도 진행하였는데, 라벨 데이터 양을 1시간으로 줄였을 때 성능이 100h subset에서 이전 SOTA모델을 사용했을 때 보다 더 좋은 성능을 보였다. 라벨 데이터 양을 10분으로 줄이고, unlabeled 데이터 53,000h 사용했을때, clean 데이터와 o..