본문 바로가기

전체 글

(30)
[Paper Review] DATA DRIVEN GRAPHEME-TO-PHONEME REPRESENTATIONS FOR A LEXICON-FREETEXT-TO-SPEECH 초록Grapheme-to-Phoneme (G2P)은 현대의 고품질 Text-to-Speech (TTS) 시스템에서 필수적인 첫 단계입니다. 현재 대부분의 G2P 시스템은 전문가들이 신중하게 제작한 사전을 기반으로 하고 있습니다. 이는 두 가지 문제를 야기합니다. 첫째, 사전은 고정된 음소 집합, 보통 ARPABET 또는 IPA를 사용하여 생성되는데, 이는 모든 언어에 대해 음소를 표현하는 최적의 방법이 아닐 수 있습니다. 둘째, 이러한 전문가 사전을 제작하는 데 필요한 인력 시간이 매우 많습니다.  본 논문에서는 이러한 문제를 해결하기 위해 최근의 자가 지도 학습 발전을 이용하여 고정된 표현 대신 데이터 기반 음소 표현을 얻습니다. 우리는 잘 구축된 사전을 활용하는 강력한 기준선과 우리의 사전 없는 접근..
[Paper Review] CLIP :Learning Transferable Visual Models From Natural Language Supervision Abstract기존 Vision - text미리 정해진 객체 카테고리를 예측하도록 훈련 됨.단점) visual concept을 지정하기 위해서는 추가적인 라벨 데이터가 필요하기 때문에 일반성, 사용성에 제한.고로, 이미지에 대한 원시 텍스트로부터 직접 학습하는 것이 훨씬 더 넓은 지도학습을 활용하는 대안이다.인터넷에서 수집한 4억개의 (이미지,텍스트) 쌍 데이터셋 구축.SOTA image representation을 처음부터 학습하는 효율적/확장적 방법으로, 어떤 캡션이 어떤 이미지와 일치하는지 예측하는 단순한 사전 학습 과제를 수행.학습 후에는, 자연어를 이용하여 down-stream task에 zero-shot tranfer를 할 수 있다.30개 이상의 vision dataset에서 위 방식으로 다양..
[Paper Review] Mitigating the Exposure Bias in Sentence-Level Grapheme-to-Phoneme (G2P)Transduction 위 논문을 선택한 이유G2P 관련 연구를 진행하는 도중 찾게 되었다.G2P에 대한 논문이 최근 논문은 많지 않아서 예전 논문들 부터 쭉 읽어오던 참이다.  처음 읽을 땐 Non-data-driven 방식인건가? 싶었는데, 결국은 Data-driven 방식이었다는 사실... 하하;; (그치만 오히려 좋아) 이 논문을 읽을 때 같이 읽으면 좋을만한 논문들 : T5, ByT5 해당 논문의 기반이 되는 논문이라고 할 수 있겠다!  이 논문 리뷰는 거의 번역본이라고 할 수 있지만, 약간의 개인적인 의견도 첨가되어있음을 밝힌다.  G2P란?Graphe to Phoneme 의 약자로, 발음에 해당하는 소리를 예측하는 것을 의미한다.따라서 TTS에서 중요시 되는 과정 중 하나이다.AbstractText-to-Text ..
ROFORMER: ENHANCED TRANSFORMER WITH ROTARYPOSITION EMBEDDING Positional Embedding을 해야 하는 이유?  RNN, LSTM 구조와 같이 순환신경망에서는 단어의 순서 정보를 유지하고 있는 대신, 문장이길어질수록 앞 문장의 정보를 손실하게 되는 문제가 생긴다. 따라서, 이 문제를 해결할 수 있는 방법으로 Transformer가 등장했다.   이 Transformer는 attention이라는 개념을 도입하여문장의 순서와 관계없이 모든 문장의 정보들을 더해주어, 정보 손실의 우려가 없도록 한다.  또한, rnn구조와는 달리, 순차적으로 값을 계산하는 것이 아니라 병렬적으로 값을 처리하기 때문에 매우 빠르다.  다만, 병렬적으로 처리하다보니 문장의 순서에 대한 정보를 잊게 된다는 문제가 생긴다. 그래서 Transformer 논문에서는 Positional En..
Transformer 꽤 오랫동안 트랜스포머는 인코더-디코더 기반 모델, 버트는 인코더 기반 pre-trained 된 모델.. 이라고만 알아왔던 나를 반성하면서 이젠 진짜 명확하게 할 필요가 있다.  먼저 Transformer에 대해 알아보자. Transformer의 가장 큰 아이디어는 self-attention 이다.이를 이해하기 위해서 먼저 attention이라는 개념에 대해 정확히 알자.  Attention입력된 모든 정보에 집중하는 것이 아니라, 소수의 정보에만 집중하는 것을 일컫는다. 예를 들어 어떤 남자가 강아지와 산책하는 그림이 있다고 하자. 주변 배경에 집중할 필요 없이 강아지와 남자에 집중하여 중요한 정보를 캐치하는 것이 중요할 것이다.  그럼 Attention이라는 개념이 왜 등장하게 되었을까?  이를 알기..
[Paper Translate] A SURVEY ON RECENT ADVANCES IN NAMED ENTITYRECOGNITION 계기 흔히 말하는 G2P 방법론에 대한 논문을 찾다가 발견한 논문이다. 음성인식에서 Named Entity Recognition을 하기 위해서 필요한 단계 중 하나라고 할 수 있겠다. 0. Abstract명명된 개체 인식(NER)은 텍스트 내에서 실제 세계의 객체를 나타내는 부분 문자열을 추출하고 그것들의 유형(예: 인물 또는 조직에 대한 참조 여부)을 결정하는 것을 목표로 합니다. 이 조사에서는 먼저 최근 인기 있는 접근 방법을 개괄적으로 소개하고, 다른 조사에서는 많이 다루지 않은 그래프 기반 및 트랜스포머 기반 방법(대형 언어 모델 포함)을 살펴봅니다. 두 번째로, 주석이 적은 데이터셋을 대상으로 설계된 방법에 집중합니다. 세 번째로, 다양한 특성을 가진 데이터셋(도메인, 크기, 클래스 수 등)에 ..
도커 Basic 목적 : 특정한 환경에서 돌린 딥러닝 모델을 실습용으로 배포하기 위함. (Linux)  베이스가 되는 도커이미지 찾아서 pull 하기. gpu, cpu, 환경에 맞는 걸로 찾기. devel이 개발하기에 적합하다는 말이 있어서 다운 받긴 했는데, 9GB정도로 큼.docker pull nvidia/cuda:11.8.0-cudnn8-devel-ubuntu20.04 중간 중간 설치된 컨테이너, 이미지 확인해보기docker ps -a   docker images 도커 컨테이너 run 하기 docker run [options] image [:tag] [command] [arg..] 필수 패키지 설치하기apt-get updateapt-get install apt-transport-https ca-certifacate..
MCL-NER short breif