본문 바로가기

AI

(16)
[Paper Review] Mitigating the Exposure Bias in Sentence-Level Grapheme-to-Phoneme (G2P)Transduction 위 논문을 선택한 이유G2P 관련 연구를 진행하는 도중 찾게 되었다.G2P에 대한 논문이 최근 논문은 많지 않아서 예전 논문들 부터 쭉 읽어오던 참이다.  처음 읽을 땐 Non-data-driven 방식인건가? 싶었는데, 결국은 Data-driven 방식이었다는 사실... 하하;; (그치만 오히려 좋아) 이 논문을 읽을 때 같이 읽으면 좋을만한 논문들 : T5, ByT5 해당 논문의 기반이 되는 논문이라고 할 수 있겠다!  이 논문 리뷰는 거의 번역본이라고 할 수 있지만, 약간의 개인적인 의견도 첨가되어있음을 밝힌다.  G2P란?Graphe to Phoneme 의 약자로, 발음에 해당하는 소리를 예측하는 것을 의미한다.따라서 TTS에서 중요시 되는 과정 중 하나이다.AbstractText-to-Text ..
ROFORMER: ENHANCED TRANSFORMER WITH ROTARYPOSITION EMBEDDING Positional Embedding을 해야 하는 이유?  RNN, LSTM 구조와 같이 순환신경망에서는 단어의 순서 정보를 유지하고 있는 대신, 문장이길어질수록 앞 문장의 정보를 손실하게 되는 문제가 생긴다. 따라서, 이 문제를 해결할 수 있는 방법으로 Transformer가 등장했다.   이 Transformer는 attention이라는 개념을 도입하여문장의 순서와 관계없이 모든 문장의 정보들을 더해주어, 정보 손실의 우려가 없도록 한다.  또한, rnn구조와는 달리, 순차적으로 값을 계산하는 것이 아니라 병렬적으로 값을 처리하기 때문에 매우 빠르다.  다만, 병렬적으로 처리하다보니 문장의 순서에 대한 정보를 잊게 된다는 문제가 생긴다. 그래서 Transformer 논문에서는 Positional En..
Transformer 꽤 오랫동안 트랜스포머는 인코더-디코더 기반 모델, 버트는 인코더 기반 pre-trained 된 모델.. 이라고만 알아왔던 나를 반성하면서 이젠 진짜 명확하게 할 필요가 있다.  먼저 Transformer에 대해 알아보자. Transformer의 가장 큰 아이디어는 self-attention 이다.이를 이해하기 위해서 먼저 attention이라는 개념에 대해 정확히 알자.  Attention입력된 모든 정보에 집중하는 것이 아니라, 소수의 정보에만 집중하는 것을 일컫는다. 예를 들어 어떤 남자가 강아지와 산책하는 그림이 있다고 하자. 주변 배경에 집중할 필요 없이 강아지와 남자에 집중하여 중요한 정보를 캐치하는 것이 중요할 것이다.  그럼 Attention이라는 개념이 왜 등장하게 되었을까?  이를 알기..
[Paper Translate] A SURVEY ON RECENT ADVANCES IN NAMED ENTITYRECOGNITION 계기 흔히 말하는 G2P 방법론에 대한 논문을 찾다가 발견한 논문이다. 음성인식에서 Named Entity Recognition을 하기 위해서 필요한 단계 중 하나라고 할 수 있겠다. 0. Abstract명명된 개체 인식(NER)은 텍스트 내에서 실제 세계의 객체를 나타내는 부분 문자열을 추출하고 그것들의 유형(예: 인물 또는 조직에 대한 참조 여부)을 결정하는 것을 목표로 합니다. 이 조사에서는 먼저 최근 인기 있는 접근 방법을 개괄적으로 소개하고, 다른 조사에서는 많이 다루지 않은 그래프 기반 및 트랜스포머 기반 방법(대형 언어 모델 포함)을 살펴봅니다. 두 번째로, 주석이 적은 데이터셋을 대상으로 설계된 방법에 집중합니다. 세 번째로, 다양한 특성을 가진 데이터셋(도메인, 크기, 클래스 수 등)에 ..
도커 Basic 목적 : 특정한 환경에서 돌린 딥러닝 모델을 실습용으로 배포하기 위함. (Linux)  베이스가 되는 도커이미지 찾아서 pull 하기. gpu, cpu, 환경에 맞는 걸로 찾기. devel이 개발하기에 적합하다는 말이 있어서 다운 받긴 했는데, 9GB정도로 큼.docker pull nvidia/cuda:11.8.0-cudnn8-devel-ubuntu20.04 중간 중간 설치된 컨테이너, 이미지 확인해보기docker ps -a   docker images 도커 컨테이너 run 하기 docker run [options] image [:tag] [command] [arg..] 필수 패키지 설치하기apt-get updateapt-get install apt-transport-https ca-certifacate..
MCL-NER short breif
Generative Models (pixel rnn/cnn, VAE, GAN) Generative 모델의 큰 분류 Generative models Explicit densityImplicit densityTractable densityApproximate densityMarkov chainDirectFully Visible Belief Nets- NADE-MADEPixel RNN/CNNchange of variables models (nonlinear ICA)Vriational Markov chainGSNGANVariational Autoencoder (VAE)Boltzmann Machine  Genrative model's GOAL : 비지도 학습의 일종으로, 동일한 분포에서 새로운 샘플들을 생성해 내는 것. Explicit density : 데이터의 분포에 대한 정보 필요. p..
Shortened LLaMA [ 사전 개념 ]* Width Pruning :어텐션 헤드의 개수를 줄이는 방법들처럼, 레이어의 개수는 유지하되 projection weight matrices size를 줄이는 방법 batch size가 제한된 생황에서 width pruning 방식은 inference speed를 향상시키는 데에 전혀 도움이 되지 않았다. * Depth Pruning : weights의 사이즈는 유지하되, layers or blocks의 개수를 줄이는 방법 상대적으로 크고 거칠게 pruning하는 방법이라 width pruning보다 덜 효율적일거라고 생각하지만, simple depth pruning과 LoRA 방식이 혼용된 방법이 zero-shot에서 최근 연구들과 경쟁할만한 결과를 보임. 게다가, depth-pru..