5. Diarization evaluation series and datasets
- CALLHOME: NIST SRE 2000 (LDC2001S97)
: 최근 화자 구분 연구에서 가장 흔히 사용하는 데이터 세트.
500개의 다국어 전화통화 세션을 포함하는데, 각 세션은 2~7명의 화자가 있으며 주로 2명의 화자가 주도적으로 대화를 나눈다.
Data alignment 확인 - AMI Corpus
: 100시간의 회의 녹음. 171개의 미팅 세션에서 가져옴.
옷깃 마이크 (lapel microphones)로 녹음하였고, 각각 화자마다 증폭되었다.
또다른 오디오 소스는, 테이블 위에 전방향 마이크를 통해 녹음되었다.
이 데이터셋은 단어, 음소 단위의 시간열과 전사본 그리고 화자 레이블이 forced alignement된 data를 제공하기 때문에, ASR모듈과 결합된 화자 구분 시스템을 평가하는데에 적합하다.
각 미팅 세션은 3-5명의 화자가 있다. - ICSI Meeting Corpus
: 75개의 미팅 corpus를 4가지 타입으로 구분한다.
단어 단위로 전사본과 화자 레이블의 alignment를 맞추어 놓았다.
오디오 소스는 가까운 거리에서 대화용 개별 마이크와 6개의 테이블탑 마이크를 사용하였다.
따라서 화자별 채널 및 다중 채널 정보를 제공한다.
각 미팅에는 3-10명의 화자가 참여한다. - CHiME-5/6 challenge and its dataset
: 이 데이터셋은 다중화자의 일상 대화를 ASR 대회에 사용하기 위해 만들어졌다.
CHiME-5 대회는, 50시간의 일상적인 가정 환경에서 다자간의 실제 대화를 포함한다.
화자 레이블, segmentation과 그에 대응하는 전사본을 가지고 있다.
오디오 소스는 주방과 식당/거실에 위치한 6개의 4채널 마이크와 각 화자가 지니는 스테레오 타입의 마이크로부터 녹음되었다. 화자(참가자)는 총 4명으로 고정한다.
CHiME-5는 ASR 결과만 요구한 반면, CHiME-6 대회는 ASR과 Diarization 결과도 요구했다.
주요 평가 메트릭은 cpWER(speaker-attributes error와 word recognition error 모두 count)이었다.
DER과 JER은 2차적(보조적)으로 사용하는 메트릭으로, '점수 칼라'가 없고 중복된 영역이 있는 평가방법이다.
DER and JER were also evaluated as secondary metrics without ‘‘score collar’’ and with overlapped regions.
*score collar : 화자가 변환되는 지점에서의 짧은 내외구간 (여유 구간)
위 데이터셋은 DIHARD 2 대회에서도 사용되었다. - VoxSRC Challenge and VoxConverse corpus
: 화자 인식분야에서 최근 사용되는 평가 시리즈.
VoxSRC의 목표는 "얼마나 현재 기술이 야생에서의 speech에 얼마나 잘 대처할 수 있는지"를 평가하는 것.
이러한 평가 시리즈는 단순한 '화자 인식(Verification)'에서 시작되었고, VoxCeleb Speaker Recognition Challenge 2020의 4번째 track에서 화자 구분(Diarization)이 추가되었다.
VoxConverse 데이터셋은 화자 구분을 위해 DER metric과 함께 사용되어고, JER은 보수적으로 사용했다.
이 데이터셋은 유투브에서 추출한 74시간의 사람들의 대화를 포함한다.
데이터셋은 development set과 test set으로 나뉜다.
- development set : 20.3시간, 216개의 녹음 파일
- test set : 53.5시간, 310개의 녹음 파일
각 녹음에서 화자의 수는 1명에서 21명까지 다양한 편.
각 녹음은 배경음악, 웃음소리 등 다양한 노이즈를 가지고 있다.
또한, 0-30.1%의 overlap 구간이 있다.
데이터 세트에는 오디오뿐만 아니라 시각적 정보도 포함되어 있지만, 2021년 6월 현재 development set의 오디오만 연구 목적으로 Creative Commons Attribution 4.0 국제 라이선스에 따라 공개되었습니다.
Test set 의 오디오는 블라인드 테스트 세트로 사용되었습니다. - LibriCSS
: 10시간의 multichannel 녹음.
speech separation, speech recognition, speaker diarization 연구를 위해 디자인 됨.
실제 미팅룸에서 LibriSpeech Corus를 재생하여 만들어진 파일. 7개 채널의 마이크를 통해 녹음됨.
10개 세션을 포함하는데, 각각 10분 내외의 미니세션 6개로 나뉨.
각 미니세션은 8명의 화자의 음성과, 0-40%의 다양한 overlap 비율로 구성됨.
연구를 촉진하기 위해 음성 분리 및 ASR을 위한 기본 시스템(Chen et al., 2020)과 음성 분리, 화자 분할 및 ASR을 통합하는 기본 시스템(Raj et al., 2021)이 개발되어 출시되었습니다. - DIHARD Challenge and its dataset
: SOTA diarization 시스템의 성능 차이에 집중.
평가 데이터셋은 다양한 corpus에서 가져옴. 의학적 인터뷰, 웹 비디오, 야생(레스토랑에서 녹음)등 다양한 어려운 데이터셋과 비교적 덜 어려운 CTS, 오디오북과 같은 데이터셋도 포함한다.
추가적으로 멀티채널 화자 구분 task에서 CHiME-5 corpus를 사용했다.
마찬가지로 DER, JER metric 사용. - Rich Transcription Evaluation Series
: - Other datasets
: 일본어 corpus, 중국어 corpus 등 다양하게 있다.
한국어 데이터
- 3000명의 화자가 호출어 100개, 화자 공통 문장 70개, 랜덤 텍스트 음원 350개, 1개 공통 호출어와 화자 공통 문장이 연속된 발화 70개를 녹음하여 총 7,000시간의 음성 데이터 구축
- 데이터 기본 포맷은 Wave(PCM) 파일과 json 파일이 쌍을 이룸
- Wave(PCM) 데이터 포맷 : 48kHz 또는 16kHz, 16bit, mono
- 실생활 노이즈가 그대로 반영된 학습용 AI 데이터 음성 파일
- json 데이터 포맷 : 일반 json 형식
- 한국인의 일상 대화를 인식하고 음성을 문자로 실시간 변환하는 AI기술 개발을 위한 대화 음성 데이터 셋 구축
- 성별, 지역, 연령, 원거리, 다자발화 등 분야별 원본 음성데이터(4,000시간), 텍스트 데이터 400만 문장 포함
-
- 원본 음성 데이터: 2,000H
- 방송 콘텐츠(춘천 MBC, EBS 시사) 음원 데이터: 2,000H
- 성별, 지역, 연령, 주제어 등의 메타데이터 정보 제공
- FILE 위치, FILE 명, FILE 시작위치, FILE 종료위치, FILE 재생시간 등의 어노테이션 구조 JSON 형태의 파일로 제공
- 파일의 후 처리(개체정보, 형태소분석 등)의 가공 처리 후 JSON 형태의 파일 제공
- 방송콘텐츠는 춘천 MBC와 EBS의 음원을 추출하여 데이터를 획득하고 확보된 음원파일을 통해서 텍스트 전사(STT 엔진을 활용하여 음성파일을 텍스트로 변환)하고 검수를 진행한다.
(음원 파일: PCM 형식, 텍스트 파일: TEXT 형식)
데이터 구조
- 원시데이터(음성)PCM, 전사파일 (TXT) 데이터셋
- 한국인의 음성을 문자로 바꾸어 주고, 문맥을 이해하는 한국어 음성 언어처리 기술 개발을 위한 AI 학습용 한국어 음성 DB를 구축
- 한국어로 된 회의 영상/음성을 인식하여 자동으로 자막/회의록을 생성해주고, 내용을 이해하는 서비스를 위한 한국어 회의 음성 DB를 구축
- 8가지 주제별 다양한 한국어 회의 음성으로부터 음성의 내용을 전사하고 검증한 한국어 회의 음성 AI 데이터셋으로, 다양한 음성의 재사용에 제한이 없도록 저작권 문제를 완전히 해결한 원천 데이터를 확보
깃허브 블로그 참고 : https://github.com/rtzr/Awesome-Korean-Speech-Recognition?tab=readme-ov-file