목록전체 글 (4)
논문 먹는 여우
5. Experiment 5.1 Experiment Setup Dataset : LibriLight 영어 오디오북에서 레이블이 지정되지 않은 60,000시간 분량의 음성을 포함하는 학습 데이터로 사용합니다. 개별 스피커의 수는 LibriLight에서 약 7000개입니다. 우리는 Kaldi의 하이브리드 모델이 훈련되면 레이블이 지정되지 않은 음성 데이터가 디코딩되고 프레임 이동이 30ms인 best phoneme-level alignment path로 변환됩니다. EnCodec 모델는 60K 시간의 데이터에 대한 음향 코드 매트릭스를 생성하는 데 사용됩니다. Model : AR 모델과 NAR 모델 모두 12개의 layer, 16개의 attention head, 1024의 embedding, 4096의 ..
3. Background: Speech Quantization 오디오는 일반적으로 16비트 정수 값의 시퀀스로 저장되므로 raw audio를 출력하려면 생성 모델이 time step 2^16 = 65,536 를 생성해야합니다. 또한 오디오 샘플 속도가 10,000을 초과하면 시퀀스 길이가 엄청나게 길어져 원시 오디오 합성이 더 어려워집니다. 이를 위해서는 정수 값과 시퀀스 길이를 압축하기 위한 음성 양자화가 필요하다. u-법칙 변환은 각 시간 단계를 256개 값으로 양자화하고 고품질 원시 오디오를 재구성할 수 있습니다. speech generative 모델에서는 WaveNet을 사용하지만, 그러나 시퀀스 길이가 줄어들지 않았기 때문에 추론 속도는 여전히 느립니다. 최근 벡터 양자화는 vq-wav2vec ..
Abstract TTS를 언어 모델링 방식으로 접근한 논문이다. 기존 TTS처럼 sectrogram이 아닌 오디오 코덱(Encodec)에서 압축된 정보를 사용하여 학습한다. pre-train 단계에서 TTS 훈련 데이터를 기존 시스템보다 수백 배 큰 6만 시간의 영어 음성으로 확장한다. VALL-E는 unseen speaker의 3초 녹음을 사용하여 고품질 개인화된 음성을 합성하는 데 사용할 수 있다. 실험 결과 VALL-E 는 SOTA zero shot TTS 시스템보다 훨씬 좋다. 그뿐만이 아니라 화자의 감정과 합성 시 음향 프롬프트의 음향 환경도 보존할 수 있다. 데모 페이지 -> https://aka.ms/valle 1. Introduction 지난 10년 동안 NN과 end-to-end mode..