논문 먹는 여우

Notice

관리 메뉴

목록전체 글 (4)

논문 먹는 여우

VALL-E 리뷰 - Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers (3)

5. Experiment 5.1 Experiment Setup Dataset : LibriLight 영어 오디오북에서 레이블이 지정되지 않은 60,000시간 분량의 음성을 포함하는 학습 데이터로 사용합니다. 개별 스피커의 수는 LibriLight에서 약 7000개입니다. 우리는 Kaldi의 하이브리드 모델이 훈련되면 레이블이 지정되지 않은 음성 데이터가 디코딩되고 프레임 이동이 30ms인 best phoneme-level alignment path로 변환됩니다. EnCodec 모델는 60K 시간의 데이터에 대한 음향 코드 매트릭스를 생성하는 데 사용됩니다. Model : AR 모델과 NAR 모델 모두 12개의 layer, 16개의 attention head, 1024의 embedding, 4096의 ..

speech paper 2023. 3. 21. 19:31

VALL-E 리뷰 - Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers (2)

3. Background: Speech Quantization 오디오는 일반적으로 16비트 정수 값의 시퀀스로 저장되므로 raw audio를 출력하려면 생성 모델이 time step 2^16 = 65,536 를 생성해야합니다. 또한 오디오 샘플 속도가 10,000을 초과하면 시퀀스 길이가 엄청나게 길어져 원시 오디오 합성이 더 어려워집니다. 이를 위해서는 정수 값과 시퀀스 길이를 압축하기 위한 음성 양자화가 필요하다. u-법칙 변환은 각 시간 단계를 256개 값으로 양자화하고 고품질 원시 오디오를 재구성할 수 있습니다. speech generative 모델에서는 WaveNet을 사용하지만, 그러나 시퀀스 길이가 줄어들지 않았기 때문에 추론 속도는 여전히 느립니다. 최근 벡터 양자화는 vq-wav2vec ..

speech paper 2023. 3. 19. 19:46

VALL-E 리뷰 - Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers (1)

Abstract TTS를 언어 모델링 방식으로 접근한 논문이다. 기존 TTS처럼 sectrogram이 아닌 오디오 코덱(Encodec)에서 압축된 정보를 사용하여 학습한다. pre-train 단계에서 TTS 훈련 데이터를 기존 시스템보다 수백 배 큰 6만 시간의 영어 음성으로 확장한다. VALL-E는 unseen speaker의 3초 녹음을 사용하여 고품질 개인화된 음성을 합성하는 데 사용할 수 있다. 실험 결과 VALL-E 는 SOTA zero shot TTS 시스템보다 훨씬 좋다. 그뿐만이 아니라 화자의 감정과 합성 시 음향 프롬프트의 음향 환경도 보존할 수 있다. 데모 페이지 -> https://aka.ms/valle 1. Introduction 지난 10년 동안 NN과 end-to-end mode..

speech paper 2023. 3. 15. 09:37

논문 리뷰를 위한 블로그

speech 관련 업무를 진행하고 있습니다. 항상 논문을 읽고 정리를 안 해서 까먹기도 하고 새로운 논문을 읽을 필요성을 느껴 블로그를 시작해 봅니다. (물론 커피값도 벌고...) 유령 블로그가 될 수 있겠지만 그래도 일주일에 하나씩 올리는 걸 목표로 해보겠습니다.

잡담 2023. 3. 11. 16:12

이전 Prev 1 Next 다음

목록전체 글 (4)

논문 먹는 여우

티스토리툴바