논문 먹는 여우
VALL-E 리뷰 - Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers (1) 본문
VALL-E 리뷰 - Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers (1)
abujiho 2023. 3. 15. 09:37Abstract
TTS를 언어 모델링 방식으로 접근한 논문이다. 기존 TTS처럼 sectrogram이 아닌 오디오 코덱(Encodec)에서 압축된 정보를 사용하여 학습한다. pre-train 단계에서 TTS 훈련 데이터를 기존 시스템보다 수백 배 큰 6만 시간의 영어 음성으로 확장한다. VALL-E는 unseen speaker의 3초 녹음을 사용하여 고품질 개인화된 음성을 합성하는 데 사용할 수 있다. 실험 결과 VALL-E 는 SOTA zero shot TTS 시스템보다 훨씬 좋다. 그뿐만이 아니라 화자의 감정과 합성 시 음향 프롬프트의 음향 환경도 보존할 수 있다.
데모 페이지 -> https://aka.ms/valle
1. Introduction
지난 10년 동안 NN과 end-to-end model의 개발을 통해 음성 합성 분야에서 발전을 이루었습니다. 현재 계단식 텍스트 음성 변환(TTS) 시스템은 일반적으로 중간 표현으로 멜 스펙트로그램을 사용하는 음향 모델 및 보코더가 있는 파이프라인을 활용합니다. 고급 TTS 시스템은 단일 또는 다중 화자의 고품질 음성을 합성할 수 있지만, 여전히 녹음 스튜디오의 고품질 클린 데이터가 필요합니다. 인터넷에서 크롤링되는 대규모 데이터는 요구 사항을 충족하지 못하고 항상 성능 저하로 이어집니다. 교육 데이터가 상대적으로 작기 때문에 현재 TTS 시스템은 여전히 일반화가 좋지 않습니다. 제로 샷 시나리오에서 보이지 않는 화자에 대한 화자 유사성과 어음 자연성은 극적으로 감소합니다. 제로 샷 TTS 문제를 해결하기 위해 기존 작업은 speaker adaptation 및 speaker encoding, additional pre-tuning, complex pre-designed features 또는 heavy structure가 필요한 방법.
-> 기존의 TTS가 가지는 문제점(고품질 클린 데이터 필요, poor generalization...)을 설명 및 zero-shot TTS의 설명
이 문제에 대해 복잡하고 구체적인 네트워크를 설계하는 대신 궁극적인 해결책은 텍스트 합성 분야에서의 성공을 동기로 최대한 크고 다양한 데이터로 모델을 훈련시키는 것입니다. 최근 몇 년 동안 압축되지 않은 16GB 텍스트에서 텍스트 언어 모델의 데이터 증가에 대한 눈에 띄는 성능 향상을 목격했습니다, 160GB까지 , 570GB까지, 마지막으로 약 1TB. 이러한 성공을 음성 합성 분야로 옮기고, 크고 다양한 다중 화자 음성 데이터를 활용하는 최초의 언어 모델 기반 TTS 프레임워크인 VALL-E를 소개합니다. 표 1 에 도시된 바와 같이, 개인화된 음성(예를 들어, 제로샷 TTS)을 합성하기 위해, VALL-E는 3초 등록된 녹음 및 음소 프롬프트의 음향 토큰에 조건부로 대응하는 음향 토큰을 생성하여 화자와 콘텐츠를 제한한다. 마지막으로 생성된 음향 토큰은 해당 신경 코덱 디코더. 오디오 코덱 모델에서 파생된 개별 음향 토큰을 통해 TTS를 조건부 코덱 언어 모델링으로 취급할 수 있으며 고급 프롬프트 기반 대형 모델 기술(GPT에서와 같이) TTS 작업에 활용할 수 있습니다. 음향 토큰을 사용하면 추론 중에 다양한 샘플링 전략을 사용하여 TTS에서 다양한 합성 결과를 생성할 수 있습니다.
-> 모델링을 하는법 보다 크고 다양한 데이터를 학습하는것이 새로운 방법이다. Vall-E 는 이 작업을 처음 TTS에 적용했다. 3초 정도의 녹음 음성을 통해서 음성을 생성한다.
논문에서는 LibriLight로 VALL-E를 훈련합니다, 7000명 이상의 고유한 화자가 있는 60,000시간 분량의 영어 음성으로 구성된 데이터 세트입니다. LibriLight는 음성만 존재하기 때문에 음성 인식 모델을 사용하여 스크립트를 생성합니다. LibriTTS와 비교하자면 LibriLight는 시끄러운 음성과 부정확한 필사본이 포함되어 있지만 다양한 화자와 운율을 제공합니다. Vall-E는 노이즈에 강하고 대용량 데이터를 활용하여 잘 일반화한다고 생각합니다. 기존 TTS 시스템은 항상 수십 시간의 단일 화자 데이터 또는 수백 시간의 다중 화자 데이터로 학습되며 이는 VALL-E 보다 수백 배 이상 작다는 점은 주목할 가치가 있습니다 . 표 1 은 오디오 코덱 코드를 중간 표현으로 사용하고 크고 다양한 데이터를 활용하여 강력한 상황 내 학습 기능을 제공하는 TTS용 언어 모델 접근 방식인 VALL-E 의 장점을 요약한 것입니다 .

-> Vall-E를 학습하기 위해서 LibriLight를 사용(스크립트는 STT 모델로 생성)
우리는 LibriSpeech 및 VCTK 데이터세트에서 VALL-E를 평가합니다, 여기서 모든 테스트 화자는 train data에 포함되어 있지 않다. VALL-E는 최첨단 제로 샷 TTS 시스템을 훨씬 능가합니다. LibriSpeech에서 +0.12 CMOS 및 +0.93 SMOS 개선으로 음성 자연성 및 화자 유사성 측면에서. VALL-E는 또한 +0.11 SMOS 및 +0.23 CMOS 개선으로 VCTK의 기준선을 능가합니다. 그것은 심지어 실측에 대해 +0.04 CMOS 점수를 달성하여 보이지 않는 화자의 합성된 음성이 VCTK에서 사람이 녹음하는 것만큼 자연스럽다는 것을 보여줍니다. 또한, 정성 분석은 VALL-E가 동일한 텍스트 및 대상 화자로 다양한 출력을 합성할 수 있음을 보여주며, 이는 음성 인식 작업을 위한 의사 데이터 생성에 도움이 될 수 있습니다. 우리는 또한 VALL-E가 음향 프롬프트의 음향 환경(예: 잔향)과 감정(예: 분노)을 유지할 수 있음을 발견했습니다.
-> LibriSpeech랑 VCTK 데이터 세트에서 확인한 결과 성능이 뛰어나다. 그뿐만 아니라 음향 환경, 감정 또한 유지할 수 있음을 확인
요약하면 다음과 같은 기여를 합니다.
• 논문에서는 TTS를 오디오 코덱 코드를 중간 표현으로 사용하여 기존 mel 스펙트로그램을 대체하는 언어 모델 작업으로 취급하는 GPT-3와 같은 강력한 상황 내 학습 기능을 갖춘 최초의 TTS 프레임워크인 VALL-E를 제안합니다 . 상황에 맞는 학습 기능을 갖추고 있으며 이전 작업과 같이 추가 구조 엔지니어링, 미리 설계된 음향 기능 및 미세 조정이 필요하지 않은 제로샷 TTS에 대한 신속한 기반 접근이 가능합니다.
• 우리는 엄청난 양의 준지도 데이터를 활용하여 화자 차원에서 일반화된 TTS 시스템을 구축합니다. 이는 준지도 데이터의 단순한 확장이 TTS에 대해 과소 평가되었음을 시사합니다.
• VALL-E는 동일한 입력 텍스트로 다양한 출력을 제공할 수 있으며 음향 프롬프트의 음향 환경과 화자의 감정을 유지할 수 있습니다.
• 우리는 VALL-E가 제로 샷 시나리오에서 프롬트하여 화자 유사도가 높은 자연스러운 음성을 합성함을 확인합니다 . 평가 결과는 VALL-E가 LibriSpeech 및 VCTK에서 최첨단 제로샷 TTS 시스템보다 훨씬 뛰어난 성능을 보인다는 것을 보여줍니다.
-> 정리