논문 먹는 여우
VALL-E 리뷰 - Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers (3) 본문
VALL-E 리뷰 - Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers (3)
abujiho 2023. 3. 21. 19:315. Experiment
5.1 Experiment Setup
Dataset : LibriLight 영어 오디오북에서 레이블이 지정되지 않은 60,000시간 분량의 음성을 포함하는 학습 데이터로 사용합니다. 개별 스피커의 수는 LibriLight에서 약 7000개입니다. 우리는 Kaldi의 하이브리드 모델이 훈련되면 레이블이 지정되지 않은 음성 데이터가 디코딩되고 프레임 이동이 30ms인 best phoneme-level alignment path로 변환됩니다. EnCodec 모델는 60K 시간의 데이터에 대한 음향 코드 매트릭스를 생성하는 데 사용됩니다.
Model : AR 모델과 NAR 모델 모두 12개의 layer, 16개의 attention head, 1024의 embedding, 4096의 feed forward 및 0.1의 dropout이 있는 동일한 transformer 구조이다. LibriLight의 평균 파형 길이는 60초입니다. 훈련하는 동안 파형을 10초에서 20초 사이의 임의 길이로 무작위로 자릅니다. 해당 phoneme alignment는 phoneme prompt로 사용됩니다. 강제 정렬된 phoneme alignment에서 연속적인 반복을 제거합니다. NAR acoustic prompt token의 경우 same utterance(같은 화자)에서 3초의 random segment waveform을 선택합니다.
16개의 NVIDIA TESLA V100 32GB GPU를 사용했고 batch size는 6000 acousitc tokens을 gpu당 800k step동안 학습했다. AdamW optimzer 사용했고 lr warmup은 32k 업데이트했고 peak는 5*10^-4 그리고 선형 감소한다.
Basleline : SOTA zero-shot TTS model 인 YourTTS 로 하였고 VCTK와 LibriTTS 그리고 TTS-Portuguese 데이터 세트로 학습한다.
Automatic metrics : SOTA speaker verification model 인 WavLM-TDNN을 이용해서 녹음된 prompt와 synthesized speech 를 비교한다. WavLM-TDNN은 EER(Equal Error Rate)에서 좋은 성능을 나타냈다. WavLM-TDNN에서 예측한 유사성 점수는 다음 범위에 있습니다. [ - 1 , 1 ] 여기서 더 큰 값은 더 높은 유사성을 나타냅니다.
vall-e의 robustness를 평가하기 위해서 ASR모델을 이용하여 WER을 구한다. HuBERT-Large 모델을 lm없이 사용한다.
Human evaluation : 크라우드 소싱을 통해 comparative mean option socre(CMOS)와 similarity mean option score(SMOS)를 계산합니다. 여기에서 12명과 6명의 원어민이 CMOS 및 SMOS 기여자로 초대됩니다. SMOS의 척도는 1에서 5까지이며 0.5포인트 증분입니다. CMOS 범위는 -3(새 시스템이 기준선보다 훨씬 나쁨)에서 3(새 시스템이 기준선보다 훨씬 나음)까지이며 간격은 1입니다. CMOS는 어음의 자연스러움을 나타내는 지표이며 SMOS는 어음이 기존 시스템과 유사한지 여부를 측정합니다. 원래 화자의 목소리.
5.2 LibriSpeech Evaluation
먼저 LibriSpeech, LibriLight 교육 데이터와 LibriSpeech 테스트 클린 데이터 사이에 화자가 겹치지 않기 때문에 제로샷 TTS 평가용으로 사용 가능합니다.우리는 LibriSpeech test-clean의 샘플중에서 4초에서 10초 사이의 길이의 샘플을 사용하며 총 2.2시간 subset으로 구성되어 있다. 각 샘플 합성에 대해 VALL-E는 동일한 화자의 다른 발화를 무작위로 선택하고 등록된 음성으로 3초 음성 세그먼트를 자릅니다. 각 실험은 세 번 실행되며 평균 점수가 보고됩니다. VALL-E -continual은 실측 음성의 처음 3초를 등록된 음성으로 사용합니다. SPK(speaker score)

표 2 는 객관적인 평가 결과를 보여준다. 먼저 WER 점수와 실측 음성의 화자 유사성 점수를 상한으로 계산합니다. 화자 유사성을 비교하기 위해 테스트 세트에서 동일한 화자의 음성 쌍을 사용합니다. YourTTS 기준선과 비교할 때, 우리 모델은 견고성과 화자 유사성 모두에서 훨씬 우수하여 생성된 음성이 주어진 텍스트와 주어진 등록된 음성에 매우 충실함을 보여줍니다. 또한 VALL-E-continual에서는 단어 오류율을 더욱 줄일 수 있습니다., 처음 3초 동안의 음향 토큰이 ground truth에서 추출되기 때문입니다. 또한 오디오 잠재 코드를 입력으로 사용하는 다른 speech to speech LM 기반 생성 모델인 GSLM 및 AudioLM과 견고성을 비교합니다. GSLM은 HuBERT 코드를 입력으로 사용하고 Tacotron2와 WaveGlow 보코더로 파형을 재구성합니다. 공개된 모델을 사용하여 오픈 소스 코드를 실행하고 결과를 평가합니다. HuBERT 코드는 화자 ID를 버리기 때문에 낮은 화자 점수를 얻습니다. AudioLM의 경우 Conformer Transducer 모델에서 얻은 논문에 보고된 WER 점수를 나열합니다. 실험 결과는 VALL-E가 견고성 측면에서 다른 음성 대 음성 LM 기반 생성 시스템보다 우수함을 보여줍니다. 주요 이유 중 하나는 VALL-E가 HuBERT/w2v-BERT 코드 대신 의사 음소로 훈련되어 입력 텍스트와 더 나은 정렬 품질을 누리기 때문입니다.
인간 평가를 위해 LibriSpeech test-clean에서 각 화자에 대해 하나의 발화를 무작위로 샘플링하여 40개의 테스트 사례를 생성합니다. 인간 평가 결과를 표 3 에 나타낸다. VALL-E 는 SMOS 측면에서 실측에 매우 가깝습니다. 이는 합성된 음성이 테스트에서 주어진 보이지 않는 스피커와 유사함을 나타냅니다. +0.93 SMOS로 기준선을 크게 능가하여 제로 샷 시나리오에서 VALL-E 의 효율성을 보여줍니다 . 자연스러움과 관련하여 VALL-E는 +0.12 CMOS로 기준선을 이겼으며, 이는 제안된 방법이 기준선에 대해 더 자연스럽고 사실적인 음성을 합성할 수 있음을 나타냅니다.

Ablation study : 이 섹션에서는 Ablation study을 진행합니다. 먼저 NAR model을 비교합니다. 서로 다른 수의 프롬프트로 세 가지 NAR 모델을 교육합니다. NAR-no prompt 설정은 프롬프트 없이 훈련됩니다. NAR-phn prompt 음소 시퀀스만 프롬프트로 사용하여 학습되고 설정 NAR-2 prompt는 음소 프롬프트와 음향 토큰 프롬프트를 모두 사용합니다. 평가 시 실측 1단계 음향 토큰을 모델 입력으로 사용하고 WER 및 화자 유사성 점수를 계산합니다. 결과는 표 4 에 표현되어 있습니다 .

결과는 프롬프트가 없는 모델이 ASR 및 화자 유사성 평가 모두에서 제대로 수행되지 않음을 보여줍니다. 음향 입력 토큰이 실측값인 경우에도 마찬가지입니다. 음소 프롬프트를 추가하면 WER이 19.6에서 3.0으로 크게 줄어듭니다. 그것은 음소 프롬프트가 주로 세대의 내용에 기여함을 보여줍니다. NAR-2 프롬프트 에서 모델은 음향 토큰 프롬프트에서 화자 정보를 학습하여 화자 평가 품질을 향상시킬 수 있습니다.
우리는 AR 모델에 대한 Ablation study을 추가로 수행합니다. 이 실험에서는 항상 NAR-2 prompt 설정을 NAR 모델로 사용합니다. 표 5 에서 acoustic prompt를 제거하면 화자 유사성 점수 0.236만 얻을 수 있으며 프롬프트가 화자 식별에 매우 중요함을 알 수 있습니다. NAR 모델이 프롬프트를 볼 수 있더라도 AR 모델에 대한 프롬프트도 화자 유사성에 크게 기여합니다.

-> 프롬프트가 AR 과 NAR에서 매우 중요한 역할을 한다.
5.3 VCTK Evaluation
우리는 108명의 화자로 구성된 VCTK에서 모델을 평가하며, 여기서는 훈련 중에 화자가 관찰되지 않습니다. YourTTS는 VCTK에서 97명의 화자를 훈련으로 보았기 때문에 전체 107명의 화자와 11명의 보이지 않는 화자에 대한 YourTTS 성능을 각각 평가합니다. 각 화자에 대해 프롬프트로 3s/5s/10s의 세 발화를 임의로 선택하고 텍스트 프롬프트로 다른 발화의 텍스트를 선택했습니다.

먼저 앞에서 설명한 대로 화자 확인 메트릭을 사용하여 두 모델을 평가합니다. 표 6 에서 우리는 VALL-E가 기준선에서 훈련 중인 화자가 97명인 경우에도 기준선을 능가한다는 것을 알 수 있으며 , 이는 우리 모델이 더 높은 화자 유사도로 음성을 합성할 수 있음을 나타냅니다. 공정한 환경(11명의 화자)에서 기준선과 비교할 때 특히 3초 프롬프트만 사용할 수 있는 경우 성능 차이가 더 커집니다. 다른 길이의 프롬프트를 비교하면 프롬프트가 길어질수록 모델이 더 유사한 음성을 생성할 수 있으며 이는 직감과 일치합니다.

인간 평가를 위해 60명의 화자를 샘플링하고, 각각에 대해 하나의 발언을 합니다. 여기서 11명은 보이지 않는 화자이고 49명의 화자는 YourTTS에서 나타났습니다. VALL-E는 60명의 화자 중 어느 것도 보지 못합니다. 모델 합성 중에 각 화자는 3초 동안 등록된 녹음을 합니다. 표 7 은 우리 방법과 기준선 및 실측 정보를 비교한 것입니다. SMOS의 비교는 VALL-E가 베이스라인보다 스피커 유사성이 더 우수함을 보여줍니다. 비록 베이스라인이 트레이닝에서 일부 스피커를 보았더라도 말이죠. 병렬 CMOS 평가는 VALL-E가 YourTTS보다 +0.23임을 보여줍니다. 이는 자연스러움에 대해 훨씬 더 나은 성능을 나타냅니다. 또한, VALL-E이 데이터 세트에 대한 사람의 기록과 통계적으로 유의미한 차이가 없음을 보여주면서 ground-truth에 대해 +0.04 CMOS를 달성합니다. LibriSpeech의 평가 결과와 비교할 때 VALL-E는 ground truth와 비교하여 더 나은 CMOS 점수를 보여줍니다. 이는 주로 VCTK에서 평균 문장 길이가 더 짧고 일부 ground truth 발언도 노이즈 환경이 있기 때문입니다. 화자 유사성 측면에서 VCTK는 다양한 억양을 가진 화자를 포함하는 반면 훈련 데이터 및 LibriSpeech 테스트 데이터에는 다양한 억양 화자를 포함하지 않기 때문에 더 어렵습니다.
5.4 Qualitative Analysis
다양성: 이전 TTS 시스템은 입력 텍스트와 출력 파형 사이에 강력한 일대일 매핑이 있습니다. 멜 스펙트럼 생성은 임의성이 없는 각 단계의 재구성을 기반으로 하기 때문입니다. VALL-E는 sampling-based 방법을 사용하여 개별 토큰을 생성하기 때문에 추론의 무작위성으로 인해 동일한 입력 텍스트에 대해 출력이 다양합니다 . 문장과 등록된 녹음이 주어지면 추론 프로세스를 두 번 실행하고 그림 4 에서 파형을 시각화합니다 . 그림 4(a) 에서 우리는 두 샘플이 다른 길이와 어구 지속 시간을 가지고 있음을 관찰합니다. 여기서 첫 번째 샘플은 더 빠른 음성 속도를 가집니다. 그림 4(b) 에서, 우리는 두 샘플의 악센트가 다른 것을 관찰합니다. 두 번째 출력은 더 큰 진폭으로 "필수"라는 단어를 강조하지만 첫 번째 출력은 그렇지 않습니다. 데모 페이지에 더 많은 샘플을 남깁니다.

일부 다운스트림 시나리오에서는 다양성이 중요합니다. 예를 들어, 음성인식은 스피커와 음향 환경이 다른 다양한 입력을 항상 활용하는데, 이는 이전 TTS 시스템으로는 충족할 수 없었습니다. VALL-E 의 다양성 특성을 고려할 때 음성 인식을 위한 의사 데이터를 생성하는 데 이상적인 후보입니다.
Acoustic environment maintenance : 또 다른 흥미로운 발견은 음향 프롬프트와 세대 간의 음향 환경 일관성입니다. 음향 프롬프트에 반향이 있는 경우 VALL-E는 반향과 음성도 합성할 수 있지만 기준선은 깨끗한 음성을 출력합니다. 우리의 설명은 VALL-E가 기준선에서 사용하는 데이터보다 더 많은 음향 조건으로 구성된 대규모 데이터 세트에서 훈련되므로 VALL-E는 훈련 중에만 깨끗한 환경 대신 음향 일관성을 학습할 수 있다는 것입니다. 데모 페이지에서 일관성을 보여줍니다.
Speaker’s emotion maintenance : 감정적 TTS는 음성 합성의 고전적인 하위 주제로, 음성을 필요한 감정과 합성합니다. 전통적인 방법은 음성이 필사본 및 감정 레이블에 해당하는 감독된 감정 TTS 데이터 세트에서 항상 모델을 교육합니다. 우리는 VALL-E가 제로 샷 설정에서 프롬프트의 감정을 보존할 수 있음을 발견했습니다 VALL-E는 감성 TTS 데이터셋(EmoV-DB)에서 모델을 미세 조정하지 않아도 음성 합성에서 프롬프트의 동일한 감정을 유지할 수 있습니다. 데모 페이지에 오디오 샘플을 넣습니다.
6. Experiment
오디오 코덱 코드를 중간 표현으로 사용하는 TTS용 언어 모델 접근 방식인 VALL-E를 도입했습니다 . 60,000시간 분량의 음성 데이터로 VALL-E를 사전 훈련 하고 제로 샷 시나리오에서 상황 내 학습 기능을 보여줍니다. 우리는 LibriSpeech 및 VCTK에서 새로운 최첨단 제로 샷 TTS 결과를 얻습니다. 또한 VALL-E는 음향 환경과 화자의 감정을 합성 상태로 유지하고 다양한 샘플링 기반 디코딩 프로세스에서 다양한 출력을 제공할 수 있습니다.
상당한 진전에도 불구하고 VALL-E는 여전히 몇 가지 문제를 겪고 있습니다.
Synthesis robustness : 우리는 음성 합성에서 일부 단어가 불분명하거나 누락되거나 중복될 수 있음을 관찰합니다. 주로 phoneme-to-acoustic 언어 부분이 무질서한 주의 정렬이 존재하고 문제 해결에 제약이 없는 auto regressive 모델이기 때문입니다. 이 현상은 바닐라 트랜스포머 기반 TTS에서도 관찰되는데, 이는 비자동회귀 모델을 적용하거나 모델링에서 어텐션 메커니즘을 수정하여 해결되었습니다. 앞으로 이러한 기술을 활용하여 문제를 해결하고자 합니다.
Data coverage : 훈련에 60,000시간의 데이터를 사용하더라도 여전히 모든 사람의 목소리, 특히 억양 화자를 포함할 수는 없습니다. LibriSpeech보다 VCTK에서 더 나쁜 결과가 나온 이유는 악센트 스피커의 범위가 불충분함을 의미합니다. 또한 LibriLight는 대부분의 발언이 읽기 스타일인 오디오북 데이터 세트이므로 말하기 스타일의 다양성이 충분하지 않습니다. 앞으로 운율, 화법 및 화자 유사성 관점에서 모델 성능을 개선하기 위해 훈련 데이터를 더욱 확장할 것입니다. 모델 및 데이터 확장을 통한 접근 방식을 통해 제로 샷 TTS 작업을 거의 해결할 수 있다고 생각합니다.
Model Structure: 이제 서로 다른 양자화기의 코드를 예측하기 위해 두 가지 모델을 사용합니다. 유망한 방향은 큰 범용 모델로 예측하는 것입니다. 또 다른 흥미로운 방향은 전체 NAR 모델을 사용하여 프레임워크에서 모델 추론 속도를 높이는 것입니다.
Broader impacts : VALL-E는 화자 신원을 유지하는 음성을 합성할 수 있기 때문에 음성 식별을 스푸핑하거나 특정 화자를 사칭하는 등 모델을 오용할 경우 잠재적인 위험을 수반할 수 있습니다. 이러한 위험을 완화하기 위해 오디오 클립이 VALL-E 에 의해 합성되었는지 여부를 식별하는 감지 모델을 구축할 것입니다.
<개인적인 의견>
논문이 친절한듯 친절하지 않습니다 ㅠ 읽는 데 매우 애 먹었습니다. 하지만 TTS task를 prompt 문제로 해결하는 문제 접근이 엄청 참신했던것 같습니다. 실제 open source에서 영어 및 한국어를 돌려봤을때 적은데이터로 돌려봤지만 좋은 결과를 확인할 수 있었습니다. 위에서 언급한 내용을 해결하는것도 좋은 연구가 될것 같습니다.
궁금한점이 있으면 답글 남겨주시면 최대한 빠르게 답장 드리겠습니다.