논문 먹는 여우

VALL-E 리뷰 - Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers (3)

abujiho — Tue, 21 Mar 2023 19:31:13 +0900

5. Experiment

5.1 Experiment Setup

Dataset : LibriLight 영어 오디오북에서 레이블이 지정되지 않은 60,000시간 분량의 음성을 포함하는 학습 데이터로 사용합니다. 개별 스피커의 수는 LibriLight에서 약 7000개입니다. 우리는 Kaldi의 하이브리드 모델이 훈련되면 레이블이 지정되지 않은 음성 데이터가 디코딩되고 프레임 이동이 30ms인 best phoneme-level alignment path로 변환됩니다. EnCodec 모델는 60K 시간의 데이터에 대한 음향 코드 매트릭스를 생성하는 데 사용됩니다.

Model : AR 모델과 NAR 모델 모두 12개의 layer, 16개의 attention head, 1024의 embedding, 4096의 feed forward 및 0.1의 dropout이 있는 동일한 transformer 구조이다. LibriLight의 평균 파형 길이는 60초입니다. 훈련하는 동안 파형을 10초에서 20초 사이의 임의 길이로 무작위로 자릅니다. 해당 phoneme alignment는 phoneme prompt로 사용됩니다. 강제 정렬된 phoneme alignment에서 연속적인 반복을 제거합니다. NAR acoustic prompt token의 경우 same utterance(같은 화자)에서 3초의 random segment waveform을 선택합니다.

16개의 NVIDIA TESLA V100 32GB GPU를 사용했고 batch size는 6000 acousitc tokens을 gpu당 800k step동안 학습했다. AdamW optimzer 사용했고 lr warmup은 32k 업데이트했고 peak는 5*10^-4 그리고 선형 감소한다.

Basleline : SOTA zero-shot TTS model 인 YourTTS 로 하였고 VCTK와 LibriTTS 그리고 TTS-Portuguese 데이터 세트로 학습한다.

Automatic metrics : SOTA speaker verification model 인 WavLM-TDNN을 이용해서 녹음된 prompt와 synthesized speech 를 비교한다. WavLM-TDNN은 EER(Equal Error Rate)에서 좋은 성능을 나타냈다. WavLM-TDNN에서 예측한 유사성 점수는 다음 범위에 있습니다. [ - 1 , 1 ] 여기서 더 큰 값은 더 높은 유사성을 나타냅니다.

vall-e의 robustness를 평가하기 위해서 ASR모델을 이용하여 WER을 구한다. HuBERT-Large 모델을 lm없이 사용한다.

Human evaluation : 크라우드 소싱을 통해 comparative mean option socre(CMOS)와 similarity mean option score(SMOS)를 계산합니다. 여기에서 12명과 6명의 원어민이 CMOS 및 SMOS 기여자로 초대됩니다. SMOS의 척도는 1에서 5까지이며 0.5포인트 증분입니다. CMOS 범위는 -3(새 시스템이 기준선보다 훨씬 나쁨)에서 3(새 시스템이 기준선보다 훨씬 나음)까지이며 간격은 1입니다. CMOS는 어음의 자연스러움을 나타내는 지표이며 SMOS는 어음이 기존 시스템과 유사한지 여부를 측정합니다. 원래 화자의 목소리.

5.2 LibriSpeech Evaluation

먼저 LibriSpeech, LibriLight 교육 데이터와 LibriSpeech 테스트 클린 데이터 사이에 화자가 겹치지 않기 때문에 제로샷 TTS 평가용으로 사용 가능합니다.우리는 LibriSpeech test-clean의 샘플중에서 4초에서 10초 사이의 길이의 샘플을 사용하며 총 2.2시간 subset으로 구성되어 있다. 각 샘플 합성에 대해 VALL-E는 동일한 화자의 다른 발화를 무작위로 선택하고 등록된 음성으로 3초 음성 세그먼트를 자릅니다. 각 실험은 세 번 실행되며 평균 점수가 보고됩니다. VALL-E -continual은 실측 음성의 처음 3초를 등록된 음성으로 사용합니다. SPK(speaker score)

표 2 는 객관적인 평가 결과를 보여준다. 먼저 WER 점수와 실측 음성의 화자 유사성 점수를 상한으로 계산합니다. 화자 유사성을 비교하기 위해 테스트 세트에서 동일한 화자의 음성 쌍을 사용합니다. YourTTS 기준선과 비교할 때, 우리 모델은 견고성과 화자 유사성 모두에서 훨씬 우수하여 생성된 음성이 주어진 텍스트와 주어진 등록된 음성에 매우 충실함을 보여줍니다. 또한 VALL-E-continual에서는 단어 오류율을 더욱 줄일 수 있습니다., 처음 3초 동안의 음향 토큰이 ground truth에서 추출되기 때문입니다. 또한 오디오 잠재 코드를 입력으로 사용하는 다른 speech to speech LM 기반 생성 모델인 GSLM 및 AudioLM과 견고성을 비교합니다. GSLM은 HuBERT 코드를 입력으로 사용하고 Tacotron2와 WaveGlow 보코더로 파형을 재구성합니다. 공개된 모델을 사용하여 오픈 소스 코드를 실행하고 결과를 평가합니다. HuBERT 코드는 화자 ID를 버리기 때문에 낮은 화자 점수를 얻습니다. AudioLM의 경우 Conformer Transducer 모델에서 얻은 논문에 보고된 WER 점수를 나열합니다. 실험 결과는 VALL-E가 견고성 측면에서 다른 음성 대 음성 LM 기반 생성 시스템보다 우수함을 보여줍니다. 주요 이유 중 하나는 VALL-E가 HuBERT/w2v-BERT 코드 대신 의사 음소로 훈련되어 입력 텍스트와 더 나은 정렬 품질을 누리기 때문입니다.

인간 평가를 위해 LibriSpeech test-clean에서 각 화자에 대해 하나의 발화를 무작위로 샘플링하여 40개의 테스트 사례를 생성합니다. 인간 평가 결과를 표 3 에 나타낸다. VALL-E 는 SMOS 측면에서 실측에 매우 가깝습니다. 이는 합성된 음성이 테스트에서 주어진 보이지 않는 스피커와 유사함을 나타냅니다. +0.93 SMOS로 기준선을 크게 능가하여 제로 샷 시나리오에서 VALL-E 의 효율성을 보여줍니다 . 자연스러움과 관련하여 VALL-E는 +0.12 CMOS로 기준선을 이겼으며, 이는 제안된 방법이 기준선에 대해 더 자연스럽고 사실적인 음성을 합성할 수 있음을 나타냅니다.

Ablation study : 이 섹션에서는 Ablation study을 진행합니다. 먼저 NAR model을 비교합니다. 서로 다른 수의 프롬프트로 세 가지 NAR 모델을 교육합니다. NAR-no prompt 설정은 프롬프트 없이 훈련됩니다. NAR-phn prompt 음소 시퀀스만 프롬프트로 사용하여 학습되고 설정 NAR-2 prompt는 음소 프롬프트와 음향 토큰 프롬프트를 모두 사용합니다. 평가 시 실측 1단계 음향 토큰을 모델 입력으로 사용하고 WER 및 화자 유사성 점수를 계산합니다. 결과는 표 4 에 표현되어 있습니다 .

결과는 프롬프트가 없는 모델이 ASR 및 화자 유사성 평가 모두에서 제대로 수행되지 않음을 보여줍니다. 음향 입력 토큰이 실측값인 경우에도 마찬가지입니다. 음소 프롬프트를 추가하면 WER이 19.6에서 3.0으로 크게 줄어듭니다. 그것은 음소 프롬프트가 주로 세대의 내용에 기여함을 보여줍니다. NAR-2 프롬프트 에서 모델은 음향 토큰 프롬프트에서 화자 정보를 학습하여 화자 평가 품질을 향상시킬 수 있습니다.

우리는 AR 모델에 대한 Ablation study을 추가로 수행합니다. 이 실험에서는 항상 NAR-2 prompt 설정을 NAR 모델로 사용합니다. 표 5 에서 acoustic prompt를 제거하면 화자 유사성 점수 0.236만 얻을 수 있으며 프롬프트가 화자 식별에 매우 중요함을 알 수 있습니다. NAR 모델이 프롬프트를 볼 수 있더라도 AR 모델에 대한 프롬프트도 화자 유사성에 크게 기여합니다.

-> 프롬프트가 AR 과 NAR에서 매우 중요한 역할을 한다.

5.3 VCTK Evaluation

우리는 108명의 화자로 구성된 VCTK에서 모델을 평가하며, 여기서는 훈련 중에 화자가 관찰되지 않습니다. YourTTS는 VCTK에서 97명의 화자를 훈련으로 보았기 때문에 전체 107명의 화자와 11명의 보이지 않는 화자에 대한 YourTTS 성능을 각각 평가합니다. 각 화자에 대해 프롬프트로 3s/5s/10s의 세 발화를 임의로 선택하고 텍스트 프롬프트로 다른 발화의 텍스트를 선택했습니다.

먼저 앞에서 설명한 대로 화자 확인 메트릭을 사용하여 두 모델을 평가합니다. 표 6 에서 우리는 VALL-E가 기준선에서 훈련 중인 화자가 97명인 경우에도 기준선을 능가한다는 것을 알 수 있으며 , 이는 우리 모델이 더 높은 화자 유사도로 음성을 합성할 수 있음을 나타냅니다. 공정한 환경(11명의 화자)에서 기준선과 비교할 때 특히 3초 프롬프트만 사용할 수 있는 경우 성능 차이가 더 커집니다. 다른 길이의 프롬프트를 비교하면 프롬프트가 길어질수록 모델이 더 유사한 음성을 생성할 수 있으며 이는 직감과 일치합니다.

인간 평가를 위해 60명의 화자를 샘플링하고, 각각에 대해 하나의 발언을 합니다. 여기서 11명은 보이지 않는 화자이고 49명의 화자는 YourTTS에서 나타났습니다. VALL-E는 60명의 화자 중 어느 것도 보지 못합니다. 모델 합성 중에 각 화자는 3초 동안 등록된 녹음을 합니다. 표 7 은 우리 방법과 기준선 및 실측 정보를 비교한 것입니다. SMOS의 비교는 VALL-E가 베이스라인보다 스피커 유사성이 더 우수함을 보여줍니다. 비록 베이스라인이 트레이닝에서 일부 스피커를 보았더라도 말이죠. 병렬 CMOS 평가는 VALL-E가 YourTTS보다 +0.23임을 보여줍니다. 이는 자연스러움에 대해 훨씬 더 나은 성능을 나타냅니다. 또한, VALL-E이 데이터 세트에 대한 사람의 기록과 통계적으로 유의미한 차이가 없음을 보여주면서 ground-truth에 대해 +0.04 CMOS를 달성합니다. LibriSpeech의 평가 결과와 비교할 때 VALL-E는 ground truth와 비교하여 더 나은 CMOS 점수를 보여줍니다. 이는 주로 VCTK에서 평균 문장 길이가 더 짧고 일부 ground truth 발언도 노이즈 환경이 있기 때문입니다. 화자 유사성 측면에서 VCTK는 다양한 억양을 가진 화자를 포함하는 반면 훈련 데이터 및 LibriSpeech 테스트 데이터에는 다양한 억양 화자를 포함하지 않기 때문에 더 어렵습니다.

5.4 Qualitative Analysis

다양성: 이전 TTS 시스템은 입력 텍스트와 출력 파형 사이에 강력한 일대일 매핑이 있습니다. 멜 스펙트럼 생성은 임의성이 없는 각 단계의 재구성을 기반으로 하기 때문입니다. VALL-E는 sampling-based 방법을 사용하여 개별 토큰을 생성하기 때문에 추론의 무작위성으로 인해 동일한 입력 텍스트에 대해 출력이 다양합니다 . 문장과 등록된 녹음이 주어지면 추론 프로세스를 두 번 실행하고 그림 4 에서 파형을 시각화합니다 . 그림 4(a) 에서 우리는 두 샘플이 다른 길이와 어구 지속 시간을 가지고 있음을 관찰합니다. 여기서 첫 번째 샘플은 더 빠른 음성 속도를 가집니다. 그림 4(b) 에서, 우리는 두 샘플의 악센트가 다른 것을 관찰합니다. 두 번째 출력은 더 큰 진폭으로 "필수"라는 단어를 강조하지만 첫 번째 출력은 그렇지 않습니다. 데모 페이지에 더 많은 샘플을 남깁니다.

일부 다운스트림 시나리오에서는 다양성이 중요합니다. 예를 들어, 음성인식은 스피커와 음향 환경이 다른 다양한 입력을 항상 활용하는데, 이는 이전 TTS 시스템으로는 충족할 수 없었습니다. VALL-E 의 다양성 특성을 고려할 때 음성 인식을 위한 의사 데이터를 생성하는 데 이상적인 후보입니다.

Acoustic environment maintenance : 또 다른 흥미로운 발견은 음향 프롬프트와 세대 간의 음향 환경 일관성입니다. 음향 프롬프트에 반향이 있는 경우 VALL-E는 반향과 음성도 합성할 수 있지만 기준선은 깨끗한 음성을 출력합니다. 우리의 설명은 VALL-E가 기준선에서 사용하는 데이터보다 더 많은 음향 조건으로 구성된 대규모 데이터 세트에서 훈련되므로 VALL-E는 훈련 중에만 깨끗한 환경 대신 음향 일관성을 학습할 수 있다는 것입니다. 데모 페이지에서 일관성을 보여줍니다.

Speaker’s emotion maintenance : 감정적 TTS는 음성 합성의 고전적인 하위 주제로, 음성을 필요한 감정과 합성합니다. 전통적인 방법은 음성이 필사본 및 감정 레이블에 해당하는 감독된 감정 TTS 데이터 세트에서 항상 모델을 교육합니다. 우리는 VALL-E가 제로 샷 설정에서 프롬프트의 감정을 보존할 수 있음을 발견했습니다 VALL-E는 감성 TTS 데이터셋(EmoV-DB)에서 모델을 미세 조정하지 않아도 음성 합성에서 프롬프트의 동일한 감정을 유지할 수 있습니다. 데모 페이지에 오디오 샘플을 넣습니다.

6. Experiment

오디오 코덱 코드를 중간 표현으로 사용하는 TTS용 언어 모델 접근 방식인 VALL-E를 도입했습니다 . 60,000시간 분량의 음성 데이터로 VALL-E를 사전 훈련 하고 제로 샷 시나리오에서 상황 내 학습 기능을 보여줍니다. 우리는 LibriSpeech 및 VCTK에서 새로운 최첨단 제로 샷 TTS 결과를 얻습니다. 또한 VALL-E는 음향 환경과 화자의 감정을 합성 상태로 유지하고 다양한 샘플링 기반 디코딩 프로세스에서 다양한 출력을 제공할 수 있습니다.

상당한 진전에도 불구하고 VALL-E는 여전히 몇 가지 문제를 겪고 있습니다.

Synthesis robustness : 우리는 음성 합성에서 일부 단어가 불분명하거나 누락되거나 중복될 수 있음을 관찰합니다. 주로 phoneme-to-acoustic 언어 부분이 무질서한 주의 정렬이 존재하고 문제 해결에 제약이 없는 auto regressive 모델이기 때문입니다. 이 현상은 바닐라 트랜스포머 기반 TTS에서도 관찰되는데, 이는 비자동회귀 모델을 적용하거나 모델링에서 어텐션 메커니즘을 수정하여 해결되었습니다. 앞으로 이러한 기술을 활용하여 문제를 해결하고자 합니다.

Data coverage : 훈련에 60,000시간의 데이터를 사용하더라도 여전히 모든 사람의 목소리, 특히 억양 화자를 포함할 수는 없습니다. LibriSpeech보다 VCTK에서 더 나쁜 결과가 나온 이유는 악센트 스피커의 범위가 불충분함을 의미합니다. 또한 LibriLight는 대부분의 발언이 읽기 스타일인 오디오북 데이터 세트이므로 말하기 스타일의 다양성이 충분하지 않습니다. 앞으로 운율, 화법 및 화자 유사성 관점에서 모델 성능을 개선하기 위해 훈련 데이터를 더욱 확장할 것입니다. 모델 및 데이터 확장을 통한 접근 방식을 통해 제로 샷 TTS 작업을 거의 해결할 수 있다고 생각합니다.

Model Structure: 이제 서로 다른 양자화기의 코드를 예측하기 위해 두 가지 모델을 사용합니다. 유망한 방향은 큰 범용 모델로 예측하는 것입니다. 또 다른 흥미로운 방향은 전체 NAR 모델을 사용하여 프레임워크에서 모델 추론 속도를 높이는 것입니다.

Broader impacts : VALL-E는 화자 신원을 유지하는 음성을 합성할 수 있기 때문에 음성 식별을 스푸핑하거나 특정 화자를 사칭하는 등 모델을 오용할 경우 잠재적인 위험을 수반할 수 있습니다. 이러한 위험을 완화하기 위해 오디오 클립이 VALL-E 에 의해 합성되었는지 여부를 식별하는 감지 모델을 구축할 것입니다.

<개인적인 의견>

논문이 친절한듯 친절하지 않습니다 ㅠ 읽는 데 매우 애 먹었습니다. 하지만 TTS task를 prompt 문제로 해결하는 문제 접근이 엄청 참신했던것 같습니다. 실제 open source에서 영어 및 한국어를 돌려봤을때 적은데이터로 돌려봤지만 좋은 결과를 확인할 수 있었습니다. 위에서 언급한 내용을 해결하는것도 좋은 연구가 될것 같습니다.

궁금한점이 있으면 답글 남겨주시면 최대한 빠르게 답장 드리겠습니다.

VALL-E 리뷰 - Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers (2)

abujiho — Sun, 19 Mar 2023 19:46:03 +0900

3. Background: Speech Quantization

오디오는 일반적으로 16비트 정수 값의 시퀀스로 저장되므로 raw audio를 출력하려면 생성 모델이 time step 2^16 = 65,536 를 생성해야합니다. 또한 오디오 샘플 속도가 10,000을 초과하면 시퀀스 길이가 엄청나게 길어져 원시 오디오 합성이 더 어려워집니다. 이를 위해서는 정수 값과 시퀀스 길이를 압축하기 위한 음성 양자화가 필요하다. u-법칙 변환은 각 시간 단계를 256개 값으로 양자화하고 고품질 원시 오디오를 재구성할 수 있습니다. speech generative 모델에서는 WaveNet을 사용하지만, 그러나 시퀀스 길이가 줄어들지 않았기 때문에 추론 속도는 여전히 느립니다. 최근 벡터 양자화는 vq-wav2vec 및 HuBERT를 사용하는데 추론 속도가 WaveNet보다 빠르다는 것을 보여줍니다. 그러나 화자 신원이 없어지며 재구성 품질이 낮습니다. AudioLM는 자체 감독 모델의 k-평균 토큰과 신경 코덱 모델의 음향 토큰 모두에서 음성-음성 언어 모델을 훈련하여 고품질 speech-speech 생성을 유도합니다.

µ-law transformation : https://en.wikipedia.org/wiki/%CE%9C-law_algorithm

-> raw audio로 작업하는 것은 계산량이 많기 때문에 speech quantization을 진행한다. quantization에는 WaveNet, vq-wav2vec, HuBERT를 사용하는데 성능이 낮거나 속도가 느리다. AudioLM은 quantization을 활용해서 고품질 speech-speech를 진행했음.

AudioLM은 신경 코덱 모델을 활용하여 음성을 개별 토큰으로 표현합니다. 네트워크 전송을 위해 오디오를 압축하기 위해 코덱 모델은 파형을 개별 음향 코드로 인코딩하고 화자가 훈련 중에 보이지 않더라도 고품질 파형을 재구성할 수 있습니다. 기존의 오디오 코덱 접근 방식과 비교하여 신경 기반 코덱은 낮은 비트 전송률에서 훨씬 우수하며 양자화된 토큰에는 화자와 녹음 조건에 대한 충분한 정보가 포함되어 있다고 생각합니다. 오디오 코덱은 다른 양자화 방법에 비해 다음과 같은 장점을 보인다.

1) 화자 정보와 음향 정보가 풍부하여 HuBERT 코드에 비해 재구성 시 화자 정체성을 유지할 수 있다.

2) 스펙트럼에서 동작하는 VQ 기반 방법과 같은 보코더 훈련에 대한 추가적인 노력 없이 개별 토큰을 파형으로 변환하는 기성품 코덱 디코더가 있습니다.

3)효율성을 위해 시간 단계를 줄여 u-law 변환의 문제를 해결할 수 있습니다

-> audio codec의 장점 : 1) 화자 정보 유지 2) 디코더가 있기 때문에 vocoder를 따로 학습시킬 필요 없다. 3) 효율성 증가

논문은 토크나이저로 사전 훈련된 신경 오디오 코덱 모델인 EnCodec을 사용한다. EnCodec은 입력 및 출력이 모두 24kHz 오디오인 컨벌루션 인코더-디코더 모델입니다. 인코더는 24kHz의 입력 파형에 대해 75Hz에서 임베딩을 생성하며, 이는 샘플링 속도가 320배 감소한 것입니다. 각 임베딩은 residual vector quantization (RVQ)에 의해 모델링되며, 여기에서 그림2 와 같이 각각 1024개의 항목이 있는 8개의 hierarchy quantizer를 선택합니다. 이 구성은 24kHz 오디오 재구성을 위한 6K 비트 전송률의 EnCodec에 해당합니다. 이 설정에서 10초 파형이 주어지면 불연속 표현은750×8항목, 여기서 750=(24,000×10)/320 다운샘플링된 시간 단계이고 8은 양자화기의 수입니다. 다른 비트 전송률 설정을 선택해도 좋습니다. 더 큰 비트 전송률은 더 많은 양자화기와 더 나은 재구성 품질에 해당합니다. 모든 양자화기의 개별 코드를 사용하여 EnCodec의 컨벌루션 디코더는 실제 값 임베딩을 생성하고 24kHz에서 파형을 재구성합니다.

-> Vall-E에서는 토크나이저로 Encodec을 사용한다. (즉, Vall-E는 Encodec을 quntaization token을 input으로 받고 Encodec의 quntaization token을 생성한다.) [(text, 3 sec Encodec qnt token) -> Vall-E -> (target Encodec qnt token)]

4. VALL-E

4.1 Problem Formulation: Regarding TTS as Conditional Codec Language Modeling

주어진 데이터 세트 D = {xi , yi}, 여기서 y는 오디오 샘플이고 x = {x0, x1, . . . , xL} 은 phoneme transcription이다. 사전 훈련된 신경 코덱 모델을 사용하여 각 오디오 샘플을 Encodec(y) = C^(T×8)으로 인코딩합니다. 여기서 C는 Two-dimensional acoustic code matrix이고 T는 다운샘플링된 Speech 길이입니다. acoustic maxtrix c는 행 벡터 c t,:는 8 codes를 나타내고 열 벡터 c :,j 는 j번째 codebook을 표현한다. j ∈ {1, . . . , 8}. quantization 후 신경 코덱 디코더는 Decodec(C) ≈ yˆ 으로 파형을 재구성 된다.

<참고>

* Cokde book 이란?

신호같은 경우 푸리에나 웨이브렛 처럼 basis function의 선형적인 결합으로 표현 가능하다.

위 수식은 데이터 x를 A라는 기저함수의 집합에 s라고 불리는 벡터를 곱해주는 형식인데 여기서 A를 Codebook(또는 Dictionary)라고 부른다. (ref : https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=laonple&logNo=220914873095)

-> 파라미터 소개, 여기서는 codebook이 encodec에서 나온 벡터 값을 표현하는것 같다. <개인 의견>

Zero-shot TTS는 모델이 보이지 않는 화자의 고품질 음성을 합성해야 합니다. 본 논문에서는 Zero-shot TTS를 조건부 코덱 언어 모델링 작업으로 간주한다. Vall-E는 음향 코드 매트릭스 C를 생성하도록 학습합니다. C는 phoneme transcription x 와 3초 음성 프롬프트 C~ 를 조건부로 p(C|x, C˜)를 최대화 한다. (C~ 또한 Encodec에서 생성됨) 이 논문에서는 Vall-E가 각각 phoneme transcription와 음향 프롬프트(3초 녹음 C)에서 내용과 화자 정보를 추출하도록 학습할 것으로 기대합니다. 추론하는 동안 음소 시퀀스와 unseen speaker의 3초 등록 녹음이 주어지면 해당 콘텐츠와 화자의 음성이 포함된 음향 코드 매트릭스(3초 녹음 C)가 먼저 훈련된 언어 모델에 의해 추정됩니다. 그런 다음 신경 코덱 디코더가 고품질 음성을 합성합니다.

-> Vall-E 논문에서는 zero shot TTS를 코덱 언어 모델링 작업으로 간주한다.

4.2 Training: Conditional Codec Language Modeling

신경망 음성 코덱 모델(Encodec)을 사용하면 discrete audio representation으로 동작한다. 신경 코덱 모델의 hierachical 구조를 가지고 있다. 이전 양자화기의 토큰은 화자 식별과 같은 음향 속성을 복구하는 반면 연속 양자화기는 미세한 음향 세부 정보를 학습합니다. 각 양자화기는 이전 양자화기의 residual를 모델링하도록 훈련됩니다. 두 가지 조건부 언어 모델을 계층적으로 설계합니다.

-> Encodec 모델 설명 (이전 quantizer 는 speaker identity를 후자의 quantizer는 acoustic detail를 학습한다.) 이를 잘 모델링 하기 위해서 이 논문은 계층적으로 설계했다.

첫번째 quantizer(Encodec의 첫 줄) c:,1를 생성하기 위해서 언어 모델의 decoder-only autoregressive(AR)로 교육합니다. 입력으로는 phoneme sequence x 그리고 acoustic prompt (3초 음성이 encodec에서 C˜를 뽑은 후 첫번째 줄) C˜:,1 가 들어간다.

c˜:,1 와 c:,1는 concat 되어서 들어간다. 두개를 구별하기 위해서 <sep> 같은 특별한 토큰을 사용하지 않는다. inference할때는 c:,1는 c˜:,1로 autoregrssive하게 predicted 된다.

-> AR 모델 설명 (Autoregressive 한 모델, 여기서 acoutic prompt 도 1층만 사용했음. 아마도 AR 모델에서는 화자 ID에만 집중하고 싶어하는 것 같음 <아님 말구...>)

두 번째부터 마지막 quantizer(Encodec의 2번째 ~ 8번째, c:,j -> j∈[2,8])는 다음과 같이 표현된다. NAR(Non-autoregressive) 언어 모델을 교육합니다. 토큰은 NAR 방식으로 서로 접근할 수 없기 때문에(다른 층을 참고할 수 없다는 뜻인듯 왜냐면 NAR self attention으로 같은 층에 있는 애들은 참고할 수 있기 때문에) 화자 신원을 제한하기 위해 acoustic prompt C^~ 전체를 사용합니다. 따라서 모델의 입력으로 phoneme sequence x, acoustic prompt ^~, 이전 층에서 추정한 코드북 C :, <j 를 받는다..

-> NAR 모델 설명(AR 과 다르게 acoutic prompt C^~ 를 모두 사용한다.)

4.2.1 Autoregressive Codec Language Modeling

AR 모델에서 토큰을 생성합니다. 이는 phoneme embedding Wx , acoustic embedding Wa, a transformer decoder, prediction layer로 구성되어 있습니다. phoneme prompt는 language model(g2p -> IPA)의 음소 시퀀스를 사용합니다. 모델 입력의 x 와 c:,1 뒤에 두 개의 특수 <EOS> 토큰이 각각 추가됩니다. 토큰에는 sinuous 위치 임베딩을 사용합니다. causal transformer model의 경우 ct,1 는 그림 3 처럼 x 와 c≤t,1 를 attent 할수 있다. AR 모델은 다음 토큰의 확률을 최대화하도록 최적화됩니다. output projection layer의 매개변수를 acoustic embedding Wa 와 공유한다.

-> AR 모델 구성 요소 및 학습 방법 설명

AR 모델에서는 학습 시 audio clip을 추출하지 않습니다(하지만 first layer로도 음성이 생성되긴 함). 훈련 과정은 기존의 causal한 LM 학습 방법이다. 이런 식으로 이전 시퀀스 c<t,1 는 뒤에 나올 c≥t,1 를 생성할때 attention 할 수 있게 됩니다.추론하는 동안 등록된 녹음이 주어지면 등록된 녹음의 음소 시퀀스와 합성을 위한 음소 시퀀스를 함께 연결해야 합니다. 한편, c:,1은 AR 식과 같이 prefix로 사용됩니다. 우리는 expriment에서 이러한 점이 얼마나 효과적인지 확인할 것입니다.

-> AR이 next token을 생성할 때 어떻게 생성하는지 설명

4.2.1 Non-Autoregressive Codec Language Modeling

AR 모델로 첫 번째 줄의 결과 값(first quantizer codes)을 얻을 때 NAR(Non-autoregressive) 모델을 사용하여 나머지 7개의 결과값(seven quantizers)을 생성합니다. NAR 모델은 8개의 acoustic embedding layers를 포함한다는 점을 제외하면 AR 모델과 유사한 아키텍처를 가지고 있습니다. (AR c^~를 한줄만 사용했고 NAR은 C^~ 전체를 사용했기 때문에) 각 훈련 단계에서 무작위로 훈련 단계 i ∈ [2, 8]에서 샘플링합니다. (7층이 생성되니까 전체의 loss를 구하지 않고 한층만 뽑는다.) 모델은 i-번째 음향 토큰들을(quantizer codebook) 최대화하도록 훈련됩니다. (NAR은 한 줄, AR 은 토큰 하나 하나(어쨌든 이 친구도 한줄이긴함) ) 1단계부터 i-1 단계까지의 acoustic tokens 은 embedded 되고 더해져서 모델 input으로 다음과 같이 들어갑니다.

-> NAR이 AR과 다른 점을 설명한다.

여기서 ⊙ 인덱스 선택을 나타냅니다. phoneme sequence는 또한 language model의 프롬프트로 간주됩니다. 또한 주어진 화자의 고유한 음성을 복제하기 위해 등록된 acoustic token을 acoustic prompt로 사용합니다. 구체적으로, 먼저 Encodec을 사용하여 등록된 음성(3초 녹음 음성)을 C˜^T ×8 처럼 토큰화합니다. 8개 코드북 모두에서 포함된 표현은 음향 프롬프트 e_ct로 더해집니다. i-th 째 줄 (codebook)을 맞추기 위해 transformer의 input은 ex, ec^~, ec:<i 가 들어갑니다. 위치 임베딩도 prompt와 acoustic sequence에 대해 별도로 계산됩니다. i 번째 stage 네트워크에 Adaptive layer normalization operator를 추가한다. AdaLN(h, i) = ai * LayerNorm(h) + bi , h는 intermediate activations, ai 와 bi는 a linear projection of the stage embedding이다. AR과 달리 NAR 모델에서는 모든 input을 self-attention 계층에서 attention 할 수 있습니다. 또한 acoustic embedding layer와 output prediction layer의 매개변수를 공유합니다. j-th prediction layer는 (j+1)-th acoutic embedding layer와 같습니다.

-> NAR의 자세한 모델 구성 및 학습 방법 설명

4.3 Inference: In-Context Learning via Prompting

In-context learning은 추가 parameter 업데이트 없이 unseen input에 대한 레이블을 예측할 수 있는 텍스트 기반 언어 모델의 놀라운 기능입니다. TTS의 경우 모델이 미세 조정 없이 보이지 않는 화자의 고품질 음성을 합성할 수 있다면 해당 모델은 in-context learning 기능이 있는 것으로 간주됩니다. 그러나 기존 TTS 시스템의 상황 내 학습 기능은 추가 미세 조정이 필요하거나 보이지 않는 스피커에 대해 크게 저하되기 때문에 강력하지 않습니다.

-> In-context learning에 대한 설명 및 기존 TTS의 단점

언어 모델의 경우 zero-shot 시나리오에서 in-context learning을 활성화하려면 prompt가 필요합니다. 우리는 프롬프트와 추론을 다음과 같이 설계합니다. 먼저 텍스트를 음소 시퀀스로 변환하고 등록된 녹음을 음향 매트릭스로 인코딩하여 음소 프롬프트와 음향 프롬프트를 형성합니다. 두 프롬프트 모두 AR 및 NAR 모델에서 사용됩니다. AR 모델의 경우 beam search가 LM을 무한 루프로 이끌 수 있다는 것을 관찰했기 때문에 프롬프트에 따라 sampling based 디코딩을 사용합니다. 또한 sampling based 방법은 출력의 다양성을 크게 높일 수 있습니다. NAR 모델의 경우 greedy 디코딩을 사용하여 확률이 가장 높은 토큰을 선택합니다. 마지막으로 Encodec의 디코더를 사용하여 8개의 코드 시퀀스에 따라 wav를 생성합니다. 음향 프롬프트는 합성할 음성과 의미적으로 관련이 있을 수도 있고 없을 수도 있으며, 그 결과 다음과 같은 두 가지 경우가 발생한다:

VALL-E : 우리의 주요 관심사는 unseen speaker 화자를 위해 주어진 콘텐츠를 생성하는 것입니다. 모델에는 텍스트 문장, 등록된 음성 세그먼트 및 해당 전사가 제공됩니다. 주어진 문장의 음소 시퀀스에 등록된 음성의 전사 음소를 음소 프롬프트로 추가하고 등록된 음성의 첫 번째 계층 음향 토큰 acoustic prefix로 c˜:,1을 사용합니다. phoneme prompt와 acoustic prefix를 사용하여 VALL-E는 이 화자의 음성을 복제하는 주어진 텍스트에 대한 음향 토큰을 생성합니다. (이게 메인)

VALL-E -continual : 이 설정에서는 전체 전사와 발화의 처음 3초를 각각 음소 및 음향 프롬프트로 사용하고 모델에 연속을 생성하도록 요청합니다. 등록된 음성과 생성된 음성이 의미적으로 연속적이라는 점을 제외하면 추론 프로세스는 VALL-E 설정과 동일합니다 .

-> Vall-E의 inference 설명 및 다양한 응용

VALL-E 리뷰 - Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers (1)

abujiho — Wed, 15 Mar 2023 09:37:40 +0900

Abstract

TTS를 언어 모델링 방식으로 접근한 논문이다. 기존 TTS처럼 sectrogram이 아닌 오디오 코덱(Encodec)에서 압축된 정보를 사용하여 학습한다. pre-train 단계에서 TTS 훈련 데이터를 기존 시스템보다 수백 배 큰 6만 시간의 영어 음성으로 확장한다. VALL-E는 unseen speaker의 3초 녹음을 사용하여 고품질 개인화된 음성을 합성하는 데 사용할 수 있다. 실험 결과 VALL-E 는 SOTA zero shot TTS 시스템보다 훨씬 좋다. 그뿐만이 아니라 화자의 감정과 합성 시 음향 프롬프트의 음향 환경도 보존할 수 있다.

데모 페이지 -> https://aka.ms/valle

1. Introduction

지난 10년 동안 NN과 end-to-end model의 개발을 통해 음성 합성 분야에서 발전을 이루었습니다. 현재 계단식 텍스트 음성 변환(TTS) 시스템은 일반적으로 중간 표현으로 멜 스펙트로그램을 사용하는 음향 모델 및 보코더가 있는 파이프라인을 활용합니다. 고급 TTS 시스템은 단일 또는 다중 화자의 고품질 음성을 합성할 수 있지만, 여전히 녹음 스튜디오의 고품질 클린 데이터가 필요합니다. 인터넷에서 크롤링되는 대규모 데이터는 요구 사항을 충족하지 못하고 항상 성능 저하로 이어집니다. 교육 데이터가 상대적으로 작기 때문에 현재 TTS 시스템은 여전히 일반화가 좋지 않습니다. 제로 샷 시나리오에서 보이지 않는 화자에 대한 화자 유사성과 어음 자연성은 극적으로 감소합니다. 제로 샷 TTS 문제를 해결하기 위해 기존 작업은 speaker adaptation 및 speaker encoding, additional pre-tuning, complex pre-designed features 또는 heavy structure가 필요한 방법.

-> 기존의 TTS가 가지는 문제점(고품질 클린 데이터 필요, poor generalization...)을 설명 및 zero-shot TTS의 설명

이 문제에 대해 복잡하고 구체적인 네트워크를 설계하는 대신 궁극적인 해결책은 텍스트 합성 분야에서의 성공을 동기로 최대한 크고 다양한 데이터로 모델을 훈련시키는 것입니다. 최근 몇 년 동안 압축되지 않은 16GB 텍스트에서 텍스트 언어 모델의 데이터 증가에 대한 눈에 띄는 성능 향상을 목격했습니다, 160GB까지 , 570GB까지, 마지막으로 약 1TB. 이러한 성공을 음성 합성 분야로 옮기고, 크고 다양한 다중 화자 음성 데이터를 활용하는 최초의 언어 모델 기반 TTS 프레임워크인 VALL-E를 소개합니다. 표 1 에 도시된 바와 같이, 개인화된 음성(예를 들어, 제로샷 TTS)을 합성하기 위해, VALL-E는 3초 등록된 녹음 및 음소 프롬프트의 음향 토큰에 조건부로 대응하는 음향 토큰을 생성하여 화자와 콘텐츠를 제한한다. 마지막으로 생성된 음향 토큰은 해당 신경 코덱 디코더. 오디오 코덱 모델에서 파생된 개별 음향 토큰을 통해 TTS를 조건부 코덱 언어 모델링으로 취급할 수 있으며 고급 프롬프트 기반 대형 모델 기술(GPT에서와 같이) TTS 작업에 활용할 수 있습니다. 음향 토큰을 사용하면 추론 중에 다양한 샘플링 전략을 사용하여 TTS에서 다양한 합성 결과를 생성할 수 있습니다.

-> 모델링을 하는법 보다 크고 다양한 데이터를 학습하는것이 새로운 방법이다. Vall-E 는 이 작업을 처음 TTS에 적용했다. 3초 정도의 녹음 음성을 통해서 음성을 생성한다.

논문에서는 LibriLight로 VALL-E를 훈련합니다, 7000명 이상의 고유한 화자가 있는 60,000시간 분량의 영어 음성으로 구성된 데이터 세트입니다. LibriLight는 음성만 존재하기 때문에 음성 인식 모델을 사용하여 스크립트를 생성합니다. LibriTTS와 비교하자면 LibriLight는 시끄러운 음성과 부정확한 필사본이 포함되어 있지만 다양한 화자와 운율을 제공합니다. Vall-E는 노이즈에 강하고 대용량 데이터를 활용하여 잘 일반화한다고 생각합니다. 기존 TTS 시스템은 항상 수십 시간의 단일 화자 데이터 또는 수백 시간의 다중 화자 데이터로 학습되며 이는 VALL-E 보다 수백 배 이상 작다는 점은 주목할 가치가 있습니다 . 표 1 은 오디오 코덱 코드를 중간 표현으로 사용하고 크고 다양한 데이터를 활용하여 강력한 상황 내 학습 기능을 제공하는 TTS용 언어 모델 접근 방식인 VALL-E 의 장점을 요약한 것입니다 .

-> Vall-E를 학습하기 위해서 LibriLight를 사용(스크립트는 STT 모델로 생성)

우리는 LibriSpeech 및 VCTK 데이터세트에서 VALL-E를 평가합니다, 여기서 모든 테스트 화자는 train data에 포함되어 있지 않다. VALL-E는 최첨단 제로 샷 TTS 시스템을 훨씬 능가합니다. LibriSpeech에서 +0.12 CMOS 및 +0.93 SMOS 개선으로 음성 자연성 및 화자 유사성 측면에서. VALL-E는 또한 +0.11 SMOS 및 +0.23 CMOS 개선으로 VCTK의 기준선을 능가합니다. 그것은 심지어 실측에 대해 +0.04 CMOS 점수를 달성하여 보이지 않는 화자의 합성된 음성이 VCTK에서 사람이 녹음하는 것만큼 자연스럽다는 것을 보여줍니다. 또한, 정성 분석은 VALL-E가 동일한 텍스트 및 대상 화자로 다양한 출력을 합성할 수 있음을 보여주며, 이는 음성 인식 작업을 위한 의사 데이터 생성에 도움이 될 수 있습니다. 우리는 또한 VALL-E가 음향 프롬프트의 음향 환경(예: 잔향)과 감정(예: 분노)을 유지할 수 있음을 발견했습니다.

-> LibriSpeech랑 VCTK 데이터 세트에서 확인한 결과 성능이 뛰어나다. 그뿐만 아니라 음향 환경, 감정 또한 유지할 수 있음을 확인

요약하면 다음과 같은 기여를 합니다.

• 논문에서는 TTS를 오디오 코덱 코드를 중간 표현으로 사용하여 기존 mel 스펙트로그램을 대체하는 언어 모델 작업으로 취급하는 GPT-3와 같은 강력한 상황 내 학습 기능을 갖춘 최초의 TTS 프레임워크인 VALL-E를 제안합니다 . 상황에 맞는 학습 기능을 갖추고 있으며 이전 작업과 같이 추가 구조 엔지니어링, 미리 설계된 음향 기능 및 미세 조정이 필요하지 않은 제로샷 TTS에 대한 신속한 기반 접근이 가능합니다.
• 우리는 엄청난 양의 준지도 데이터를 활용하여 화자 차원에서 일반화된 TTS 시스템을 구축합니다. 이는 준지도 데이터의 단순한 확장이 TTS에 대해 과소 평가되었음을 시사합니다.
• VALL-E는 동일한 입력 텍스트로 다양한 출력을 제공할 수 있으며 음향 프롬프트의 음향 환경과 화자의 감정을 유지할 수 있습니다.
• 우리는 VALL-E가 제로 샷 시나리오에서 프롬트하여 화자 유사도가 높은 자연스러운 음성을 합성함을 확인합니다 . 평가 결과는 VALL-E가 LibriSpeech 및 VCTK에서 최첨단 제로샷 TTS 시스템보다 훨씬 뛰어난 성능을 보인다는 것을 보여줍니다.

-> 정리

논문 리뷰를 위한 블로그

abujiho — Sat, 11 Mar 2023 16:12:44 +0900

speech 관련 업무를 진행하고 있습니다.

항상 논문을 읽고 정리를 안 해서 까먹기도 하고 새로운 논문을 읽을 필요성을 느껴 블로그를 시작해 봅니다. (물론 커피값도 벌고...)

유령 블로그가 될 수 있겠지만 그래도 일주일에 하나씩 올리는 걸 목표로 해보겠습니다.