
Zero-Shot Text-to-Speech with Masked Generative Codec Transformer
使用掩码生成编解码器转换器的 Zero-Shot Text-to-Speech
Abstract The recent large-scale text-to-speech (TTS) systems are usually grouped as autoregressive and non-autoregressive systems. The autoregressive systems implicitly model duration but exhibit certain deficiencies in robustness and lack of duration controllability. Non-autoregressive systems require explicit alignment information between text and speech during training and predict durations for linguistic units (e.g. phone), which may compromise their naturalness. In this paper, we introduce Masked Generative Codec Transformer (MaskGCT), a fully non-autoregressive TTS model that eliminates the need for explicit alignment information between text and speech supervision, as well as phone-level duration prediction. MaskGCT is a two-stage model: in the first stage, the model uses text to predict semantic tokens extracted from a speech self-supervised learning (SSL) model, and in the second stage, the model predicts acoustic tokens conditioned on these semantic tokens. MaskGCT follows the mask-and-predict learning paradigm. During training, MaskGCT learns to predict masked semantic or acoustic tokens based on given conditions and prompts. During inference, the model generates tokens of a specified length in a parallel manner. Experiments with 100K hours of in-the-wild speech demonstrate that MaskGCT outperforms the current state-of-the-art zero-shot TTS systems in terms of quality, similarity, and intelligibility.
抽象最近的大规模文本转语音 (TTS) 系统通常分为自回归和非自回归系统。自回归系统隐式地模拟了持续时间,但在稳健性和缺乏持续时间可控性方面表现出一定的缺陷。非自回归系统在训练期间需要文本和语音之间的显式对齐信息,并预测语言单位(例如电话)的持续时间,这可能会损害它们的自然性。在本文中,我们介绍了 Masked Generative Codec Transformer (MaskGCT),这是一种完全非自回归的 TTS 模型,无需在文本和语音监督之间提供明确的对齐信息,也无需电话级别的持续时间预测。MaskGCT 是一个两阶段模型:在第一阶段,模型使用文本来预测从语音自我监督学习 (SSL) 模型中提取的语义标记,在第二阶段,模型预测以这些语义标记为条件的声学标记。MaskGCT 遵循掩码和预测学习范式。在训练过程中,MaskGCT 学习根据给定的条件和提示预测掩蔽的语义或声学标记。在推理过程中,模型以并行方式生成指定长度的 Token。对 100K 小时野外语音的实验表明,MaskGCT 在质量、相似性和可理解性方面优于当前最先进的零样本 TTS 系统。
System Overview 系统概述

Figure 1. An overview of our MaskGCT system. MaskGCT consists of four main parts: (1) a speech semantic representation codec converts speech to semantic tokens; (2) a text-to-semantic model predicts semantic tokens with text and prompt semantic tokens; (3) a semantic-to-acoustic model predicts acoustic tokens conditioned on semantic tokens; (4) a speech acoustic codec reconstructs speech waveform from acoustic tokens.
图 1.我们的 MaskGCT 系统概述。MaskGCT 由四个主要部分组成:
(1) 语音语义表示编解码器将语音转换为语义标记;
(2) 文本到语义模型使用文本和提示语义标记预测语义标记;
(3) 语义到声学模型预测以语义标记为条件的声学标记;
(4) 语音声学编解码器从声学标记重建语音波形。
Zero-shot In-context Learning
零样本上下文学习
The first four prompt audios are from the demo page of Seed-TTS.
数据统计
数据评估
关于MaskGCT特别声明
本站哆咪虾提供的MaskGCT都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由哆咪虾实际控制,在2024-12-26 上午11:01收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,哆咪虾不承担任何责任。
相关导航

Fineshare FineVoice 是一个多功能的 AI 语音工作室,可以帮助您快速创建高质量的配音,声音自然且独特。

Poly.ai
我们现在正在构建下一代语音助手,能够在客户服务中处理真正的人类对话。

呱呱有声
配音神器官网_文字转语音神器_配音神器pro_语音合成软件_专业配音神器_AI配音神器

Viggle AI
Viggle AI 是一款开创性的可控视频生成平台,由 JST-1 驱动,这是一款具有深刻物理理解的首选视频-3D 基础模型。这个 AI 系统让任何想要制作虚构恶作剧的人都可以像使用视频编辑程序一样轻松做到。

魔音工坊
魔音工坊是一款可以在线将文字转成语音的智能配音产品。提供不同性别、不同口音的真人声音,在你输入文字后直接配音。你可快速对短视频等需要配音的内容进行配音。是一款功能强大AI语音合成神器。

Speechify
用 AI 语音阅读速度提升 3 倍。让 文本转语音为您朗读。

酷音
酷音网是一个真人配音与AI配音、视频拍摄与制作、音乐作词与谱曲、视频策划与创意等领域的创作、交易、推广运营于一体的音视频交易服务平台,致力于打造专注音视频领域的商业生态圈

Talking Avatar
一款基于AI的虚拟人物生成工具
暂无评论...