GLM-TTS-智谱出品，3秒克隆音色

0.0 0 评分
48 累计下载
Web
全年龄段

应用详情

智谱最新开源的 GLM-TTS 是一款面向工业级生产的 AI 文本转语音（TTS）模型。它在保证发音准确性（低错误率）的同时，实现了接近真人的情感表现力，大大降低了高质量语音合成的应用门槛。

🏷️关键特点简单说
3秒音色克隆：上传几秒清晰语音，AI就能模仿你的音色、语速甚至方言
会带情绪的朗读：不止是快乐，悲伤、生气等情绪也能自然表达
超低错误率：生僻字、多音字、公式符号都难不倒它

💡技术不复杂但很强
只用单机训练4天就达到SOTA水平
定制个人音色只需微调少量参数，1天就能完成
支持长文本朗读，适合做有声书、课程旁白

🚀 极速音色克隆
3秒复刻：仅需 3秒（或至少 5 秒内）清晰语音样本，即可克隆说话人的音色、节奏、断句习惯甚至方言（如四川话）。
高相似度：在保证极低错误率的前提下，保持了高音色相似度，兼顾“发音准确”与“音色还原”。

✨ 情感表达 SOTA (双重领先)
全情感覆盖：模型突破了现有商用 TTS 多集中优化“Happy”情绪的局限，在 Happy、Sad、Angry 三类情绪上均取得了开源 SOTA 表现（平均情感得分 0.51）。
低字错误率：在权威 seed-tts-eval 中文测试集上，引入强化学习后的 GLM-TTS_RL 字符错误率（CER）降至仅 0.89%，达到开源 SOTA。

客观，给个评价呗

0.0 0 Reviews