GLM-TTS-智谱出品,3秒克隆音色

  • 4 1 评分
  • 10 累计下载
  • Web
  • 全年龄段

应用详情

智谱最新开源的 GLM-TTS 是一款面向工业级生产的 AI 文本转语音(TTS)模型。它在保证发音准确性(低错误率)的同时,实现了接近真人的情感表现力,大大降低了高质量语音合成的应用门槛。

🏷️关键特点简单说
3秒音色克隆:上传几秒清晰语音,AI就能模仿你的音色、语速甚至方言
会带情绪的朗读:不止是快乐,悲伤、生气等情绪也能自然表达
超低错误率:生僻字、多音字、公式符号都难不倒它

💡技术不复杂但很强
只用单机训练4天就达到SOTA水平
定制个人音色只需微调少量参数,1天就能完成
支持长文本朗读,适合做有声书、课程旁白

🚀 极速音色克隆
3秒复刻: 仅需 3秒(或至少 5 秒内)清晰语音样本,即可克隆说话人的音色、节奏、断句习惯甚至方言(如四川话)。
高相似度: 在保证极低错误率的前提下,保持了高音色相似度,兼顾“发音准确”与“音色还原”。

✨ 情感表达 SOTA (双重领先)
全情感覆盖: 模型突破了现有商用 TTS 多集中优化“Happy”情绪的局限,在 Happy、Sad、Angry 三类情绪上均取得了开源 SOTA 表现(平均情感得分 0.51)。
低字错误率: 在权威 seed-tts-eval 中文测试集上,引入强化学习后的 GLM-TTS_RL 字符错误率(CER)降至仅 0.89%,达到开源 SOTA。

客观,给个评价呗

4 1 Reviews

5
4
3
2
1