每日洞察

精选 1 篇,从 12800+ 条中筛选

AI深度解读

内容由AI生成,仅供参考
Hugging Face 2025-12-22

ekwek/Soprano-80M:实时高保真TTS,15ms无缝流合成

Soprano-80M是一款轻量级的开源文本到语音(TTS)模型,专为实时、高保真语音合成设计。该模型具有80M参数,实现了高达2000倍的实时因子,能够在20秒内生成10小时的音频。Soprano使用无缝流技术,在15毫秒内实现真正的实时合成。模型基于Qwen3架构,解码器是Vocos模型,经过LLM输出隐藏状态的微调。Soprano在HuggingFace平台上表现优异,具有高下载量和点赞数,适用于需要快速、高效语音合成的场景。