Hugging Face
2025-12-22
ekwek/Soprano-80M:实时高保真TTS,15ms无缝流合成
Soprano-80M是一款轻量级的开源文本到语音(TTS)模型,专为实时、高保真语音合成设计。该模型具有80M参数,实现了高达2000倍的实时因子,能够在20秒内生成10小时的音频。Soprano使用无缝流技术,在15毫秒内实现真正的实时合成。模型基于Qwen3架构,解码器是Vocos模型,经过LLM输出隐藏状态的微调。Soprano在HuggingFace平台上表现优异,具有高下载量和点赞数,适用于需要快速、高效语音合成的场景。