近日,腾讯 AI Lab携手香港中文大学(深圳)、南京大学联合研发的歌曲生成模型SongBloom,不仅成功实现开源,更凭借突破性技术成果,相关研究成果被全球顶级人工智能会议NeurIPS 2025录用,为音乐 AI 领域再添重磅突破。

作为一款聚焦歌曲生成的创新模型,SongBloom 只需输入 10 秒参考样本与对应歌词,即可生成双通道/48kHz, 2 分 30 秒的完整歌曲。更值得关注的是,在主客观双重评测中,SongBloom 不仅全面超越现有开源模型,更在音频质量与歌词准确性两大核心维度上取得了非常优秀的效果;同时在音乐性表现上,也达到了接近领域最佳水平(SOTA)的高度。以下是模型的生成效果。

在长时序歌曲生成这一技术难点上,行业现有方案始终面临 “精度” 与 “质感” 难以两全的困境:一类是基于统一非自回归(NAR)架构的方法,多依赖扩散模型对整首歌曲进行全局建模,虽在生成效率与整体音乐性上具备优势,但因缺乏逐步时间依赖约束,难以精准捕捉歌词文本与音频的对应关系,导致生成结果稳定性欠佳;另一类是基于自回归(AR)框架的方法,通常借助大规模语言模型,将生成过程拆分为语义阶段和声学阶段,先预测离散的语义token,再映射为声学表示,这种方式能够较好地保持歌词与旋律的时序一致性,但由于离散token在建模中不可避免地丢失细粒度声学信息,最终生成的歌曲在音色质感等方面容易出现质量下降。

请在此添加图片描述

针对以上问题,SongBloom 实现了两大颠覆性技术创新:

● 首次将自回归扩散模型引入长时歌曲生成任务。模型以离散的 sketch token 作为 “链式思维” 式中间提示,结合 VAE latent(变分自编码器潜在空间)输出最终结果 —— 这一设计既完整保留了自回归模型在结构连贯性、音素对齐上的优势,又充分发挥了扩散模型在连续特征生成中对音质的提升作用,最终实现 “结构稳、细节满、表现力强” 的歌曲生成效果。

请在此添加图片描述

● 团队创新提出交替生成范式(interleaved generation)。该范式可在 “语义 - 声学” 两类上下文间动态切换,既能牢牢把控歌曲整体结构逻辑,又能精细优化局部音质表现,为音乐 AI 生成研究开辟了全新技术路径。

在客观指标层面,SongBloom 的美学评分不仅远超开源基线模型,更与顶尖商用模型 持平甚至实现超越;同时,模型具备极强的歌词 follow 能力,大幅减少 “幻觉生成”(生成内容与歌词不匹配)现象,显著降低了音素错误率(PER),让歌词准确性达到行业新高度。

请在此添加图片描述

在主观听感评测中,SongBloom 的表现同样惊艳。得益于 VAE latent 保留的丰富声学细节,其人声音质细腻度直接超越目前顶尖闭源商业模型 Suno-v4.5;而在音乐性上,也达到了媲美甚至超越部分闭源商业模型的水平,让 “AI 生成音乐” 更贴近专业创作质感。

请在此添加图片描述

目前相关代码及模型权重已开源。此外,相应的完整240s版本以及文本控制模型也将在后续发布。

Demo Page

https://cypress-yang.github.io/SongBloom_demo

项目主仓库

https://github.com/tencent-ailab/SongBloom

论文链接

https://arxiv.org/abs/2506.07634

关注腾讯开源公众号

获取更多最新腾讯官方开源信息!

加入微信群即可了解更多“腾讯开源新动态”

开源、#歌曲生成模型、#音乐AI、#腾讯、#SongBloom

文章来源于腾讯云开发者社区,点击查看原文