Stability AI 推出了名为 Stable Audio Open 的开源音频生成模型,该模型可以根据用户输入的提示词生成长达 47 秒的高质量音频样本,包括鼓点、乐器旋律、环境音和拟声音效等。该模型基于 transforms 扩散模型,在自动编码器的潜在空间中操作,以提高生成音频的质量和多样性。用户可以在 HuggingFace 上试用这一模型。