logo
科技新闻,每天 3 分钟
可让照片人物 「开口说话」,阿里巴巴研究团队推出 AI 框架 「EMO」
3 月 1 日

阿里巴巴研究团队开发了一款名为「EMO」的 AI 框架,能通过输入人物照片和音频实现对口型,让照片中的人物开口说话,支持中英韩等语言。该框架基于英伟达的 Audio2Video 扩散模型,经过超过 250 小时的专业视频训练。研究团队已在 ArXiv 上发布模型工作原理,并在 GitHub 上开源项目。EMO 框架的工作过程分为特征提取和视频生成两个阶段,并融合了两种注意机制和时间模块以确保视频的自然流畅。实验表明,EMO 在生成说话视频和歌唱视频方面优于现有竞品。

行业标签
二维码

更多体验

前往小程序

二维码

24 小时

资讯推送

进群体验