阿里巴巴推出全新生成式AI模型EMO,让照片中的人物“活”起来

镜宇 195 0

2月28日,阿里巴巴智能计算研究所发布了一款全新的生成式AI模型EMO(Emote Portrait Alive)。EMO仅需一张人物肖像照片和音频,就可以让照片中的人物按照音频内容“张嘴”唱歌、说话,且口型基本一致,面部表情和头部姿态非常自然。EMO不仅能够生成唱歌和说话的视频,还能在保持角色身份稳定性的同时,根据输入音频的长度生成不同时长的视频。

阿里巴巴推出全新生成式AI模型EMO,让照片中的人物“活”起来

EMO的技术原理是基于一种称为“扩散模型”的深度学习方法,该方法可以从高维数据中提取低维特征,从而实现从音频到视频的直接合成,无需借助中间的3D模型或面部标记。EMO的创新之处在于,它不仅考虑了音频和视频之间的同步性,还考虑了音频和视频之间的语义一致性,即视频中的人物表情和姿态要与音频中的语气和情感相匹配。

EMO的应用场景非常广泛,例如,它可以用来制作个性化的音乐视频、教育视频、社交视频等,也可以用来恢复历史人物的声音和形象,或者为虚拟人物赋予生命力。EMO的发布引起了国内外的关注和讨论,一些媒体和专家认为,EMO展示了生成式AI的强大能力和潜在价值,也提出了一些关于生成式AI的伦理、法律和社会问题,例如,如何保护个人隐私和肖像权,如何防止生成式AI被滥用和造假,如何评估生成式AI的质量和可信度等。

信息来源:

1 阿里巴巴智能计算研究所发布全新生成式AI模型EMO,让照片中的人物“活”起来. 虎嗅.

2 EMO: Emote Portrait Alive - Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions. arXiv.

3 EMO - 阿里推出的AI肖像视频生成框架. AI工具集.

4 Meet Emote Portrait Alive (EMO), From Alibaba AI. Dataconomy.

5 生成式人工智能模型:应用、挑战与前景. 百度智能云.

6一文带你了解生成式AI及其未来趋势. 知乎.


抱歉,评论功能暂时关闭!