在上周发表在印前服务器Arxiv.org上的一篇论文中,来自脸书人工智能研究中心和特拉维夫大学的科学家提出了一种新技术,可以以逼真和高分辨率的方式将人插入到现有图像中。该技术利用人工智能技术,可以创建一个人的语义图,在给定的图片中估计其他人的姿势,然后渲染人的像素,生成与目标人物匹配的人脸。
虽然将人插入框架中似乎不是人工智能最实际的应用,但它可能会给创意行业带来好消息,因为在这些行业中,照片和电影的翻拍成本往往很高。例如,有了这个新提出的人工智能系统,摄影师可以数字插入演员,而无需花费数小时在图像编辑软件中实现正确的效果。
研究人员使用了三个模型:
本质生成网络(EGN),其合成新图像中目标人物的语义姿态信息。
一个多条件呈现网络(MCRN),它呈现给定语义姿势图的真实角色和分割的目标角色。
人脸细化网络(FRN)用于修饰生成人脸的高级功能。
EGN被训练捕捉图像中的人类互动,并想出一个连贯的方法让一个新人加入图像。它创建的语义图以与现有人类背景兼容的方式表示背景、头发、面部、躯干、上肢、上身、下身、下肢和鞋子。可选地,它支持使用边界框(临时轮廓)来指定新用户的大致大小和位置。
至于MCRN,它学会了将真人渲染并混合到图像中,以创建新的图像,并嵌入目标人物的外观属性(例如,衬衫、裤子和头发的颜色)。通过这种方式,他们可以定制它。然后,FRN对从原始图像中获得的新面孔进行微调。
在实验过程中,共同作者从开源的多人分析数据集中随机选择了20,000多幅图像,并对EGN和MCRN进行了训练。这些图像被翻译成51,717到53,598个训练样本。当人类志愿者被要求区分插入人工智能系统的人和其他照片中的人时,他们这样做的平均时间为43%,而在包含五个人的照片中,这一比例仅为28%。
两位作者承认他们的方法有局限性,即不能产生在照片中隐藏他人的人,不适合针对人及其属性。(后者的结果是目标角色的发型与目标角色不同,对场景中角色的顺序缺乏控制。但是他们相信这些问题可以通过改进训练技术来克服。
“总的来说,我们已经展示了修改图像的能力,在保持整体图像质量的同时,坚持了场景的语义,”合著者写道。"我们展示了将目标人物添加到现有图像中的令人信服的能力."
脸书团队的工作基于谷歌提出的人工智能系统,该系统可以真正将物体(如汽车和行人)插入照片中。一些模型试图预测物体的遮挡、比例、姿态、形状以及更多关于目标位置的信息。与此同时,麻省理工学院的研究人员开发了一种图像编辑人工智能,可以替代任何图像中的背景。
标签: