全文共2634字,预计学习时长7分钟
经常听到有人说,我除了自己的眼睛,什么也不信。
自从09年阿凡达(Avatar)电影上映以来,3D渲染、虚拟现实的逼真度总是让人叹为观止。
而今,10年过去,最近计算机视觉领域顶级会议CVPR上一组研究人员提出一款神经阿凡达模型(Neural Avatars),充分向我们证明:
当魔幻现实照进生活日常,AI黑科技让你不再相信“眼见为实”。
本届CVPR黑科技之一:造动态表情包
上周的CVPR会议上,来自三星AI中心和莫斯科Skolkovo研究所的研发团队就用实验结果告诉我们:你眼所见,未必都是真的。
该团队先是提出了一个能让JPG变动图的AI系统,研究人员称其为“Few-shot”模型。
通过该模型,你只需要少量甚至一张静态图片,就可以生成表情丰富的动态表情包。让历史人物“活”起来,甚至变得像话痨一样絮絮叨叨,都是so easy~
跟你讲相对论原理的爱因斯坦、除了微笑还能朝你眨眼的蒙娜丽莎,甚至还有媚眼如丝的玛丽莲梦露。
这些都将不再只是存在于霍格沃茨魔法学院的魔幻场景。
尽管这项技术对于高分辨率的图片还是有一些处理瑕疵,但在低分辨率动图上,几乎可以以假乱真。
就在这篇论文发布的第二天,该团队成员又紧接着发布了第二项黑科技,这下不仅你的表情包,就连你的整个身体都可能是“假”的。
本届CVPR黑科技之二:不止可以造脸,全身也行
比方说,给你一张全身照,通常的技术方案生成的人体渲染可能只是固定的摄像角度和有限的身体姿势。这样造出来的人像,就很假。
然而三星提出的这个新的神经渲染模型,可以在有限的摄像头视角和数据集基础上,泛化出多角度的图像视角和丰富的人体姿态。
团队成员通过建立人体姿态神经网络渲染模型来训练单个人的身体姿态数据,从而获得原输入姿势的新视角和新姿态。
通过将经典的计算机图形(Computer Graphics)方法与深度神经网络进行结合,从而估计模型表面的2D纹理映射。其研究结果表明,与直接从图像到图像的转化(Image-to-Image translation)方法相比,保留个性化的纹理映射可以实现更好的泛化。
对于图像到图像的风格转换问题,一般都是先通过训练来学习输入图片的风格,然后将其“学”来的特征映射到输出图片中,让输出图片和输入图片尽可能保证风格一致。
但由于风格一致的可配对训练图片实在是少见,很多研究人员不得不另辟蹊径。包括模型的泛化问题也必须给予考虑。
事实上,目前很多Image-to-Image translation模型在图片的纹理、颜色的图片风格转换任务中的表现已经相当优秀,比如把马变成斑马,或者把橘子变成苹果,但要是想把猫变成狗就有点困难了。
这也是为什么咱们要反复强调泛化能力的原因所在。一个模型真正强大的地方在于其可以通用,也就是我们常说的良好的泛化能力。
目前的一些模型虽然可以改变人的面部表情或是修饰人的身体姿态,但真实性和模型的变化量都非常有限。本文中的该模型不仅可以通过视频进行训练,还可以从表面几何或是运动建模中分离纹理,因此可以处理更复杂的任务(比如多视角的全身视图)以及生成更逼真的图像渲染。
咱们具体来看看这个被称为神经阿凡达的“Textured Neural Avatars”模型
不难看出,模型输入的是一组身体关节的位置点,通过一个全卷积网络(图中的Generator)来生成身体部位坐标和身体部位分配的映射堆栈。然后使用这些堆栈在坐标堆栈指定的位置处对身体纹理进行采样映射,并使用身体部位分配的堆栈所指定的权重来生成RGB图像。
在学习过程中,将图像掩膜和RGB图像与真实图像(Ground truth)进行比较,并通过采样操作将产生的损失反向传播到全卷积网络及纹理上来更新权重。
简单来说,就是只要给系统输入一个姿态骨架(Bone)图片,你就可以生成真人JPG彩图,还是带动作的全身360度无死角图。
科幻大片里抬起手腕就能弹出真人影像的场景,指日可待。
黑科技背后:须警惕,但不必恐慌
事实上,除了三星,目前全世界各地有多家公司和研究中心都在研发此类黑科技,其中不乏有来自德国慕尼黑工业大学、斯坦福大学的团队研发的曾一度饱受争议的“换头”AI:HeadOn。
还有德国纽伦堡大学实验室研发的让普京跟你对口型的脸部追踪AI:Face2Face。
也包括日本用来自动生成身体和动作的服装广告界新宠:AI Model。
甚至还有英伟达公司用来一键改变时间和天气的换景AI。
拥有了这些黑科技,未来通过动图or视频去判断事件真伪的可信度也将大打折扣,尤其对于公众人物来说,可能不仅仅是被“换脸”,连各种囧事和花边新闻都可以被生造了。
对于普通人来说,万一不小心得罪了谁,被捏造一些不雅的动图or视频上传到社交平台,甚至是被某些不法分子用来要挟勒索家人,那就很恐怖了。
技术本身无分善恶,但是技术的使用者有好有坏。
未来技术能够发展到什么程度我们无法想象,我们必须对技术可能会产生的恶果予以警惕。
但事实上,就目前而言大可不必过于担忧。诚如三星AI中心所言,其模型的泛化能力可能相较于其他方法来说表现略佳,但还是存在诸多限制。
比如,当一个身材比例与训练数据集有显著差别的人出现时,模型就表现堪忧了。当光照显著影响表面颜色时,渲染效果也会大打折扣。
另外,在手和面部姿态估计错误的情况下,渲染出的人像就会显得极其不自然。
就算未来人像渲染会更加逼真,但总归来说,人的个性和特质是很难被模仿和复制的。
想象一下,你平时笑的时候都习惯了露十八颗牙,动图里的你笑起来只露八颗是不是一秒就露馅了?
(手动滑稽)
留言 点赞 关注
我们一起分享AI学习与发展的干货
欢迎关注全平台AI垂类自媒体 “读芯术”