Google 最新 AI 简直绝了,超绝了自己,能让 Imagen 指定生成对象,且风格还能随意转换。只需上传 3 至 5 张指定物体照片,再以文字描述自己想要生成的背景、表情以及动作,就能让指定物体“活”起来了,不止是动物,就连其他物体都能做到以假乱真,其中包括了墨镜、书包、花瓶等等。这项技术足以以假乱真,就算发朋友圈别人也看不出破绽。
这项最新研究成果名为 DreamBooth,在 Imagen 的基础上进行了调整,并把结果发布在 Twitter 上,引发热议。评论区底下一众网民也在感叹:“这简直就是最先进的梗图生成器!”
举个例子,如果你是一名铲屎官,有了这个“换景能力”,你就能让足不出户的爱宠走出家门了,凡尔赛宫殿、富士山脚下通通不是问题,而且光照也很自然。此外,就连爱宠的表情和动作我们都能把控,睡觉、沮丧、伤心、欢乐、狂吠、哭泣等等表情都不在话下。除了上面面部的操纵以外,DreamBooth 也能更换各种照片风格,就是俗称的加滤镜,模仿“世界名画”的风格也不是问题,甚至还能 cosplay 各种角色!最令人感到惊讶的是,就连物种的类别 AI 都能更换,比如狗变成熊、熊猫、考拉等等。
对于这个魔幻的研究成果,相关研究人员表示他们只给输入加了个特殊标识符,相较于其他大规模文本-图像模型如 DALL-E2、Imagen 等,只有采用 DreamBooth 的方法,才能做到对输入图像的忠实还原。下图呈现了对比,DreamBooth 生成的图像完美保留了钟表的所有细节,但 DALL-E2 和 Imagen 几次生成的钟都与原来的钟“有那么点差异”。对比结果透露了,DreamBooth 最大的优势在于个性化表达,物体能在不同的背景新颖地展示,同时又能保留它的关键特征。
对于 DreamBooth 的研究团队,想必大家也是好奇满满,它的第一作者来自 Google 的 Nataniel Ruiz,他是一名波士顿大学图像和视频计算组的四年级博士生,目前在 Google 实习,其主要研究方向是生成模型、图像翻译、对抗性攻击、面部分析和模拟。
资料来源:IT之家