鹅厂最新AI工具来袭!杨幂多风格照片秒生成,LeCun点赞

2024-01-18

声明:文章来自微信公众号量子比特(ID:QbitAI),作者:白角,站长之家授权转载发布。

大厂已经开始卷土重来了!

字节阿里巴巴的工具火了,现在腾讯新出的照片生成应用PhotoMakerSwipe直接屏幕看这场战斗...

只需上传一张或多张照片,不需要额外的LoRA训练,就可以快速定制。任何人,任何风格,高保真类型。

几秒钟之内,LeCun 就变身为钢铁侠。但随后LeCun转发称文艺复兴时期的绘画风格是他的最爱。

杨幂各种风格的照片层出不穷。

此外,还有更多有趣的功能,目前提供应用演示免费体验。

快来体验吧提前。

PhotoMaker刷新屏幕

综上所述,PhotoMaker主要有以下三个功能:

首先 < strong>可以根据描述生成多种风格的个人照片。

比如,你见过这样的黑寡妇吗?

这是一张照片,还可以二维世界中可以看到,也可以生成。

第二,混合不同的字符特征,生成新的字符形态

发挥你的想象力,奥特曼和乔布斯“生”的孩子可能是这样的???

甚至可以打破维度联盟!

另外,还有一些小细节,修改年龄、性别、照片年等。

你见过马斯克小时候吗?

当LeCun成为几十年大妈的时候……

目前研究团队给出了两个体验版本:官方原版版本和风格化版本。在风格化版本中,要达到更好的效果,只需要更改基本模型并添加LoRA模块即可。

但是,两个版本之间没有区别。主要分为三个步骤。

首先上传你想要自定义的照片。可以使用一张,也可以使用多张照片。

值得注意的是,他们在这里强调,不会进行人脸检测,但上传的图片中人脸已经占据了图片的大部分。

其次,输入文字提示,并确保在要自定义的类别词后添加触发词:img

例如:man img或女人img或女孩img。

然后选择您喜欢的风格和风格模板,d 就可以生成了。

但是现在实际测试中,效果会比较慢,可能用的人太多了。

如何实现?

简单来说,PhotoMaker 采用了一种简单有效的表示方法——堆叠 ID 嵌入。

p>

它可以将多个身份 (ID) 图像的信息合并为统一的数据结构,从而可以更好的保存单个ID信息,整合多个不同的ID特征。

具体来说,首先从文本中获取文本嵌入和图像嵌入分别是编码器和图像编码器。然后,通过合并相应类别嵌入(例如性别)和每个图像嵌入,提取融合嵌入。然后,沿着长度维度连接所有融合嵌入,形成堆叠的 ID 嵌入。最后输入到Diffusion Model中生成图像。

由于训练过程需要使用按ID分类的数据集,b但现有的数据集要么没有标注的ID信息,要么包含的场景丰富度有限,比如只关注面部区域。

为此,研究人员还专门构建了一个面向ID的文本图像数据集构建pipeline可以根据不同的ID进行分类。每个ID有多个图像,其中包括不同的表情、属性、场景等。

需要注意的是,虽然同一个ID图像训练过程中使用带有背景遮蔽的图形,在推理过程中,可以直接输入不同的ID,而无需背景遮蔽图形来创建新的ID。

实验结果表明,与其他方法相比,PhotoMaker具有较高的识别率。 - 优质且多样的生成能力,以及可编辑性和保真度。

< p>此外,这种方法还可以实现更多以前难以实现的有趣功能。例子包括改变年龄或性别,将旧照片或艺术品中的人物还原到现实中,并混合身份。

好了,感兴趣的朋友可以点击下面的链接来玩~

https://huggingface.co/spaces/TencentARC/PhotoMaker

https://huggingface.co/spaces/TencentARC/PhotoMaker

https://huggingface.co/spaces/TencentARC/PhotoMaker

https://huggingface.co/spaces/TencentARC/PhotoMaker /huggingface.co/spaces/TencentARC/PhotoMaker-Style

论文链接:

https://arxiv.org/abs/2312.04461

项目链接:

https://github.com/TencentARC/PhotoMaker?tab=readme-ov-file#start-a-local-gradio-demo

标签:

版权声明

AI导航网内容全部来自网络,版权争议与本站无关,如果您认为侵犯了您的合法权益,请联系我们删除,并向所有持版权者致最深歉意!本站所发布的一切学习教程、软件等资料仅限用于学习体验和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。请自觉下载后24小时内删除,如果您喜欢该资料,请支持正版!