资讯推荐:Stable Diffusion 团队放大招!新绘画模型直出 AI 海报,实现像素级图像生成

2023-04-29 12:58:43 来源:量子位

开源 AI 绘画扛把子,Stable Diffusion 背后公司StabilityAI再放大招!

全新开源模型DeepFloyd IF,一下获星 2 千 + 并登上 GitHub 热门榜。


(资料图)

DeepFloyd IF 不光图像质量是照片级的,还解决了文生图的两大难题:

准确绘制文字。(霓虹灯招牌上写着 xxx)

以及准确理解空间关系。(一只猫照镜子看见狮子的倒影)网友表示,这可是个大事,之前想让 Midjourney v5 在霓虹灯招牌上写个字 AI 都是瞎划拉两笔,对于镜子理解的也不对。使用 DeepFloyd IF,可以把指定文字巧妙放置在画面中任何地方。

霓虹灯招牌、街头涂鸦、服饰、手绘插画,文字都会以合适的字体、风格、排版出现在合理的地方。

这意味着,AI 直出商品渲染图、海报等实用工作流程又打通一环。

还在视频特效上开辟了新方向。

目前 DeepFloyd IF 以非商用许可开源,不过团队解释这是暂时的,获得足够的用户反馈后将转向更宽松的协议。有需求的小伙伴可以抓紧反馈起来了。

像素级图像生成

DeepFloyd IF 仍然基于扩散模型,但与之前的 Stable Diffusion 相比有两大不同。

负责理解文字的部分从 OpenAI 的 CLIP 换成了谷歌T5-XXL,结合超分辨率模块中额外的注意力层,获得更准确的文本理解。

负责生成图像的部分从潜扩散模型换成了像素级扩散模型

也就是扩散过程不再作用于表示图像编码的潜空间,而是直接作用于像素。

官方还提供了一组 DeepFloyd IF 与其他 AI 绘画模型的直观对比。可以看出,使用 T5 做文本理解的谷歌 Parti英伟达 eDiff-1也都可以准确绘制文字,AI 不会写字这事就是 CLIP 的锅。

不过英伟达 eDiff-1 不开源,谷歌的几个模型更是连个 Demo 都不给,DeepFloyd IF 就成了更实际的选择。

具体生成图像上 DeepFloyd IF 与之前模型一致,语言模型理解文本后先生成 64x64 分辨率的小图,再经过不同层次的扩散模型和超分辨率模型放大。

在这种架构上,通过把指定图像缩小回 64x64 再使用新的提示词重新执行扩散,也实现以图生图并调整风格、内容和细节。并且不需要对模型做微调就可直接实现。另外,DeepFloyd IF 的优势还在于,IF-4.3B 基础模型是目前扩散模型中U-Net 部分有效参数是最多的

在实验中,IF-4.3B 取得了最好的 FID 分数,并达到 SOTA(FID 越低代表图像质量越高、多样性越好)。

谁是 DeepFloyd

DeepFloyd AI Research 是 StabilityAI 旗下的独立研发团队,深受摇滚乐队平克弗洛伊德影响,自称为一只 " 研发乐队 "。

主要成员只有 4 人,从姓氏来看均为东欧背景。这次除了开源代码外,团队在 HuggingFace 上还提供了 DeepFloyd IF 模型的在线试玩。

我们也试了试,很可惜的是目前对中文还不太支持。

原因可能是其训练数据集 LAION-A 里面中文内容不多,不过既然开源了,相信在中文数据集上训练好的变体也不会太晚出现。One More Thing

DeepFloyd IF 并不是 Stability AI 昨晚在开源上的唯一动作

语言模型方面,他们也推出了首个开源并引入 RLHF 技术的聊天机器人 StableVicuna,基于小羊驼 Vicuna-13B 模型实现。

完整的桌面和移动界面也即将发布。Deepfloyd IF 在线试玩:

https://huggingface.co/spaces/DeepFloyd/IF

代码:

https://github.com/deep-floyd/IF

StableVicuna 在线试玩:

https://huggingface.co/spaces/CarperAI/StableVicuna

参考链接:

[ 1 ] https://deepfloyd.ai/deepfloyd-if

[ 2 ] https://stability.ai/blog/deepfloyd-if-text-to-image-model

[ 3 ] https://stability.ai/blog/stablevicuna-open-source-rlhf-chatbot

[ 4 ] http://stable-diffusion-art.com/how-stable-diffusion-work/

标签:

资讯推荐:Stable Diffusion 团队放大招!新绘画模型直出 AI 海报,实现像素级图像生成

开源AI绘画扛把子,StableDiffusion背后公司StabilityAI再放大招!全新开源模型DeepFloydIF,一下获星2千+

2023-04-29 12:58:43

《长空之王》“邓放”:8块腹肌、会弹琴、能骑射,他早该火了 环球短讯

稳了。4月28日,院线一次性上线6部新片,五一大战彻底拉响。首战落幕,《长空之王》以7682万票房一骑绝尘,

2023-04-29 12:11:46

天天百事通!被美国罚没的假冒AirPods Pro,在中国已经活不下去了

以后轮到美国佬给我们冲业绩。

2023-04-29 11:16:18

国家医保局等五部门开展医保领域打击欺诈骗保专项整治工作-观天下

【国家医保局等五部门开展医保领域打击欺诈骗保专项整治工作】国家医保局联合最高人民检察院、公安部、财政

2023-04-29 10:51:24

美媒:美韩“核协议”对美“只是空洞的胜利”

参考消息网4月29日报道美国《外交政策》双月刊网站4月26日刊登题为《美国需要尽可能地与朝鲜对话》的文章,

2023-04-29 09:49:03

喂岁半女儿吃蟋蟀,加拿大网红:补充蛋白质还超级省钱

加拿大美食网红博主蒂芬妮自爆喂18个月大的女儿“食蟋蟀”补充蛋白质,包括烤蟋蟀、蟋蟀蛋白粉及蟋蟀零...

2023-04-29 09:10:59

全球新资讯:加薪申请表怎么写_加薪申请表范文

欢迎观看本篇文章,小升来为大家解答以上问题。加薪申请表怎么写,加薪申请表范文很多人还不知道,现在让我

2023-04-29 08:54:10

4月28日基金净值:华夏红利混合最新净值2.659,涨0.53%

4月28日,华夏红利混合最新单位净值为2 659元,累计净值为5 132元,较前一交易日上涨0 53%。历史数据显示该

2023-04-29 08:07:22

【科幻/末世】——《地球八万里》 每日简讯

Pate 3目前我所处的区域应该是居住区,视线之内的每一个人,都被我用眼睛在奔跑的过程中仔细观察,不论是街

2023-04-29 06:55:41

全球观焦点:纳思达Q1实现营收65.19亿元,同比增长11.75%

集微网消息,4月28日,纳思达发布2023年一季度业绩报告称,实现营业收入65 19亿元,同比增长11 75%;归属于上

2023-04-29 06:03:09
x 广告
x 广告

Copyright ©  2015-2022 起点经营网版权所有  备案号:皖ICP备2022009963号-12   联系邮箱: 39 60 29 14 2@qq.com