目前三大 AI 绘画平台:Stable diffusion、Midjourney、DALL-E2。
以下是一些当前最新的 AI 绘画技术和应用的具体例子:
1)Stable diffusion
简单来说是一个文本到图像的潜在扩散模型,由、和的研究人员和工程师创建。它使用来自数据库子集的图像进行训练。使用这个模型,可以生成包括人脸在内的任何图像,因为有开源的预训练模型,所以我们也可以在自己的机器上运行它。
从功能上来说主要包括两方面:
其核心功能为仅根据文本提示作为输入来生成的图像(text2img);
你也可以用它对图像根据文字描述进行修改(即输入为文本+图像);
只是一个工具,它的后端需要训练模型来进行 AI 图片生成,目前主流三大模型:
a) : 一般简称 SD 模型,如我们 demo 里提供的 sd-v1-4,目前最新的是 stable-diffusion-v1-5,偏真人风格;
b) : 一般简称 Waifu 或者 WD 模型,偏二次元,是 B 站大家用爱发电实现的;
c) :一般简称 Naifu 模型,更偏二次元;
可在 google 的免费 gpu 服务器上跑一个:
画手和改变姿势一直是 AI 绘画的弱势,如图:
(来源:https://mp.weixin.qq.com/s/YivzVlALm7ClxqbCPEBY2A)
但随着模型( 的作者是一个 2021 年才本科毕业,目前正在斯坦福读博的中国人)的引入,已经攻克了,标志 AI 绘画又上一个台阶。
其主要通过添加额外条件来控制扩散模型,改善了图生图效果,并能实现线稿转全彩图、指定生成人体姿势,通过手部关键点还能优化手部的生成。
(来源:https://mp.weixin.qq.com/s/YivzVlALm7ClxqbCPEBY2A)
比如手绘图案辅助 prompt 描述:
此外去年年底 12 月,也发布了 2.0 版本,有许多重要更新,比如新的生成图片会保持原来图片的形状和结构、支持 768 * 768 高分辨率图片等等。
2)Midjourney
在里面,需要翻墙;不用安装,向机器人输入关键词,就给你生成图片;允许每月免费使用,有很大的时长或者次数限制,仅能看部分作品;每月大概需要付费 30 美元,订阅它的人非常多;简单的平面广告插画,类似 ppt 里的 slide 的小图片,可以批量生成,质量很高,稍微改改就能商用。这部分的从业者更可能受到 AI 绘画的冲击。
其是托管在 服务器上的 AI 作画工具,先讲这个工具是因为它对于初学者非常友好,使用上非常简单,生成的图片质量高,速度快。对于想对 AI 作画入门的同学来说,我个人觉得应该是首选了。目前我觉得它唯一的缺点就是需要付费,不过前期作为实验,大概能免费生成几十张图片,想玩一玩的朋友我觉得足够了。
使用教程如下:
a)进入官网
b)加入社区
加入社区。
进入频道,但太多人聊天了消息会被冲走,所以创建子区进行聊天。
c) ai 绘画
输入,即可发送绘图指令。
生成之后可以各种微调,如果你一开始不知道输入什么关键词才好,我建议你可以直接到 Midjourney 官网的案例专区参考关键词:
或者在其他房间参考别人的关键词,也可以利用谷歌翻译把自己想说的按照下面的公式翻译后出图,关键词尽量具体,AI出图也会更加具体。
(来源:https://mp.weixin.qq.com/s/7TKnb9Ckb5VOIlBqnPme0g)
(来源:https://mp.weixin.qq.com/s/7TKnb9Ckb5VOIlBqnPme0g)
一般以下关键词格式可以生成比较好的图片:主体内容+气氛灯光色彩+构图+风格参考。
(来源:https://mp.weixin.qq.com/s/7TKnb9Ckb5VOIlBqnPme0g)
但是生成手还是有点一言难尽。
3)DALL-E2
简介
就是开发了的那家 OpenAI,免费,科学上网,手机上能用,生成图片很快;文字输入生成图片,内容偏创意一点,AI 也挺能理解人话。
输入格式为:某种行为、场景描述、事物、画面风格。
官网介绍如下:
有挺多绘画风格,油画、印象派、水彩、蜡笔、梵高莫奈等等流派,这个绘画软件适合脑洞丰富的人。其有相关 api 接口:
使用接口需要的 api key,就可以利用其 AI 绘画接口与 ChatGPT 相结合,生成素材创意脚本后绘图,企微机器人+(模型)绘画 api。
逻辑图如下:
除了以上三大绘画平台外,还有(代码开源,适合二次开发,搞 AI 作画也就都是免费的,但免费的同时缺点也比较明显,速度比较慢,第一次使用会有些门槛,需要配置一些参数)。以及国内的剪映、一帧秒创、百度文心、意间等,简单总结如下: