您的位置:中国财经观察网 > 财经 > 正文

AI绘画何以突飞猛进?从历史到技术突破,一文读懂火爆的AI绘画发展史

2022-10-05 21:21:40     来源:IT之家  阅读量:5497   

自从前段时间被AI绘画的水平震惊之后,笔者深切感受到AI绘画今天的进步之快,可能已经远远超出了所有人的预期这里的前因后果,包括AI绘画的历史,以及最近的突破性进展,都值得大家梳理和分享因此,本文应运而生

本文分为以下几个部分:

1,2022,攻艾画

2.艾绘画史

3.AI绘画为什么突飞猛进。

4.顶级AI绘画模型PK

5.AI绘画的突破对人类意味着什么。

2022,攻艾画

首先,迪斯科扩散。

Disco Diffusion是今年2月初开始爆发的一个AI图像生成程序。它可以根据描述场景的关键字渲染相应的图像:

而很多读者开始特别关注AI绘画,或许是从以下AI作品的新闻中:

这是由人工智能绘画服务MidJourney生成的数字油画生成它的用户参加了美国科罗拉多州博览会的艺术比赛,获得了一等奖此事曝光后,在网上引起了巨大的争论

目前AI绘画的技术还在不断变化发展,其迭代速度完全可以用日新月异来形容就算今年年初的AI画和现在比,效果也差远了

年初的时候可以用Disco漫生成一些有大气感的小品,基本生成不了人脸,仅2个月后,DALL—E 2就能生成准确的面部特征,现在最强大的稳定扩散,在绘画的精细度和速度上有一个数量级的变化。

AI画图的技术在近几年并不新鲜,但从今年开始,AI的输出作品质量用肉眼看一直在提高,效率从年初的一个小时缩短到现在的十几秒。

这个变化之后发生了什么我们先全面回顾一下AI绘画的历史,再来了解这一年多来,AI绘画技术作为一个突破载入史册

艾绘画史

AI绘画出现的时间可能比很多人想象的要早。

计算机出现在20世纪60年代,到了70年代,一位名叫哈罗德·科恩的艺术家开始编写计算机程序亚伦来创作画作只是和现在输出数字作品的AI绘画不同AARON真的控制一个机械臂去画画

哈罗德改善了亚伦几十年,直到他去世20世纪80年代,阿龙掌握了三维物体的绘制,在20世纪90年代,亚伦能够画很多颜色的画据说Aron今天还在创作

虽然很难说AARON有多聪明,但是作为第一个自动作画并在画布上实际作画的程序,给他AI作画鼻祖的称号很符合他的身份。

2006年,出现了一款类似ARRON的电脑绘画产品——The Painting Fool它可以观察照片,提取照片中区块的颜色信息,使用真实的绘画材料如颜料,粉彩或铅笔进行创作

以上两个例子与古典电脑自动绘画相比,有点像蹒跚学步的孩子,有点像,但从智能的角度来看还是相当初级的。

现在,我们所说的AI绘画的概念更多的是指基于深度学习模型自动绘制图纸的计算机程序这种画法的发展其实是比较晚的

今天看来,这种模式的训练效率和输出结果都不值一提但对于当时的AI研究领域来说,这是一次突破性的尝试,正式开启了一个由深度学习模型支撑的AI绘画的 "全新 "研究方向

这里稍微说一下技术细节:基于深度学习模型的AI绘画有多麻烦为什么2012年就已经很现代化的大规模计算机集群,训练了很多天,只得到一个很差的结果

读者可能有一个基本的概念简单来说,深度学习模型的训练就是利用大量外部标注的训练数据输入,根据输入和对应的期望输出,反复调整模型内部参数使之匹配的过程

那么让AI学习绘画的过程就是构建已有绘画的训练数据,输入AI模型迭代调整参数的过程。

首先是长x宽的RGB像素计算机绘画最简单的起点是获得一个输出规则像素组合的AI模型

可是,RGB像素并不都是绘画,或者它们可能只是噪声一幅质感丰富,笔触自然的画,笔画很多,涉及到画中每一笔的位置,形状,颜色等参数这里涉及的参数组合非常庞大可是,深度模型训练的计算复杂度伴随着参数输入组合的增加而迅速增加...你就能理解为什么这件事不简单了

在吴恩达和杰夫·迪恩开创的猫脸生成模型之后,AI科学家们开始陆续投身于这一新的具有挑战性的领域2014年,AI学术界提出了一个非常重要的深度学习模型,就是著名的对抗一代网络GAN

就像它的名字对抗生成一样,这个深度学习模型的核心思想是让两个内部程序生成器和鉴别器)互相PK平衡,得到结果。

但是,使用基本的GAN模型进行AI绘画也有明显的缺陷一方面对输出结果的控制较弱,容易产生随机图像,而AI美工的输出应该是稳定的另一个问题是生成的图像分辨率低

分辨率的问题说起来容易,在GAN的创造这个点上还存在一个死结,而这个死结恰恰是其自身的核心特性:根据GAN的基本架构,鉴别器要判断生成的图像是否与已经提供给鉴别器的其他图像属于同一类别,这就决定了在最好的情况下,输出的图像是对现有作品的模仿,而不是创新。......

除了甘,研究人员也开始使用其他类型的深度学习模型来尝试教授人工智能绘画。

一个著名的例子是谷歌在2015年发布的图像工具Deep Dream深梦发布了一系列画作,一时间吸引了不少眼球谷歌甚至为这件深梦作品策划了一场展览

但如果是真的,《深梦》更像是一个高级的AI滤镜,而不是AI绘画,看上面的作品就能明白它的滤镜风格。

这种模式被广泛关注是有原因的Google已经开放了相关的源代码,所以第三方开发者可以基于这个模型开发出有趣的AI简笔画应用网上有个应用叫用神经网络一起画,AI随便画几笔就能自动给你补全图

值得注意的是,在AI绘画模型研究过程中,各大互联网公司成为主力军除了上面提到的谷歌做的研究,比较著名的是2017年7月,脸书联合罗格斯大学和查尔斯顿学院艺术史系,得出了一个新的模式,叫做创意对抗网络

从下面的作品集可以看出,这个创意对抗网CAN正在尝试输出一些像艺术家作品一样的画面,是独一无二的,而不是对现有艺术作品的模仿。

CAN模型生成作品所体现的创意震惊了当时的开发研究者,因为这些作品看起来与艺术圈流行的抽象画非常相似于是研究人员组织了一次图灵测试,让观众猜测这些作品是人类艺术家的作品还是人工智能的创造

结果53%的观众认为CAN模型的AI艺术作品出自人手,这是历史上类似图灵测试首次突破半数。

但CAN这种AI绘画,仅限于一些抽象的表达,从艺术评分上来说,与人类大师的水平相差甚远。

更别说创作一些写实或者具象的画了,这些都是不存在的。

事实上,直到2021年初,OpenAI发布了广受关注的DALL—E系统,其AI绘画水平一般下面是DALL—E画一只狐狸的结果,勉强可以辨认

不过值得注意的是,到了DALL—E,AI开始有了一个重要的能力,那就是它可以按照文字输入提示进行创作!

接下来,我们继续探讨本文开头提出的问题不知道读者有没有同感今年以来,AI绘画水平突然大幅上升,相比之前的作品质量有了本质的飞跃突然,我觉得我一天都在想念三秋

一切都会出错发生了什么事让我们慢慢来

为什么AI绘画突飞猛进。

在很多科幻电影或剧集中,经常会出现这样的场景,主角带着特殊的科幻感与计算机AI对话,然后AI生成3D图像,通过VR/AR/全息投影的方式呈现给主角。

抛开那些酷炫的视效包装,这里的核心能力是人类用语言输入,然后计算机AI理解人类的表达,生成符合要求的图形图像,展示给人类。

仔细想想,这种能力最基本的形式就是AI绘画的概念。

所以,无论是通过语音控制,还是更神秘的脑电波控制,科幻电影,电视剧中的炫酷场景,其实都是在描述一种AI能力,即通过AI理解,将语言描述自动变成图像目前文本的自动语音识别技术已经极其成熟,所以这本质上是一个从文本到图像的AI绘画过程

这一切究竟是怎么发生的。

首先要提到一款新车型的诞生前面提到的OpenAI团队在2021年1月开辟了新的深度学习模型CLIP,这是最先进的用于图像分类的人工智能

CLIP训练AI同时做两件事,一是自然语言理解,二是计算机视觉分析它被设计为一个具有特定目的的强大工具,即进行一般的图像分类CLIP可以确定图像和文本提示之间的对应关系,例如将猫的图像与单词cat完全匹配

CLIP模型的训练过程,简而言之就是使用经过标记的 "文本—图像 "训练数据一方面训练文本模型,另一方面训练图像模型另一方面,它不断调整两个模型的内部参数,使模型输出的相应文本—图像通过简单的验证即可匹配

关键点来了其实之前也有人尝试过训练文本—图像匹配模型,但是CLIP最大的不同在于它搜索了40亿个文本—图像训练数据!通过这一天的数据量,再投入惊人昂贵的训练时间,CLIP模型终于取得了积极的成果

CLIP很厉害,但不管怎么说,乍一看好像和艺术创作没什么关系。

但就在CLIP开源发布几天后,一些机器学习工程师玩家意识到,这个模型可以用来做更多的事情例如,Ryan Murdock想出了如何将其他人工智能连接到CLIP来构建人工智能图像生成器瑞安·默多克(Ryan Murdock)在接受采访时说,在我玩了几天之后,我意识到我可以生成图像

最终,他选择了GAN模型的变种BigGAN,并将代码发表为Colab Notes The Big Sleep。

《大睡》创作的画面其实有点怪异和抽象,但这是一个好的开始。

然后西班牙选手RiversHaveWings在此基础上发布了CLIP+VQGAN的版本和教程这个版本通过Twitter被广泛转发和传播,引起了AI研究界和爱好者的关注而这个ID的背后是凯瑟琳·克劳森(Katherine Crowson),一位知名的计算机数据科学家

在过去,像VQ—甘这样的生成工具可以在训练大量图像后合成类似的新图像但由于读者还有印象,如前所述,GANs模型本身无法通过文本提示生成新的图像,也不擅长创建新的图像内容

将CLIP移植到GAN上以生成图像,这个想法简单明了:

既然CLIP可以用来计算哪些图像特征值匹配任意一串字符,那么只要把这个匹配验证过程链接到负责图像生成的AI模型上,负责图像生成的模型就会反过来派生出一个能够产生合适图像特征值的图像,并通过匹配验证,从而得到一个符合字符描述的作品。

有人认为CLIP+VQGAN是2015年《深度梦想》以来人工智能艺术领域最大的创新奇妙的是,CLIP+VQGAN为任何想要使用它们的人做好了准备根据凯瑟琳·克劳森的在线教程和Colab笔记本,一个稍微有点技术的用户可以在几分钟内运行该系统

有意思的是,上一章提到,同时开源发布CLIP的OpenAI团队也发布了自己的图像生成引擎DALL—E. DALL—E,内部也使用CLIP,但是DALL—E不是开源的!

所以从社区影响力和贡献度来说,DALL—E是不能和CLIP+VQGAN的开源实现发布相比的当然,开源剪辑已经是OpenAI对社区做出的巨大贡献了

说到开源贡献,这里不得不提LAION。

事实上,最新的AI绘画模型,包括稳定扩散,后面提到的AI绘画模型王,都是利用LAION—Aesthetics这种高质量数据集进行训练的。

CLIP+VQGAN引领了新一代AI图像生成技术的潮流现在,所有开源TTI模型的介绍都会感谢凯瑟琳·克劳森(Katherine Crowson),她是新一代AI绘画模型的创始人

技术玩家开始围绕CLIP+VQGAN形成社区,代码不断优化完善,Twitter账号致力于收集发布AI画作瑞安·默多克(Ryan Murdoch)是最早的实践者,他被招聘到Adobe担任机器学习算法工程师

不过这一波AI绘画的玩家主要是AI技术爱好者。

但是激动人心的进展还远远没有结束细心的读者注意到了,CLIP+VQGAN这个强大的组合是去年年初发布的,在一个小圈子里传播,但AI绘画的流行,正如开篇提到的,是从今年年初开始的,由在线服务Disco Diffusion引爆还有半年时间是什么耽误了

一个原因是CLIP+VQGAN模型的图像生成部分,也就是GAN模型的生成结果总是不尽如人意。

艾注意到另一种图像生成方式。

如果回顾GAN模型的工作原理,它的图像输出是内部发生器和判断器PK妥协的结果。

但还有另一种思维方式,那就是扩散模型。

当然,靠人是不行的,简单的去噪程序也是不行的,但是基于AI能力去噪的同时猜测是可行的。

这是扩散扩散模型的基本思想。

今年首次为大众所知的AI绘画产品Disco Diffuse是首款基于CLIP+Diffusion模型的实用AI绘画产品。

但是Disco弥漫的弊端还是很明显的比如专业艺术家Stijn Windig,他反复尝试了Disco Diffuse,认为Disco Diffuse并不能取代手工创作的能力

Disco扩散无法刻画具体细节,渲染出来的画面乍一看很惊艳,但细看才发现大部分都是模糊的概括,达不到商业细节的程度。

Disco扩散的初始渲染时间是以小时为单位计算的,但是在渲染图像的基础上刻画细节就相当于重绘了整个画面这样的过程比直接手绘花费更多的时间和精力

因此,对于热门的应用平台产品,这种模型无法在用户可接受的生成时间内计算和挖掘出更多的图像细节,甚至那种草稿级的绘制仍然需要Disco扩散小时。

但是相比之前所有的AI绘画模型,Disco扩散所赋予的绘画质量是一种碾压式的超越,已经是大多数普通人无法企及的了Stijn的批评只是从人类职业创造的高点提出的要求

可是,恐怕Stijn万万没想到,他所指出的AI绘画的两大痛点,在几个月内就被AI研究人员近乎完美地解决了!

至此,当当当当,稳定扩散,当今世界最强大的AI绘画模型,终于登场了!

稳定扩散今年7月开始测试,很好的解决了上述痛点。

实际上,与之前的扩散扩散模型相比,稳定扩散的关键点在于做一件事,即通过数学变换将模型的计算空间从像素空间降低到一个叫做潜在空间的低维空间,然后进行繁重的模型训练和图像生成计算。

这种简单的思维转变带来了多大的影响。

与像素空间扩散模型相比,基于潜在空间的扩散模型大大降低了对内存和计算的要求例如,稳定扩散使用的潜在空间编码缩减因子为8,这意味着图像长度和宽度缩减了8倍

这就是稳定扩散又快又好的原因。可以快速生成充满细节的512x512图像,只需要一块消费级8GB 2060显卡!

读者可以简单计算一下,如果没有这种空间压缩转换,需要8Gx64=512G内存的超级显卡才能实现稳定扩散这样的秒级图像生成体验按照图形硬件的发展规律,消费级显卡达到这个内存大概需要8—10年

而AI研究者算法的一次重要迭代,把我们10年后才能享受到的AI绘画成果,直接带到了所有普通用户的电脑上!

对于所有普通用户来说,最开心的当然是享受使用稳定扩散或中途等顶级绘画AI生成专业级画作的巨大乐趣。

有趣的是,稳定扩散的诞生也与前面提到的两位先驱凯瑟琳·克劳森(Katherine Crowson)和瑞安·默多克(Ryan Murdoch)有关他们成为了EleutherAI的核心成员,这是一个去中心化的人工智能开源R&D团队虽然自称草根团队,但在超大规模预测模型,AI图像生成等领域,EleutherAI已经是开源团队的领军人物

是EleutherAI作为技术核心团队支撑了稳定AI,创立于英国伦敦的AI解决方案提供商这些有理想的人聚在一起,基于这些最新的AI绘画技术突破,在今天推出了最强大的AI绘画模型——稳定扩散重要的是,稳定扩散按照承诺在8月份完全开源!这个重要的开源让全世界的AI学者和AI技术爱好者感动得热泪盈眶曾经开源,稳定扩散一直占据GitHub热榜第一

PK:稳定扩散vs .顶级AI画种中途

从输出风格来看,MidJourney显然对人像做了一些优化用多了,MidJourney的风格倾向也很明显说的好听点,就是更细腻更讨人喜欢,或者说有点油腻

稳定扩散的作品,显然更优雅,更有艺术感。

稳定扩散对中间行程(右):

树屋

柴油朋克风格的城市

魔兽世界的主要城市食人魔里玛

穿着盔甲的狼骑士

蓝色幻想风格的卡通女孩

浪漫现实主义美女油画

迷宫般的老城建筑和狭窄的人行道

哪种风格比较好其实萝卜青菜各有所爱

但笔者对比了几部作品后认为,从艺术表现形式和风格变化的多样性来看,稳定扩散明显更胜一筹

但近几个月中程的迭代有目共睹,加上稳定扩散的完全开源,预计相关技术优势很快会被中程吸收另一方面,稳定扩散模型的训练还在继续,我们可以非常期待稳定扩散模型的未来版本会有很大的进步

AI绘画的突破对人类意味着什么。

2022年的AI领域,基于文本生成图像的AI绘画模型是风头正劲的主角从2月份的Disco Diffuse开始,4月份的DALL—E 2和MidJourney邀请内测,5月和6月Google发布了Imagen和Parti两款机型,然后在7月底,稳定扩散诞生了

在接下来的时间里,AI绘画领域,或者更广义地说,AI生成的内容,将会发生什么,令人充满想象和期待。

但不用等未来,经历了以稳定扩散为代表的最先进的AI绘画模式所能达到的艺术高度,我们基本可以确认,曾经充满神秘主义色彩的 "想象力 "和 "创造力 ",也是人类最后的骄傲,其实是可以被技术解构的。

对于人类灵魂是神圣的观点的支持者来说,今天的AI绘画模型所展示的创造力是对信仰的无情打击充满神性的所谓灵感,创意,想象力,即将被超强的计算能力,大数据,数学模型的强大组合无情地打在脸上

其实像稳定扩散这样的AI生成模型,或者很多深度学习AI模型的一个核心思想,就是把人类创造的内容,在某个高维或者低维的数学空间里,用一个向量来表示如果此content—gt,向量的变换设计足够合理,所以人类所有的创造内容都可以表示为某个数学空间中的部分向量而存在于这个无限的数学空间中的其他向量,也不过是那些理论上可能被人类创造出来但尚未被创造出来的内容通过反向vector—gt,内容的转化,没有被创造出来,是AI发现的

这也正是目前最新的AI绘画模型如中旅,稳定扩散在做的事情AI可以说是在创造新的内容,也可以说是新画的搬运工AI产生的新画,在数学意义上一直是客观存在的,只是被AI用巧妙的方式从数学空间还原出来而已

这篇文章是自然的,但我是偶然得到的。

这句话用在这里很恰当这个天空是无限的数学空间,而这只手,来自人类,被AI取代了

真的是数学界的最高法则:)

目前最新的AI绘画的创造力已经开始赶上甚至比肩人类,这可能进一步打击了人类的尊严从围棋阿尔法狗的 "智慧 "开始,人类的尊严越来越小,而AI绘画的突破性进展,则进一步打破了 "想象力 "和 "创造力 "的尊严——或许

朋友是对的如果AI最终学会了写代码——似乎没有不可避免的障碍阻止这种情况发生——那么电影lt,Gt终结者,故事可能就要发生了如果这太悲观了,那么人类至少应该考虑如何与一个超越自己所有智慧和创造力的AI世界相处

当然,从乐观的角度来看,未来的世界只会更好:人类可以通过AR/VR访问统一的或个体的元宇宙,无所不能的AI助手可以根据需求自动生成内容,甚至可以直接生成人类可以体验的故事/游戏/虚拟生活,只要人类高手对话。

这是更好的《盗梦空间》,还是更好的《黑客帝国》。

反正我们今天见证的AI绘画能力的突破和超越,就是这条不归路的第一步:)

说一句题外话作为结尾虽然还没有出现,但应该是在这两年,我们可以直接让AI生成一部指定风格的完整小说,尤其是那些类型化的作品,比如lt,破苍穹gt,,lt,普通人修仙gt,这样的玄幻小说还可以指定篇幅,女主角数量,情节倾向,悲情程度,甚至xx程度

这根本不是天方夜谭考虑到今年AI画火箭般的发展速度,笔者甚至觉得这一天指日可待

目前还没有一个AI模型能够生成具有足够感染力和逻辑性的长篇文学内容,但从AI绘画模型的激进发展来看,几乎可以肯定AI在不久的将来会生成高质量的流派文学作品,理论上毫无疑问。

这对于那些在码字上下过功夫的网络写手来说可能是个打击,但作为一个技术爱好者和玄幻小说爱好者,笔者还是对这一天的到来有些期待的...从此不用再多催了,也不用担心连载作家的写作状态了更妙的是,如果看到一半觉得不舒服,随时可以让AI调整后续剧情方向,重新生成,然后继续看

如果你不确定这样的一天是否来临,我们可以求同存异,共同等待。

版权声明: 本网站部分文章和信息来源互联网,并不意味着赞同其观点或证实其内容的真实性,不构成投资建议。如转载稿涉及版权等问题,请立即联系管理员,我们会予以改正或删除相关文章,保证您的权利!
版权所有: 中国财经观察网 (2012- )  备案号:沪ICP备2022019539号-11