炼数成金 门户 商业智能 自然语言处理 查看内容

HFL技术分享 #2 | 生成对抗网络GAN简介

2019-5-31 10:04| 发布者: 炼数成金_小数| 查看: 18085| 评论: 0|原作者: 小马|来自: 哈工大讯飞联合实验室

摘要: 如果把人工智能划分为计算智能、感知智能和认知智能的三个阶段,那我们目前应该处于立足于感知智能,并且正在向认知智能逐步探索的阶段。我们目前在语音识别、图像识别等领域已经取得了实质性的突破,机器也基本达到 ...

网络 工具 模型 框架 学术 公式

摘 要:生成对抗网络GAN(Generative Adversarial Networks)自2014年提出后就受到了学界的广泛关注。其基本思想来源于博弈论中的二人零和博弈,由一个生成模型和一个判别模型构成,通过对抗的方式进行训练,最终拟合数据样本中的内在分布并生成新的数据样本。该思想首先在计算机视觉领域得到验证与改进,近一两年来又逐步应用到自然语言处理NLP(Natural Language Processing)上。本文首先介绍GAN提出的背景,然后简要介绍其基本原理,并着重分析其推导过程和训练过程。

关键词:生成式对抗网络、零和博弈、计算机视觉、自然语言处理

01、背景介绍
如果把人工智能划分为计算智能、感知智能和认知智能的三个阶段,那我们目前应该处于立足于感知智能,并且正在向认知智能逐步探索的阶段。我们目前在语音识别、图像识别等领域已经取得了实质性的突破,机器也基本达到了“能听会说、能看会认”的基本要求,但是离认知智能中“能理解会思考”的目标还比较遥远。在达到该目标之前,我们怎么去衡量机器是否具备“理解”与“思考”的能力也是一个问题。目前在认知智能的一些典型任务,如机器翻译、阅读理解、问答系统、对话系统等任务中都取得了一定的进展,但是机器是否因此获得了较强的“理解”与“思考”的能力还很难做出判断。

在解决这个问题之前,我们可以先回想一下著名的物理学家理查德·费曼曾经说过的一句话“What I cannot create, I do not understand”,其大概意思是说“我们所不能创造的事物,缘于我们尚不能理解”,也就是说创造事物与理解事物本身有着某种必然关系。这个逻辑应用到人工智能方面就可以凸显出生成式模型的重要性了,生成式模型生成样本的能力在一定程度上反映了其对事物本身的理解程度[1]。

02、生成模型
传统的生成式模型有我们所熟知的隐马尔科夫模型(HMM)、朴素贝叶斯(Naïve Bayes)等等。这些传统模型由于其容量有限,对样本的刻画与拟合能力不足,仅在特定的任务应用中有一定效果。近些年来学术界又先后提出了变分自编码模型VAE(Variational Autoencoder)和生成式对抗网络GAN。变分自编码模型允许带隐变量的概率图模型学习与贝叶斯推断[2],但是生成的样本比较模糊。生成式对抗网络在2014年首次提出后就因为其接近真实的样本生成效果和崭新的训练框架而受到人们的关注。图2-1是Goodfellow等[3]在2014年提出GAN的论文中的图片生成效果,其中每张图最后一列是训练集中与生成样本最相近的训练样本。


图2-1 GAN生成样本示例

从图中可以看出,GAN在首次提出时就已经在一些数据集上达到逼近真实样本的生成效果。这种接近真实的生成效果给了我们理解事物新的想象,因此GAN在提出后就受到一些著名学者的推崇,其中包含深度学习的三大领军人物之一的Yann LeCun,他曾经说“GAN是近十年来机器学习领域最有趣的想法”。另外,GAN在整个人工智能研究领域也逐渐成为一大热点,图2-2是百度学术上Goodfellow等人在2014年提出GAN的论文《Generative Adversarial Nets》的引用量,该数据统计可能存在遗漏,但是真实引用量肯定大于或者等于该统计值。我们从中可以看出,GAN自提出后其论文年引用量达到了将近指数级的增长,在2017年单年引用量将近1000,足以说明其在学术领域的关注程度。其实,不光是学术领域,在工业界甚至是其他相关领域,GAN也逐渐受到关注,图2-3是Google Trends上GAN相关主题和VAE相关主题的搜索变化趋势。图中横轴是时间,纵轴是其相对搜索量,其中较大搜索量设置为100。从中我们可以看出GAN相关主题在2016年之后搜索量大增,明显比VAE相关主题受到的关注度要高,说明GAN在近两三年急剧升温,受到了广泛关注。

图2-2 论文《Generative Adversarial Nets》引用量


图2-3 GAN与VAE搜索趋势图

03、GAN的基本原理
3.1 GAN的基本框架
GAN的主要思想来源于博弈论中的零和游戏,该游戏是指参与博弈的各方,在严格竞争的情况下,一方的收益必然导致另一方的损失,两方收益和相加总等于0。其主要框架包含一个生成模型G和判别模型D,具体如图3-1所示。


图3-1 GAN主要框架示意图

从图中可以看出,生成模型G的输入是一个随机向量,G基于这个随机向量生成一个图片样本Fake Image,然后再从训练集中随机抽取一个真实的图片样本Real Image,二者输入到判别模型D中判断真假。整个框架训练的目标函数如下(公式3.1):

该目标函数包含两部分,其中右边部分是生成模型G的目标函数,也就是最小化判别器识别出其输出为生成样本的概率,该部分加上左边部分才能构成判别器的目标函数,其本质上是一个交叉熵,也就是要较大化分配给训练数据x和生成数据G(z)的概率。

3.2 GAN的基本推导
Goodfellow等人在提出GAN的基本框架的时候,对框架的全局目标和和目标是否可达都有严谨的证明。首先是全局目标Pg = Pdata,即生成器G的全局最优为真实数据的分布Pdata,该部分证明过程如下:

1) 对于给定的生成器G,最优的判别器为(公式3.2):
 
即最优生成器为真实分布占真实与生成分布总和的比例,这个比较好理解,比如对于包含5个真实样本,3个生成样本的集合,最优的生成器给出的判断肯定为真实分布占5/8。该步的数学证明也比较简单,有兴趣的读者可以看下论文;

2) 将公式3.2带到公式3.1即可得到(公式3.3):

 
上面公式变形后可以得到(公式3.4):


3) 将KL散度(公式3.5)、JS散度公式(公式3.6):


带入到3.4中可以得到(公式3.7)

从公式3.7我们可以得到生成器损失函数最终的变形中变量仅为真实分布和生成分布的JS散度,而JS散度为KL散度的变形,用于衡量两个分布间的距离,其值域范围为[0,1],即两个分布相同为1,相反为0。因此,当且仅当生成分布与真实分布相同时,C(G)取得全局最优值,即Pg = Pdata时,C(G)=-log(4)。

上面已经证明得到了GAN存在全局最优解,也就是说整个框架存在一个明确的目标,且这个目标就是生成器G重现真实分布。在证明了框架存在全局最优之后,论文中又使用了一些形式化的证明推导出了其最优解是可以达到的,即:如果G和D有足够的容量,在训练过程中的每一步D可以在给定G的情况下达到其最优解,而Pg也可以按照此时最优的D进行更新,即(公式3.8):

直至Pg与真实分布重合。该步骤的证明比较容易,在给定G之后,D的优化就是一个确定的交叉熵函数优化问题,该函数通过简单的梯度计算肯定可以优化得到其最优解。而给定判别器D的最优解,根据公式3.8和上面结论1的推导,我们就可以逐步优化得到G的最优解,此时Pg = Pdata。

3.3 GAN的训练过程
从上面第二部分的推导中我们就可以知道,GAN的训练是交替的,先给定生成器训练K轮判别模型,然后再控制判别模型不变,训练生成器。具体算法如图3-2所示。

图3-2 GAN训练算法

后来也有很多实验的trick是训练多轮生成模型G后,在训练一轮判别模型,因为判别模型训练得越好就越容易导致生成模型的梯度消失,这个是GAN训练稳定性的问题。我们先理解一下GAN训练的过程,论文中给出了GAN训练过程的示意图,如图3-3。

图3-3 GAN训练过程示意图

图中黑点代表的是真实数据的分布Pdata,绿色代表的是生成数据的分布Pg,蓝色代表的是判别模型的分布。从图(a)到图(b)的过程中,生成模型固定而判别模型得到优化,所以蓝色判别模型的分布变得准确;从图(b)到图(c)判别模型固定,优化生成模型,所以生成分布与真实分布拉近了一些,最后从图(c)到图(d)生成模型和判别模型都达到最优,此时生成分布完全拟合了真实分布,判别模型预测值为1/2。

04、小结
本文简单介绍了生成式对抗网络GAN提出的背景,回顾了生成式模型,介绍了GAN的基本框架、基本推导及其训练过程。GAN作为生成模型中的新生代表,其接近真实的生成效果给了机器理解事物新的可能,所以自其提出后就受到广泛关注。GAN在提出时就有一套基本完整的训练框架、推导过程,并且在图像领域很快得到了验证,但是其原理和应用上也存在一些问题,这些问题在研究和探索中逐步得到解决后,相信GAN的应用也将越来越广泛。

参考文献
[1] 王坤峰,苟超,段艳杰,林懿伦,郑心湖,王飞跃.生成式对抗网络GAN的研究进展与展望.自动化学报,2017, 43(3): 321−332
[2] 冯佳时. 生成对抗网络PPT,新加坡国立大学
[3] Goodfellow I, Pouget-Abadie J, Mirza M, Xu B, Warde-Farley D, Ozair S, Courville A, Bengio Y. Generative adversarial nets. In: Proceedings of the 2014 Conference on Advances in Neural Information Processing Systems 27. Montreal, Canada: Curran Associates, Inc., 2014. 2672−2680

声明:本文版权归原作者所有,文章收集于网络,为传播信息而发,如有侵权,请联系小编及时处理,谢谢!

欢迎加入本站公开兴趣群
商业智能与数据分析群
兴趣范围包括:各种让数据产生价值的办法,实际应用案例分享与讨论,分析工具,ETL工具,数据仓库,数据挖掘工具,报表系统等全方位知识
QQ群:81035754

鲜花

握手

雷人

路过

鸡蛋

相关阅读

最新评论

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

 

GMT+8, 2019-6-27 04:05 , Processed in 0.129993 second(s), 25 queries .