欢迎访问一起赢论文辅导网
本站动态
联系我们

手机:153 2730 2358
邮箱:910330594@QQ.COM

Q Q:
910330594
网址:http://www.17winner.com
工作时间:
9:00-24:00  

SCI期刊论文
当前位置:首页 > SCI期刊论文
互学习神经网络训练方法研究
来源:一起赢论文网     日期:2017-12-10     浏览数:915     【 字体:

   40 卷  计  算  机  学  报  Vol.40 2017 论文在线出版号  No.37  CHINESE JOURNAL OF COMPUTERS  Online Publishing No.37 ——————————————— 本课题得到国家自然科学基金(No.51304114No.71371091)资助.  刘威,男,1977年生,博士,副教授,计算机学会(CCF)会员(13134M),主要研究领域为机器学习、深度神经网络、矿业系统工程,E-mail: lv8218218@126.com.  刘尚(通讯作者),男,1988年生,硕士,主要研究领域为人工智能与模式识别,机器学习,E-mail: whiteinblue@126.com.  白润才,男,1961年生,博士,教授,主要研究领域为矿业系统工程,E-mail:bairuncai@126.com.  周璇,女,1992年生,硕士,主要研究领域为机器学习、深度神经网络,E-mail:892698248@qq.com.  周定宁,男,1993年生,硕士,主要研究领域为机器学习、深度神经网络,E-mail:767928313@qq.com.  互学习神经网络训练方法研究 刘威1) , 2)  刘尚1) , 2)  白润才3) 周璇1) , 2)  周定宁1) , 2)   1)(辽宁工程技术大学,数学与系统科学研究所,辽宁,阜新  123000)  2)(辽宁工程技术大学,智能工程与数学研究院,辽宁,阜新  123000)  3)(辽宁工程技术大学,矿业学院,辽宁,阜新  123000)  摘  要  由于BP神经网络具有表达能力强,模型简单等特点,经过近30年的发展,在理论和应用研究上都取得了巨大的进步,然而容易陷入局部最优和泛化能力差等问题却限制了神经网络的发展。同时,大数据的出现和深度学习算法的提出与应用,为神经网络向更类脑的方向发展提出了新的要求。针对上述问题,本文从模拟生物双向认知能力的角度出发,构造了一种新的神经网络模型:互学习神经网络模型,该模型在标准正向神经网络的基础上,引入了与其具有结构对称性的负向神经网络,利用正、负向神经网络分别模拟生物的顺向和逆向认知过程,并在此基础上提出了一种新的神经网络训练方法:互学习神经网络训练方法,该方法通过网络连接权值转置共享,正、负双向交替训练的方式对互学习神经网络模型进行训练,从而实现输入数据和输出标签之间的相互学习,使网络具有双向认知能力。实验表明,互学习神经网络训练方法可以同时训练正负两个神经网络,并使网络收敛。同时,在此基础上提出了“互学习预训练+标准正向训练”的两阶段学习策略和相应的转换学习方法,这种转换学习方法起到了和“无监督预训练+监督微调”相同的效果,能够使网络训练效果更好,是一种快速、稳定、泛化能力强的新型神经网络学习方法。 关键词  神经网络;互学习;权值共享;BP算法;双向认知;分类识别 中图法分类号  TP18    论文引用格式:   刘威,刘尚,白润才,周璇,周定宁,  互学习神经网络训练方法研究,2017, Vol.40,在线出版号  No.37 Liu  Wei,Liu  Shang,Bai  Run-Cai,Zhou  Xuan,Zhou  Ding-Ning, Research  of  Mutual Learning  Neural  Network  Training  Method, 2017, Vol.40,Online Publishing No. 37   Research of Mutual Learning Neural Network Training Method Liu Wei1),2)  Liu Shang1),2)  Bai Run-Cai3)  Zhou Xuan1),2)  Zhou Ding-Ning1),2) 1)( Institute of Mathematics and Systems Science, LiaoNing Technical University, FuXin ,Liaoning 123000)  2)( Institute of Intelligence Engineering and Mathematics, LiaoNing Technical University, FuXin ,Liaoning 123000) 3)(College of Mining Engineering, LiaoNing Technical University, FuXin ,Liaoning 123000) Abstract  Since  BP  neural  network  is  expressive  and  model  is  simple,  there  has  been a  great  improvement  in both  theoretical  and  applied  research  over  the  past  30  years.  But  its  development  is  held  back  due  to  model limitations on local optimism and overfitting. With the emergence of big data and application of deep learning, there are new requirements  which gears neural network development  towards  more  pseudo brain. To solve the above  problem,  this  paper  presents  a  new  neural  network  model  based  on  the  simulation  of  biological bidirectional  cognitive  ability: the  mutual  learning  neural  network  model.  The  design  of  the  mutual  learning 网络出版时间:2017-03-31 12:32:07网络出版地址:http://kns.cnki.net/kcms/detail/11.1826.TP.20170331.1232.004.html2  计  算  机  学  报     2017年  neural network model originates from human beings bidirectional cognitive ability, that is, the forward cognitive ability and the backward cognitive ability, and the previous one possesses the cause and demands the result while conversely the latter one possesses the result and demands the cause. The mutual learning neural network model is  composed  of  the  positive  neural  network  and  the  negative  neural  network.  The  positive  neural  network  is  a feedforward  neural  network  with  a  hidden  layer,  which  is  used  to  set  up  the  cognitive  relationship  from  the cause(data) to the result(label) and simulate  the forward cognitive ability. The negative neural network has  the symmetrical  relationship  with  the  positive  neural  network, and its mainly used to set up the cognitive relationship from  the  result(label)  to  the  cause(data)  and  simulate  the  backward  cognitive  ability.  These  two neural  networks  are  combined  together  by  weight  sharing  and  construct  the  neural  network  model  together, which simulates human beings bidirectional cognitive procedure. Based on it, this paper proposes a new training method  of  neural  network:  mutual  learning  neural  network  training  method.  Firstly,  the  input  of  the  mutual learning neural network training method is the data and output of it is the label, which trains the positive neural network  through  BP  learning  algorithm.  After  a  certain  times  of  training,  the  forward  link  weight  matrix  is updated and the value assigned to it is transported to the negative neural network (the bias term is independent of each  other).  Then  use  the  label  to  input  and  the  data  to  output,  and  train  the  negative  neural  network  by  BP learning algorithm. After certain times of training, the backward link weight matrix is also updated and the value assigned  to  it  is  transposed  to  the  positive  neural  network  (the  bias  term  is  independent  of  each  other).  Such reciprocate  alternation  is  continued  until  the  end  of  iteration.  So  the  mutual  learning  neural  network  training method realizes the mutual learning procedure between the input of the data and the output of the label, and by training  it  enables  the  mutual  learning  neural  network  model  possess  the  bidirectional  cognitive  ability. Experiment  results  show  that  the mutual  learning  neural  network  training  method can  train  both  positive  and negative network simultaneously, and it is a convergent learning algorithm. In addition, this paper also proposes the "mutual learning neural network training + standard positive neural network training", a two stage learning strategy,  making  it  as  effective  as  "pre  training  +  fine-tuning"  learning  strategies,  thus,  making  the  network training more effective. This is a fast, stable, and widely generalized neural network training method. Key words  neural  network; mutual  learning;  weights  sharing;  back  propagation  algorithm;  bidirectional cognitive; classification 1  引言 人工神经网络(简称神经网络)是由大量神经元经广泛互联而组成的人工网络系统,用来模拟人脑神经系统的功能和结构。由于其优异的非线性映射能力和学习能力、良好的容错性、以及模仿人的认知系统等特点,广泛地应用于模式联想、模式识别、函数逼近等领域。 神经网络一个突出的重要性质是“学习”,从广义上讲,神经网络的学习可分为监督学习、无监督学习、强化学习和半监督学习四种类型[1]BP算法作为最杰出的监督学习算法,自20世纪80 年代中期提出以来,极大的促进和推动了神经网络的发展,成为了神经网络发展史上的一个里程碑。现实任务中使用神经网络时,大多是在使用BP算法进行训练。经过近30年发展,BP算法在网络结构、参数优化等问题的研究上都得到了长足的进步,特别是针对经典BP算法存在的收敛慢、易陷入局部最优和分类泛化能力差等缺点,提出了很多改进学习方法。针对BP算法收敛速度慢的问题,提出的改进方法主要分为新型参数调整策略和新型学习方法两个方向。参数调整,即学习过程中动态地调整学习率、步长等参数来加速网络训练,如变学习率算法[2]、变动量项算法[3]、变梯度算法[4]等;新型学习方法主要是在原有BP算法的基础上借助优化理论和方法来加速网络收敛,如具有高阶收敛的限域牛顿算法[5]Hessian-free算法[6]RELM急速学习算法[7]等。针对BP算法训练的神经网络泛化能力差的问题,主要提出了初始权值优化[8]、权值惩罚[9]、权值消除[10]等方法,GA等仿生优化算法和神经网络复合训练的方法[11],主成分分析和神经网络相结合的方法[12]等。 论文在线出版号  No.37  刘威等:互学习神经网络训练方法研究  3  以上改进方法各有所长,但是在收敛速度和泛化性能之间的平衡性问题上还存在着较大的提升空间,同时,上述方法在进行神经网络训练时,优化基础是梯度下降(或者考虑了Hessian矩阵的二阶梯度)算法,对初值有一定的依赖性,因此寻求收敛速度快、泛化性能高的新型学习方法依然是BP算法研究领域中一个重要问题。另外,现阶段研究中采用的人工神经网络结构还远远不及生物神经网络的结构复杂,仍然只是对生物神经系统信息处理的初级模拟[13],借鉴脑科学、神经科学、认知脑计算模型的研究结果,开展神经网络结构、学习算法和高效训练方法等方面的研究依然有着重要的理论价值和现实意义。 此外2006年以来,一种更深层的网络“深度神经网络”开始受到学术界和工业界的广泛关注。“无监督预训练+监督微调[14]”等新型训练方法的提出为神经网络的研究带来了新的视角,也为类脑信息处理提供了新的思路。 本文针对传统BP算法收敛速度慢和泛化能力差等问题,从神经网络如何模拟生物双向认知能力的角度出发,借鉴互学习的概念,提出了具有双向认知能力的“互学习神经网络模型”,并利用深度神经网络学习中结构对称、权重共享、信息重用等思想,在标准BP算法的基础上,引入了负向学习过程,提出了一种新的神经网络训练方法:互学习神经网络训练方法,该方法能够通过输入数据和输出标签之间的相互学习,从正、负两个方向对互学习神经网络模型进行训练,从而实现对生物顺向认知过程和逆向认知过程的双向模拟。在数值实验部分,借鉴“无监督预训练+监督微调”的学习思想,提出了“互学习预训练+标准正向训练”的两阶段转换学习方法,利用互学习预训练获得的权值空间中的良好位置作为标准正向训练的初值,对神经网络训练方法进行了优化,通过多个数据集上的性能对比,展现了转换学习方法在收敛速度和泛化能力方面的优势。 2  BP算法 误差反向传播算法(Error  Back  Propagation,简称BP算法)是一种典型的监督学习算法,其算法过程主要分为两个阶段:信息前馈传递阶段和误差反向传播阶段。在信息前馈阶段,每层的输入信息首先通过连接权值进行融合计算,再通过相应类型的激活函数进行激活变换得到输出信号,然后输出信号作为输入传入下一层继续进行相似的信息变换,最终传递到输出层得到网络输出;在误差反向传播阶段,计算信息的前馈输出和真实标签之间的误差,并通过连接权值从输出层反向传播至输入层,依据梯度值来更新连接权值,信息前馈传递阶段和误差反向传播阶段构成迭代过程,循环进行,不断更新网络的连接权值和阈值,直至满足迭代中止条件,从而实现网络学习的目的。 BP算法不仅可以用于训练多层前馈神经网络,而且还可以用于训练其他类型的神经网络,例如递归神经网络等,但通常所说的“BP网络”一般指用BP算法训练的多层前馈神经网络[15],含一个隐层和输出层的全连接前馈神经网络典型结构如图1所示,其中最左侧为输入层,最右侧为输出层,中间为隐层,网络中只有相邻层神经元之间存在权值连接,每层内部神经元无连接。  图1 含有一个隐层和输出层的全连接前馈神经网络 设BP网络的输入层神经元个数为r,隐层神经元个数为p,输出层神经元个数为o,网络输入向量为[ ]112, ,...,Trrx x x´=Î xR,相应的网络输出向量为[ ]112ˆ ˆ ˆ , ,...,Tooy y y´=Î yR;设ljiw为第l 层(l=123分别表示输入层、隐层和输出层)第i 个神经元与第l+1层第j 个神经元之间的连接权值,若第l层有r个神经元,第l+1层有p个神经元,则连接权值pjil rw´ÎRljb为第l 层第j 个神经元的;ljz为第l 层第j 个神经元的输入;() fx为神经元的激活函数;lja为第l 层第j 个神经元的激活输出,,()w b khx为输出层第k个神经元的输出,则神经网络的信息前馈过程如下: ①  输入层到隐层的信号传递 4  计  算  机  学  报     2017年  1 1 11rj ji i jiz w x b== × + å                            (1) 1 1 1 1 11, 2,..., ; 1, 2,..., ; ; ;p r p p i r j p z b´ ´ ´ = = Î Î Î w R R R ②  隐层信号激活输出 11() jj a f z =                              (2) ③  隐层到输出层的信号传递 2 2 1 21pk kj j kjz w a b== × + å                (3) 2 2 1 2 11, 2,..., ; 1, 2,..., ; ; ;o p o o j p k o z b´ ´ ´ = = Î Î Î w R R R ④  输出层信号激活输出 ( )22 ,ˆ () w b k k k kh x y a f z = = =          (4) ( )1,ˆ 1, 2,..., ;owbk o h x y´= = ÎR 3  深度神经网络学习方法 含多个隐层,非线性运算组合水平较高的神经网络称为深度结构神经网络[16]。同浅层神经网络相比,深度神经网络的特征是隐层个数较多。组成隐层的可以是基本神经元,也可以是特定的结构单元,其中最为典型的结构单元主要包括RBMAuto-Encoder3.1  深度神经网络结构单元 3.1.1 RBM RBM Restricted Boltzmann Machine)是一种特殊形式的双层无向图概率模型,其典型结构如图2 所示,其中用于输入训练数据的层称为显层V,起到特征提取作用的层称为隐层H,只有显层节点与隐层节点之间存在连接权值,层内节点无连接。  图2 RBM无向图模型 通过展开RBM模型,即把RBM的显层向上复制,可得到如图3 所示的等价RBM有向图模型。该模型的特征是:两个显层在网络结构上关于隐层对称,同时显层V与隐层H的连接权值矩阵W和隐层H与显层V1的连接权值矩阵W1呈转置关系,即W1=WT。利用这种关系,当显层输入V时,可以通过P(H|V)得到隐层H,而后可以通过P(V1|H)得到显层V1,如果通过参数调整使VV1一样,那么得到的隐层H就是显层V的另外一种表达,因此隐层可以作为显层输入数据的特征。  图3 等价RBM图模型 3.1.2 Auto-Encoder Auto-Encoder是由编码器和解码器组成的两层神经网络,通过编码器编码输入,解码器解码重构的方式尝试学习一个恒定函数,利用编码器和解码器参数的调整,可以使网络的重构输出尽量接近网络的原始输入。 编码器和解码器的结构和组织形式有多种,其中能够完成输入数据无监督自学习的一种典型模型结构可如图4所示。  图4 一种Auto-Encoder结构 该模型的显著特征是:输入数据与编码器之间的连接权值矩阵和编码器与解码器之间的连接权值矩阵结构对称。利用这种关系,当数据输入编码器后,经编码可以得到一个码,这个码再经解码器解码,可以得到一个输出,该输出即为原输入数据的重构结果。 3.2 深度神经网络学习方法描述 展开后的RBMAuto-Encoder具有相似的网络结构,如果将多个RBMAuto-Encoder进行堆叠,则可以组成相应的深度学习模型。基于此类模型的深度学习算法实现过程可如图5所示。 论文在线出版号  No.37  刘威等:互学习神经网络训练方法研究  5   5 深度栈式自编码网络数据非线性降维过程 该深度学习过程主要分为无监督预训练和监督微调两个阶段。在无监督预训练阶段,多个RBM堆栈组成的网络按照W1W2W3W4的方向进行训练,以实现对输入数据的编码,然后网络再按照W4TW3TW2TW1T的方向进行训练,以实现对编码数据的解码重构,这一过程反复进行,使最顶层的输出能够尽可能正确的重构底层的输入。这样,堆栈每增加一层都会改进训练数据的对数概率,使网络能够越来越接近数据的真实表达。预训练结束后,输入数据完成非线性降维,堆栈各层神经网络转换为深度前馈神经网络,并将预训练后的网络权值作为初始权值,将标签集附加到顶层,利用标签数据和BP算法进行监督微调,最小化深度网络的重构误差,从而完成深度网络的训练。 这种“无监督预训练+监督微调”的训练方法有效解决了深度神经网络的训练问题。这一过程中,编码器和解码器两个部分在网络结构上具有对称性,且对称层的连接权值呈现转置关系,共享网络权值。 4  神经网络模拟认知过程的再认识 4.1  生物的双向认知能力 生物的认知过程往往是双向的,即生物具有“执因索果”的顺向认知能力和“执果索因”的逆向认知能力。 以人对概念的认知为例,从心理学的角度来说,概念是事物的本质属性在人脑中的反映。从数学刻画的角度来讲,人脑中的概念是反映性的东西,是对客观事物的一种“复写”。通常情况下,人既不是先有外延而后形成内涵,也不是先有内涵而后形成外延。人脑形成概念,是从对比入手,通过多次对比,粗糙地认识外延,粗糙地认识内涵,再精细的认识外延,精细的认识内涵,如此循环往复,逐渐形成的[17]。 当我们将多张不同的猫的图片不断呈现给一个受训者时,人脑会逐渐形成猫的概念,经过多次反复训练后,人的神经系统中相应区域神经元的响应方式逐渐固定,形成对猫这一概念的顺向认知。如果将该过程反向进行,即让受训者想象并绘制一张猫的图像,会发现受训者每次绘制的图像均会有所不同,但随着训练次数的增多,受训者所绘制的图像中,猫的头、颈、躯干、四肢、尾等关键特征均在各次绘制中得以保留,这意味着由猫的概念产生的联想刺激了同一区域的神经元细胞,进而产生了与看见猫的图片时所产生的相同响应,这一“由猫的概念产生猫的图像”的逆向认知过程和“由猫的图片产生猫的概念”的顺向认知过程是由神经系统中相关区域的神经元通过兴奋或抑制协作完成的,两个过程全部或局部共享了神经系统中的相应区域。 4.2  顺向认知过程的神经网络模拟 人工神经网络是一种模拟生物神经系统的网络模型,其人工神经元模拟生物神经元的信息处理过程,网络结构模拟生物神经系统中神经元的连接方式,而网络连接权值和偏置则负责记忆相应的突触连接状态。 从认知的角度分析人工神经网络对人的神经系统所进行的模拟时可以发现,训练所采用的监督学习方法模拟的是人脑认知中的条件反射模型。在BP 等监督学习算法中,输入数据为“因”,输出标签为“果”,网络训练完成了由刺激到响应的顺向认知过程的模拟,实现了由因(数据)到果(标签)的认知学习,相应的“因果关系”知识存储于网络的自由参数中(突触权值和偏置的取值)。这种顺向认知过程的神经网络模拟,类似于人脑形成概念时,由概念的外延到内涵的形成过程。 4.3  逆向认知过程的神经网络模拟 生物的逆向认知过程是一个“执果索因”的过程,对于人的概念认知而言是由概念内涵到外延的形成过程。如果借助神经网络进行模拟,这是一个由输出标签向输入数据进行学习的过程。 6  计  算  机  学  报     2017年  仍以BP算法为例,当神经网络正向传入输入标签时,也可以通过计算产生相应的输出数据,并利用输出数据和目标数据间均方误差反向传播的方式来调整网络权值,使网络完成由标签到数据的逆向认知过程的模拟,实现由果(标签)到因(数据)的认知学习,并将相应的“果因关系”存储在网络的自由参数取值中。 5  互学习神经网络模型 生物在认知过程中具有“执因索果”的顺向认知和“执果索因”的逆向认知的双向认知能力。在以往的神经网络训练方法研究中,着重强调了对顺向认知能力的模拟,而忽略了对逆向认知能力的模拟,而事实上,神经网络强大的非线性变换能力既能建立起输入空间到输出空间的映射,也能建立起输出空间到输入空间的映射。在某些特定的神经网络学习任务中,既需要从输入空间中提取信息来认知输出空间,也需要从输出空间中提取特征来认知输入空间。 因此,为了模拟生物的双向认知过程,可以构建由两个共享网络连接权值的神经网络映射模型组成的新模型来协作完成这一过程。受RBMAuto-Encoder的启发,我们在标准正向神经网络的基础上,引入了一个与其具有对称结构的负向神经网络,并通过连接权值共享的方式将两者结合在一起,共同完成神经网络对生物神经系统的模拟,这种新的神经网络模型称为“互学习神经网络模型”。 互学习神经网络模型由正向神经网络和负向神经网络联合构成,其中正向神经网络完成由输入到输出的顺向认知过程的模拟,负向神经网络完成由输出到输入的逆向认知过程的模拟,两个网络结构对称,权值共享,其具体网络结构和权值共享关系如图6所示。  图6 互学习神经网络模型结构及权值共享关系 5.1 正向神经网络结构 正向神经网络(Positive Neural Network)即为经典的含有一个隐层的前馈神经网络,主要负责学习输入空间到输出空间的映射模型。 设正向神经网络输入层神经元个数为r,输入向量为[ ]112, ,...,Trrx x x´=Î xR,输出层神经元个数为o,输出向量为[ ]112ˆ ˆ ˆ ˆ , ,...,Tooy y y´=Î yR,隐层神经元个数为p,其网络结构由图6中正向神经网络部分所示。由第2节可知,输入层和隐层的连接权值矩阵为pr´Î1Pw R,偏置项为1 p´Î1Pb R,隐层和输出层的连接权值矩阵为op´Î2Pw R,偏置项为1 o´Î2Pb R5.2 负向神经网络结构 负向神经网络(Negative Neural Network)与正向神经网络结构对称,主要负责学习输出空间到输入空间映射模型。 设负向神经网络输入层神经元个数为o,输入向量为[ ]112, ,...,Tooy y y´=Î yR,输出层神经元个数为r,输出向量为[ ]112ˆ ˆ ˆ ˆ , ,...,Trrx x x´=Î xR,隐层神经元个数为p,其网络结构由图6中负向神经网络部分所示,输入层和隐层的连接权值矩阵为po´Î1Nw R,偏置项为11p´Î Nb R;隐层和输出层的连接权值矩阵为2 rp ´Î Nw R,偏置项为21r´Î Nb R。 论文在线出版号  No.37  刘威等:互学习神经网络训练方法研究  7  5.3  正、负向神经网络的权值共享   由于组成互学习神经网络模型的正向神经网络和负向神经网络结构对称,依据神经网络的连接结构,可知正、负向神经网络相应的连接权值矩阵互为转置关系,如式5所示。 12()T p r ´=Î Pw Nw R21()T o p ´=Î Pw Nw R    (5)   网络训练过程中,正向网络模拟正向认知过程,负向网络模拟逆向认知过程,通过正、负向神经网络共享连接权值的方式,将原本相互独立的正、负向神经网络结合起来,共同训练网络的连接权值,从而实现相互利用输入和标签的信息来调整网络。 6  互学习神经网络训练方法 6.1  互学习 早期关于互学习神经网络[18]Interacting Neural Networks)理论的研究是指两个或多个神经网络通过监督学习,互为导师,互相学习,并使连接权值最终达到关于时间的同步状态。 在此基础上,我们提出了新的神经网络互学习(Mutual  Learning)概念,即神经网络的输入数据和输出标签依据监督学习规则相互学习。新的互学习概念中包含正向学习(Positive Learning)和负向学习(Negative  Learning)两个过程,其中正向学习以数据X为输入,标签Y为输出,利用监督学习算法进行训练,负向学习以原标签Y为输入,原数据X为输出,也利用监督学习算法进行训练。 6.2  互学习神经网络训练方法描述 互学习神经网络模型借助结构对称的正、负向神经网络,搭建起了对生物神经系统双向认知过程进行模拟的基础模型。在对互学习神经网络模型进行训练时,需要采用特殊的方法将“原因”和“结果”互相作为学习对象,进行双向学习。为此,我们在新的互学习的概念基础上提出了“互学习神经网络训练方法”。 互学习神经网络训练方法利用输入数据X和输出标签Y对互学习神经网络模型的正向神经网络进行训练,正向连接权值矩阵更新后转置赋值给负向神经网络(偏置项相互独立),并利用新的输入数据Y(原输出标签)和新的输出标签X(原输入数据)对负向神经网络进行训练,负向连接权值矩阵更新后再转置赋值给正向神经网络(偏置项相互独立),如此往复,正向学习过程和负向学习过程交替进行,直至迭代结束。 通过互学习神经网络训练方法,两个训练方向相反的神经网络可以协同工作,并同时得到训练。在给定输入数据的情况下,正向学习可以用于判决数据的类别,实现“执因索果”的顺向认知过程;在给定输出标签的情况下,负向学习是一个生成模型,可以用来重构输入数据,完成“执果索因”的逆向认知过程。正、负向学习交替进行的方式则模拟了人对概念的认知过程中由概念的外延到内涵和由概念的内涵到外延的交替修正过程。这样的双向学习可以分别从数据空间和标签空间中获取数据的特征信息,并通过权值共享的方式在权值空间中进行双向搜索。 6.3 互学习神经网络训练算法描述 设训练样本总数为m,第j 个样本的输入和输出分别为jxjy,正、负向神经网络计算输出分别为F(x)G(y),正、负向神经网络训练样子批量误差均值分别为EpEn,正、负向神经网络连接权值分别为PwNw,学习率为α,迭代次数为k,则互学习神经网络训练过程如下: 过程  1.   互学习神经网络训练方法 Step1:初始化网络结构,随机初始化正向神经网络权值; Step2:全体训练样本进行随机乱序操作,重新排列样本顺序;按照每组个数为s(批量),将样本平均分成t 个子组(子批量)  [19] t m s =éù êú  , éù êú表示向上取整                          (6) Step3:计算正向神经网络子批量均值误差: ( )211sp j jjEFs==-å xy;                  (7) Step4:更新正向神经网络连接权值: ( ) ( ) 1pEkka¶+ = +¶Pw PwPw;       (8) Step5:将步骤3-4循环进行t 次; Step6:将正向神经网络连接权值转置赋值给负向神经网络: ( ) ( )T11 kk+ = + Nw Pw;                  (9) Step7:计算负向神经网络子批量均值误差: 8  计  算  机  学  报     2017年  ( )211sn j jjEGs==-å yx;                  (10) Step8:更新负向神经网络连接权值: ( ) ( ) 1nEkka¶+ = +¶Nw NwNw;       (11) Step9:将步骤7-8循环进行t 次; Step10:将负向神经网络连接权值转置赋值给正向神经网络: ( )T1 ( 1) kk+ = + Pw Nw;               (12) Step11:模型完成一次迭代,并根据误差结果和迭代次数k 判断是否达到收敛要求,若达到要求,则网络完成训练,否则循环步骤2-10. 其中步骤Step3-Step5是正向学习阶段,步骤Step7-Step9是负向学习阶段。 互学习神经网络训练方法流程如图7所示。  图7 互学习神经网络训练方法流程图 6.4 互学习训练方法模式识别任务的映射解释   通常,神经网络可以看作一个实现一般性质非线性输入输出映射的工具,其映射关系可用() F = YX描述。 以模式识别任务为例,由于其本质上是基于统计特性的,所以需要根据各个模式类内部以及它们之间的固有可变性,用统计的方式来确定分类边界。如果设一个模式是一个r 维的可观测数据,即r维数据空间的一个点X,通过特征提取变换被映射为p维特征空间上的一个中间点M,而后又被映射为o维决策空间上的一个类,将决策空间划分成多个不同的区域,每个区域对应一个模式类,输入空间不同区域的样本数据通过映射() F = YX被映射到决策空间的相应区域,相同类别的样本数据被映射到决策空间的相同区域,而不同类别的样本数据则被映射到决策空间的不同区域(详见图8)。  图8 数据空间不同区域到决策空间相应区域的映射 在这一过程中,受最大概率或置信度归类方法的影响,虽然相同类别样本数据的分类结果是一样的,其网络计算的输出值却是不同的,也就是说神经网络所建立起的映射关系是数据空间中的区域到决策空间中相应区域的对应关系。这意味着决策空间中不同区域的数据也可以通过其他神经网络所建立的映射被映射到数据空间的不同区域(详见图9)。  图9 决策空间不同区域到数据空间相应区域的映射 互学习神经网络训练方法的正向学习过程就是数据空间到决策空间区域映射的建立过程,训练生成的是不同类别数据所对应的标准标签(标签重心),并通过标准标签和目标标签的差异改善映射性能;而负向学习过程则是决策空间到数据空间区域映射的建立过程,训练生成不同类别标签所对应的标准数据(数据重心),并通过标准数据与目标数据的差异改善映射性能。样本数据间的内在关系和统计特性,不仅可以通过正向学习得以反映,而且可以通过逆向学习得到刻画,这是由数据本身的内在属性所决定的。 满足分类正确要求的神经网络可能存在无数个,不同神经网络分类训练方法的最终目的就是要在众多满足分类要求的神经网络中,用最短的论文在线出版号  No.37  刘威等:互学习神经网络训练方法研究  9  时间寻找到分类泛化能力最好的神经网络。互学习神经网络训练方法采用正、负向学习交替进行的方式可以分别从两个方向对数据样本的统计特性进行提取,促进各自最优分类边界的形成,从而加快网络收敛速度提升网络泛化能力。 6.5 互学习训练方法收敛性讨论 互学习神经网络训练方法是建立在两阶段BP算法基础上的,因此训练方法的收敛性与BP算法的收敛性密切相关。神经网络由于非线性分布式的存在和网络的高度连续性使得相关的理论分析难于进行[1],而BP算法并没有明确定义算法的停止准则,通常不能证明BP算法是收敛的,但其收敛性已经在大量的应用实践中得到了证实。 在BP算法中,训练样本的均方误差可以看作关于网络自由参数的误差曲面,其中自由参数为坐标轴,实际误差曲面是在所有可能的输入输出样例上的平均。由于BP算法在权值空间中对于误差曲面上的梯度使用“瞬时估计”,因此算法在本质上是随机的。造成BP算法收敛缓慢的主要原因是由于权值空间一般都为高维空间,而定义在高维空间中的误差曲面远比定义在低维空间中的误差曲面复杂的多,训练过程中如果在误差曲面上梯度下降方向相当平坦时,权值调整量会很小,导致迭代次数显著增多,而遇到梯度下降方向是高度弯曲时,权值调整量过大,导致算法越过误差曲面的最小值点。实践中常采用的是BP算法的“合理”收敛准则,例如当梯度向量的欧几里得范数达到一个充分小的梯度阈值时,可以认为BP算法已经收敛[20],或是当每一个迭代的均方误差变化的绝对速率足够小时,也可以认为BP算法已经收敛。 互学习神经网络训练方法采用BP算法训练互学习神经网络模型中正、负向两个神经网络,相当于在同一个权值空间(正、负向神经网络权值共享)中建立了两个误差曲面。其中正向学习阶段在误差曲面Ѱ1 上以“随机梯度游走”的方式逼近误差曲面Ѱ1 的最小值点,而负向学习阶段则在误差曲面Ѱ2 上以“随机梯度游走”的方式逼近误差曲面Ѱ2 最小值点。正、负向学习的交替进行相当于在两个寻优过程中利用样本的统计信息相互增加了“扰动”,避免了正、负向两个神经网络的训练陷入局部最小值,从而在权值空间中获得了更好的迭代位置,在一定程度上避免了梯度下降方向极为平坦或梯度下降方向极度陡峭两种极端情况的发生,可以使所训练的网络收敛,并提高了收敛速度。这一分析结果在后续的性能评估部分通过数值实验得到了进一步的证实。 7  性能评估 为了更好的测试分析互学习神经网络训练方法的收敛速度和泛化能力,我们采用数值实验的方式进行了性能评估。 7.1 实验方法介绍 由于互学习神经网络训练方法(简称互学习训练方法MLMutual  Learning)每次迭代训练包含正向和负向两个学习过程,标准正向训练方法STD-PL(Standard  Positive  Learning)[1]只包含一个正向学习过程,因此在相同的迭代次数下,互学习训练方法的学习过程和学习时间为标准正向训练方法的两倍。为了全面公平地对比互学习训练方10  计  算  机  学  报     2017年  法和标准正向训练方法的性能,数值实验部分采用4 种不同的训练方式:等过程互学习EP-MLEqual  Process  Mutual  Learning)、等过程转换学习EPT-MLEqual  Process  Transformation  Mutual Learning)、等迭代次数互学习EI-MLEqual Iteration  Mutual  Learning),等迭代次数转换学习EIT-MLEqual  Iteration  Transformation  Mutual Learning)。 (1)等过程互学习(EP-ML):该训练方法将互学习训练迭代次数设置为标准正向训练迭代次数的一半,使互学习训练方法和标准正向训练方法具有相同的学习过程数和训练时间。 (2)等过程转换学习(EPT-ML):该训练方法先进行一定次数的互学习训练,然后去掉负向学习过程,转换为标准正向训练,通过限制互学习训练迭代次数,使互学习训练方法和标准正向训练方法具有相同的学习过程数和训练时间。 (3)等迭代次数互学习(EI-ML):该训练方法将互学习训练和标准正向训练的迭代次数设置为相同,使互学习训练方法的学习过程数为标准正向训练方法的两倍。 (4)等迭代次数转换学习(EIT-ML):该训练方法先进行一定次数的互学习训练,然后转换为标准正向训练,并使互学习训练方法和标准正向训练方法的迭代次数相同。 训练过程中设互学习训练转换率为ε,标准正向训练迭代次数为K,标准正向训练的时间为T4种训练方法的迭代次数、学习过程数、与标准正向训练相比互学习训练的时间倍数等如表1所示。 表1 标准正向训练方法和4种互学习训练方法迭代次数、学习过程数、时间倍数比较结果 名称 STD-PL  EP-ML  EPT-ML  EI-ML  EIT-ML ML  PL  ML  PL  ML  PL  ML  PL  ML  PL 迭代次数 0 K /2 K 0 Ke × (1 2 ) K e ×- K 0 Ke × (1 ) K e ×- 学习过程数 K K K 2K (1 ) K e ×+ 时间倍数 T T T 2T (1 ) T e ×+ 7.2 实验参数设置 数值实验中神经元激励函数采用Sigmoid 函数,正、负向学习过程采用相同的学习率和动量项参数,训练集和测试集数据均采用最大最小值法归一化到[0,1]区间范围内,并采用学习率缩减的方式来调节学习率。设学习率改变次数比例参数为ScaleIndex,改变程度参数为ScaleLr,改变总次数为ChangeTimes,则学习率调节策略见算法1。 算法1.  学习率调节算法. 输出:学习率CurLr   输入:TScaleIndexScaleLrChangeTimes ChangeIndex =T*ScaleIndex FOR i=1:K     IF i>ChangeIndex && CurTimes<ChangeTimes      ChangeIndex =i+ScaleIndex*(K-i)      CurLr =CurLr*ScaleLr                       CurTimes =CurTimes+1 END7.3 分类实验评估 为了验证互学习训练方法的有效性,从UCI分类数据库中选取10 个数据集进行分类效果对比测试(选择的数据集信息如表2所示)。 标准正向训练方法和4种互学习训练方法在相同的参数设置和网络初始权值的条件下进行训练,其中学习率参数ScaleIndexScaleLr均设置为2/3ChangeTimes设置为4。在每个数据集上采用30 次实验的平均结果进行综合评价,具体结果如表3所示。(test-Avgtest-Mintest-Std分别表示预测分类错误率均值,最小值和标准差;train-Avg表示训练分类错误率均值。) 表2 UCI分类数据集的属性信息 名称  样本个数  训练样本  属性个数  类别数  名称  样本个数  训练样本  属性个数  类别数 CMC  1473  700  9  3  ORH  5611  3820  61  10 DRD  1151  600  19  2  Seeds  210  105  7  3 Glass  214  108  9  6  WF  5000  3000  21  3 IP  180  90  34  2  WFN  5000  3000  40  3 Iris  150  90  4  3  Wine  178  90  13  3 论文在线出版号  No.37  刘威等:互学习神经网络训练方法研究  11  表中所列数据集简称在UCI 分类数据集中对应的全称为:CMC/DRD/Glass/IP/Iris/ORH/Seeds/WF/WFN/Wine 对应Contraceptive  Method Choice/Diabetic  Retinopathy  Debrecen/Glass  Identification/Ionosphere/Iris/Optical  Recognition  of  Handwritten  Digits/Seeds/Waveform  Database Generator/Wine 3 标准训练方法和4种互学习训练方法的分类错误率比较结果 数据集  STD-BP  EP-ML  EPT-ML  EI-ML  EIT-ML  数据集  STD-BP  EP-ML  EPT-ML  EI-ML  EIT-ML CMC test-Avg  26.67  27.12  25.90  26.88  25.89 ORH test-Avg  3.80  3.81  3.40  3.50  3.29 test-Min  23.41  25.05  23.05  24.50  22.32  test-Min  3.01  3.39  3.06  3.12  2.78 test-Std  1.63  1.30  1.57  1.38  1.54  test-Std  0.24  0.25  0.23  0.23  0.20 train-Avg  13.86  22.42  18.07  22.00  18.67  train-Avg  0.51  0.74  0.38  0.46  0.32 DRD test-Avg  26.22  27.22  25.58  26.76  25.64 Seeds test-Avg  5.40  5.59  5.11  5.33  5.27 test-Min  21.78  24.14  21.96  24.14  22.50  test-Min  1.90  1.90  1.90  2.86  2.86 test-Std  1.80  1.74  1.54  1.56  1.45  test-Std  1.89  2.03  2.07  1.78  1.73 train-Avg  15.93  23.01  19.67  22.03  19.67  train-Avg  0.29  1.05  0.38  0.29  0.25 Glass test-Avg  38.95  35.49  34.29  33.52  33.43 WF test-Avg  14.79  13.09  13.15  13.36  13.39 test-Min  25.71  24.76  26.67  24.76  23.81  test-Min  11.90  11.95  11.70  12.45  12.35 test-Std  7.47  4.40  3.64  3.87  3.96  test-Std  5.94  0.55  0.66  0.57  0.55 train-Avg  19.85  19.94  15.12  12.19  11.30  train-Avg  13.03  11.85  11.64  11.34  11.27 IP test-Avg  29.70  30.79  30.60  29.44  29.59 WFN test-Avg  26.65  20.77  19.50  18.74  18.23 test-Min  21.35  19.10  19.10  19.10  19.10  test-Min  12.70  11.80  12.20  13.25  13.25 test-Std  5.60  6.81  6.91  5.52  5.52  test-Std  17.30  14.50  12.67  11.56  11.30 train-Avg  0.48  3.52  3.52  1.85  1.85  train-Avg  22.70  18.20  16.16  13.84  13.07 Iris test-Avg  4.33  3.28  3.17  3.33  3.33 Wine test-Avg  3.41  2.16  2.16  2.20  2.20 test-Min  0.00  0.00  0.00  0.00  0.00  test-Min  0.00  0.00  0.00  0.00  0.00 test-Std  6.63  2.38  2.41  2.63  2.55  test-Std  5.36  1.53  1.64  1.63  1.63 train-Avg  2.63  1.74  1.67  1.56  1.56  train-Avg  0.89  0.00  0.00  0.00  0.00  分析表3的实验统计结果,可得如下结论:   (1)对比分类错误率的均值和最小值,总体上4种互学习训练方法比标准正向训练方法训练的神经网络具有更低的平均分类错误率和最小分类错误率。说明互学习训练方法是一种有效且分类泛化能力好的神经网络训练方法。 (2)对比分类错误率标准差,总体上4种互学习训练方法比标准正向训练方法训练的神经网络具有更小的分类错误率标准差,说明通过互学习训练方法训练的神经网络波动性更小,互学习训练方法是一种稳定的神经网络训练方法。 (3)对比STD-BPEP-MLEPT-ML三种训练时间相同的训练方法,经过互学习转换的EPT-ML方法训练的网络性能好于单独进行一种学习的STD-BPEP-ML方法训练的网络。 (4)对比4种互学习训练方法,总体上执行转换学习的EPT-MLEIT-ML方法训练的神经网络分类性能好于不执行转换,一直进行互学习的EP-MLEI-ML方法。说明通过互学习训练,可以在权值空间中探索到更好的权值位置,之后再进行标准正向训练可以保证网络能够更好地逼近拟合目标输出,这种互学习转换的训练方法综合了互学习和标准正向学习的优点,比单独互学习训练和单独标准正向训练具有更好的训练效果。 7.4 图像识别实验评估 为了验证互学习训练方法在具有高维特征的大型图像数据集上的分类效果和泛化能力,本文选取了3个图片数据集用于进行数值实验。 由于互学习训练方法包含负向学习过程,而负向学习过程以类别标签为输入,以原始输入数据的属性特征为输出,所以实验在不同迭代次数下,通过负向神经网络的输出结果能够重构原始图片,实现可视化训练学习,在观测网络学习过程的同时,还可以验证互学习训练方法的负向学习能力。 实验采用STD-PLEPT-MLEI-ML3种不同的训练方法,其中EPT-ML方法用固定次数互学习转换的方式代替上文中使用互学习转换率转换的方式。为了使网络稳定收敛,学习率参数ScaleIndex ScaleLr 均设置为1/2ChangeTimes设置为8。 由前面的表1 可知在相同的迭代次数下,12  计  算  机  学  报     2017年  EI-ML方法的训练时间和学习过程数为STD-PL方法的两倍,而EPT-ML方法和STD-PL方法的学习过程数相等,迭代过程数不等。为了更加直观的对比EPT-MLSTD-PL,实验中通过选择EPT-ML方法的标准正向训练阶段的奇数次迭代结果和STD-PL方法的奇数次迭代结果的方式,来截取正向网络训练迭代过程的一半用于图例显示,使EPT-ML方法和STD-PL方法能够在相同的迭代次数和训练时间下对比实验结果。 7.4.1 CMU PIE 人脸数据集 CMU PIE人脸数据集[21]是由68名志愿者在13个姿势,21 种光照和4种表情下采集的人脸数据集。参照文献[22]的方式,选择整个数据集的一部分,共计1149232*32的灰度人脸图片作为实验数据集(68 名志愿者每人作为一类,每类包含13种姿势,每种姿势选择13张正面人脸光照图片),在每个人脸类别中随机选取100张图片,总计6800张图片组成训练集,其余4692张图片为测试集。 实验参数设置如下:隐层节点数200,网络结构1024-200-68,学习率0.2,动量项0.9,权值惩罚项1e-5,训练批量200,迭代总过程数为3000EPT-ML方法的互学习次数200,即先进行200次互学习训练,之后进行2600次标准正向训练。 CMU PIE数据集上2种互学习训练方法和标准正向训练方法的均方误差收敛结果如图10 所示,训练分类错误率如图11所示,预测分类错误率如图12所示,最终实验结果如表4所示。 (1)收敛性比较 对比EI-ML和未截取的标准正向训练STD-PL可知,在迭代的初始阶段,随着迭代次数的增加,EI-ML的均方误差收敛曲线和训练分类错误率曲线下降速度较快,而STD-PL的均方误差收敛曲线和训练分类错误率曲线下降较慢;在迭代后期,EI-ML的均方误差收敛曲线和训练分类错误率曲线逐渐趋于收敛饱和,而STD-PL的均方误差收敛曲线和训练分类错误率曲线则继续下降,并收敛到一个更小的均方误差值和训练分类错误率值,在迭代次数相同的条件下,即使EI-PL方法花费双倍的训练时间,但仍具有较大的均方误差值和训练分类错误率值,说明互学习训练方法通过数据和标签之间的相互学习能够分别从输入和输出中获得信息加速网络训练,进一步缓解了单一信息源网络收敛慢的问题,从而在初始训练阶段,具有更快的收敛速度,使网络快速收敛,但相互训练学习的方式需要兼顾正、负向两个网络的收敛,导致其最终收敛时具有较大的收敛均方误差,即其极值寻优能力较差。 对比EPT-ML方法和缩减截取后的标准正向训练方法Half-PL,在学习过程和训练时间相同的条件下,EPT-ML方法的均方误差收敛曲线和训练分类错误率曲线在整个迭代过程中都比Half-PL的曲线低,说明EPT-ML方法具有更快的收敛速度和更好的收敛效果,这意味着EPT-ML方法通过前期的互学习训练在权值空间中寻找到了梯度较大的权值位置,但由于自身的极值寻优能力较弱,收敛曲线逐渐趋于饱和,转换到标准正向训练后,使标准正向训练方法在一个收敛快、梯度大的位置开始迭代计算,充分发挥了标准正向训练方法较好的极值寻优能力,使网络快速收敛到更小的极值位置。  表4 CMU PIE数据集数值实验结果 实验结果  STD-BP  EI-ML  EPT-ML loss  0.0114   0.0183   0.0098  train-error(%)  0.46   0.49   0.35  test-error(%)  2.15   2.33   1.96  0 500 1000 1500 2000 2500 300000.050.10.150.20.250.30.350.40.450.5迭代次数(X)均方误差(Y)  Std-PLHalf-PLEI-MLEPT-ML 10 CMU PIE数据集均方误差收敛结果 论文在线出版号  No.37  刘威等:互学习神经网络训练方法研究  13  0 500 1000 1500 2000 2500 300000.10.20.30.40.50.60.70.80.91迭代次数(X)训练分类错误率(Y)  Std-PLHalf-PLEI-MLEPT-ML 11 CMU PIE数据集训练分类错误率 0 500 1000 1500 2000 2500 300000.10.20.30.40.50.60.70.80.91迭代次数(X)预测分类错误率(Y)  Std-PLHalf-PLEI-MLEPT-ML 12 CMU PIE数据集预测分类错误率 (2)分类泛化能力比较 分析图11 可知,EI-ML方法迭代前期收敛快,但收敛时预测分类错误率较高;STD-PL方法前期收敛慢,但比EI-ML方法具有更低的预测分类错误率;EPT-ML方法融合了互学习训练方法前期收敛速度快,能够提供好的权值空间位置的优势和标准正向训练方法极值寻优能力强的优势,能够使网络快速地收敛到极小值。同时,由表4可知,EPT-ML方法具有最低的均方误差、训练分类错误率和预测分类错误率,说明在较快的收敛速度和较小的均方误差条件下,并没有使网络出现过拟合现象。 (3)负向神经网络训练可视化分析 在CMU  PIE数据集上将不同的人视为不同的类别,赋予相应的标签,并作为负向神经网络的输入,通过负向神经网络训练后得到相应的图片属性特征输出,恢复成图片后可实现负向神经网络训练的可视化。 在不同迭代次数(分别取第2481632643000次)下,CMU  PIE数据集的负向神经网络的可视化输出结果如图13 所示,其中第一行图片为随机选择的部分类别的训练样图,其他行图片为训练样图在不同迭代次数下的可视化输出结果。  图13 CMU PIE数据集负向神经网络可视化输出结果 由图13 可以看出,随着迭代次数的增加,负向神经网络的可视化输出结果越来越清晰,并且负向神经网络学习到了每个类别具有代表性的特征,近似重构了每个人物的脸部轮廓。这说明虽然正、负向神经网络在结构上属于相互独立的两个网络,但由于其高度的对称性,以及连接权值间存在的相互作用关系,使得通过权值共享的交替训练能够在权值空间中找到一个更好的位置,使正、负向两个神经网络同时收敛。 7.4.2 Mnist手写体识别数据集 Mnist数据集是由09的手写体数字图片组成的数字识别数据集,每个样本均为28*28的灰度图片。实验选取60000张图片组成训练集,10000张图片组成测试集。 实验参数设置如下:隐层节点数300,网络结构784-300-10,迭代次数1000,学习率0.2,动量项0.9,权值惩罚项1e-5,训练批量200,迭代次数1000EPT-ML方法的互学习次数50,即先进行50次互学习训练,之后进行900次标准正向训练。 Mnist数据集上2种互学习训练方法和标准正向训练方法的均方误差收敛结果如图14 所示,训练分类错误率如图15 所示,预测分类错误率如图14  计  算  机  学  报     2017年  16所示,最终实验结果如表5所示。 (1)收敛性比较 由于Mnist训练集数据量较大,总计包含60000张训练图片,实验选择训练批量为200,依据标准正向训练权值更新规则,网络权值在每个批量训练迭代中都更新一次,共更新300次,所以对比图14和图10,由于Mnist数据集训练样本较大且样本间相似性较大,其收敛速度比CMU  PIE数据集快,即使在大样本训练集和较快的收敛速度条件下,图14和图10依然呈现了相同的趋势,说明互学习训练方法在训练初始阶段具有极快的收敛速度,但极值寻优能力较弱,通过转换变为标准正向训练后极值寻优能力得到提升,可以使网络快速收敛。 (2)分类泛化能力比较 分析图16和表5可知,EPT-ML方法的预测分类错误率最低,说明EPT-ML方法融合了互学习训练方法前期收敛速度快和标准正向训练方法极值寻优能力强的优点,可以使训练的网络快速稳定的收敛。同时依据表5,在没有使用任何加噪处理、图像变换等数据增益技术的情况下,10000个测试图片样本上的预测分类错误率达到了1.43%,比数据官方网站公布的相同神经网络结构下的预测分类错误率降低了近3%,再一次证明了本文实验在参数调节和算法上的有效性。  表5 Mnist数据集数值实验结果   实验结果  STD-BP  EI-ML  EPT-ML loss  0.0044   0.0090   0.0047  train-error(%)  0.09   0.42   0.10  test-error(%)  1.59   1.97   1.43  0 100 200 300 400 500 600 700 800 900 100000.050.10.150.20.250.30.350.40.45迭代次数(X)均方误差(Y)  Std-PLHalf-PLEI-MLEPT-ML 14 Mnist数据集均方误差收敛结果 0 100 200 300 400 500 600 700 800 900 100000.10.20.30.40.50.60.70.80.9迭代次数(X)训练分类错误率(Y)  Std-PLHalf-PLEI-MLEPT-ML 15 Mnist数据集训练分类错误率 0 100 200 300 400 500 600 700 800 900 100000.10.20.30.40.50.60.70.80.9迭代次数(X)预测分类错误率(Y)  Std-PLHalf-PLEI-MLEPT-ML 16 Mnist数据集预测分类错误率  (3)负向神经网络训练可视化分析 Mnist数据集的负向神经网络可视化输出结果如图17所示(迭代次数分别取第24816321000次)。 分析图17 可知,随着负向神经网络训练迭代次数的增加,数字边缘轮廓越来越明显,数字图像越来越清晰。同  CMU  PIE数据集的负向神经网络可视化输出结果相比较,Mnist数据集上的负向神经网络收敛更快,第32次迭代和第1000次迭代的可视化输出结果基本相同。 论文在线出版号  No.37  刘威等:互学习神经网络训练方法研究  15   17 Mnist数据集负向神经网络可视化输出结果 综合图17和图13的信息可知,负向神经网络重构生成的是一类图片样本对应的标准特征,在CMU PIE集上表现为人的正脸轮廓,在Mnist数据集上表现为数字的规范字体。这种标准特征图片虽然和同一类别中的其他图片均不相同,但却汇集了同一类别图片中的共同特征,反映了同一类别图片数据的本质属性,这进一步证明了神经网络的训练过程是一个数据驱动的学习过程,网络学习到的结果是数据的特征和组织形式的反映,而样本数据的数量和分布又能够影响神经网络的性能。 尽管负向神经网络训练过程中同一输入标签可能对应多个不同的输出数据,例如标签类别1输入负向神经网络后,在不同连接权值的条件下会有多个不同的目标数据,对应多种不同写法的数字1,但在统计意义上,类别1的训练样本中所占比例较大的具有规范写法特征的样本会最终引导负向网络训练趋于收敛,而对于所占比例较小的样本虽然也能够引导负向神经网络学习,但是其效果被大量的标准样本所覆盖,所以最终负向神经网络的生成是训练样本每个类别总体中,具有多数样本共同特征的一个生成样本。 7.4.3 ORL人脸识别数据集 ORL人脸识别数据集是由剑桥大学AT&T实验室创建的,该数据集由不同时段,背景为黑色、姿态、表情和面部饰物均有变化的40 个人共400112*92的灰度图像组成。实验从每个类别中随机选择5张图片,共计200张图片共同组成训练集,剩余图片作为测试集。由于ORL数据集的图片维数较大,且训练图片个数较少,容易使网络发生过拟合,所以在ORL数据集的实验中采用了较小的学习率,并去掉动量项参数,使网络平稳收敛。 实验参数设置如下:隐层节点数200,网络结构10304-300-40,学习率0.02,动量项0,权值惩罚项1e-5,训练批量200,迭代次数1000EPT-ML方法的互学习次数100,即先进行100次互学习训练,之后进行800次标准正向训练。 ORL数据集上2种互学习训练方法和标准正向训练方法的最终实验结果如表6所示,均方误差收敛结果如图18 所示,训练分类错误率如图19 所示,预测分类错误率如图20所示。 0 100 200 300 400 500 600 700 800 900 100000.511.522.533.54迭代次数(X)均方误差(Y)  Std-PLHalf-PLEI-MLEPT-ML 18 ORL数据集均方误差收敛结果 0 100 200 300 400 500 600 700 800 900 100000.10.20.30.40.50.60.70.80.91迭代次数(X)训练分类错误率(Y)  Std-PLHalf-PLEI-MLEPT-ML 19 ORL数据集训练分类错误率 16  计  算  机  学  报     2017年  0 100 200 300 400 500 600 700 800 900 100000.10.20.30.40.50.60.70.80.91迭代次数(X)预测分类错误率(Y)  Std-PLHalf-PLEI-MLEPT-ML     20 ORL数据集预测分类错误率 表6 ORL数据集数值实验结果   实验结果  STD-BP  EI-ML  EPT-ML loss  0.0588   0.1117   0.0408  train-error(%)  4.00   11.00   0.00  test-error(%)  10.50   24.50   7.00  综合图18、图19、图20和表6的信息可知,在训练数据少、网络结构大的ORL训练网络上,3种训练方法的收敛过程和CMU PIE数据集、Mnist数据集呈现相同的变化趋势。但EI-ML方法在迭代后期发生了过拟合现象,而STD-PL 方法和EPT-ML方法未发生过拟合现象。 7.5 泛化能力评估 泛化能力通常指机器学习算法对新鲜样本的适应能力。对神经网络而言,如果对于从未在生成或训练网络时使用过的测试数据,网络计算的输入输出映射对它们来说是正确(或接近于正确)的,就可以认为网络的泛化能力是很好的。 在神经网络的训练过程中,由于训练过度、网络结构复杂等原因经常发生过拟合,以致网络具有较小的训练均方误差,但预测错误率却较高,使网络的泛化能力较差。为了增强神经网络的泛化能力,训练过程中经常采用权值惩罚项的方法来削弱较大的网络连接权值。 为了测试互学习训练方法对于网络泛化能力的影响,在无权值惩罚项,其他参数保持不变的情况下对CMU PIEMnistORL数据集进行了分类泛化能力测试实验,实验结果如表7所示。 分析表7 可知,在去掉权值惩罚项后,STD-BP方法的训练和预测分类错误率明显增大,EP-ML方法次之,EPT-ML方法受到的影响最小。这说明互学习训练方法本身具有一定的防止过拟合、提升网络泛化能力的作用。 表7 无权值惩罚项情况下3个图像数据集的实验结果 数据集  STD-BP  EP-ML  EPT-ML CMU PIE loss  0.29537   0.11406    0.10558  train-error(%)  58.93   22.59   20.94  test-error(%)  59.44   22.57   24.46  Mnist loss  0.25645   0.00536   0.00324  train-error(%)  5.26   0.92   0.56  test-error(%)  6.44   2.49   2.16  ORL loss  0.04605   0.13667   0.03856  train-error(%)  2.50   18.00    0.00  test-error(%)  14.50   31.50   11.50  另外,互学习神经网络训练方法以输入数据和输出标签之间的互学习为训练策略,对于网络的泛化性能也可以从以下角度理解。 如果将神经网络输入层的各个节点看作起点,输出层的各个节点看作终点,隐层的各个节点看作中间节点,则正向训练过程可以看作起点和终点间有向网络的形成过程。网络连接权值初始化后,随机产生了若干条有向边,初始有向网络形成,其中有能从起点到达终点的通路,也有无法从起点到达终点的路径。随着正向训练的间隔进行,连接权值不断更新,各有向边彼此之间的连接方式不断变化,训练中止后,有向网络达到阶段性平衡,即输入数据的各个分量从各起点进入网络后,经过网络作用可全部到达目标终点附近(各分量到目标终点的平均距离和是到其他终点平均距离和的最小值),此时正向神经网络的连接权值体现了有向网络中从起点到终点间通路的最佳连接状况。 当输入数据和输出标签对调后,神经网络变为其对称结构,形成负向神经网络,此时经过网络训练,标签被分解为多个分量与原输入数据相对应,并通过最小均方误差更新网络连接权值,相当于由终点向起点进行了通路搜索,网络连接权值体现了负向神经网络中从终点到起点间通路的连接状况。 互学习训练方法的正向学习过程体现了有向网络中从起点到终点通路的搜索过程,而负向学习过程则体现了从终点到起点间通路的搜索过程,训练中止,两个神经网络达到阶段性平衡后,网络连接权值不仅体现了有向网络中从起点到终点间通路的最佳连接状况,而且体现了从终点到起点间通路的最佳连接状况,即网络连接权论文在线出版号  No.37  刘威等:互学习神经网络训练方法研究  17  值体现了有向网络中从起点到终点和从终点到起点双向互通的通路的连接状况。 这相当于在网络连接权值构成的高维权值空间中找到了一个更好的位置,由于密集样本在高维空间中很难找到,因此,和传统神经网络训练方法得到的权值空间位置相比,该位置位于输入和输出间的双向互通区域,从该位置出发,不仅易于建立起输入到输出之间的映射,而且易于建立起输出到输入之间的映射。在有限迭代次数的训练条件下,神经网络自由参数在权值空间中的位置影响着网络泛化性能的大小,当新的样本数据输入到训练好的神经网络中时,由于走的是双向互通的路径,因此网络计算产生的输出标签要比经由传统神经网络训练产生的输出标签更为准确或偏差更小,网络的泛化性能更高。 8   互学习转换训练方法 在性能评估部分通过数值实验得到了一个重要结论:采用互学习转换训练方法训练的神经网络比单独标准正向训练和单独互学习训练得到的神经网络具有更好的性能。为此,我们在互学习训练方法基础上提出了“互学习转换训练方法”。 互学习转换训练方法是基于BP算法的两阶段训练方法,其中第一阶段是互学习训练阶段,第二阶段是标准正向训练阶段。训练过程中首先利用互学习进行监督预训练,然后去掉负向学习过程,再利用标准正向训练进行监督微调。本文数值实验部分采用的EPT-MLEIT-ML 方法均为互学习转换训练方法。 数值实验结果表明,互学习转换训练方法训练的神经网络综合了互学习和标准正向学习的优点,起到了和文献[14]中提出的“无监督预训练+监督微调”的深度神经网络训练方法相似的效果。通过互学习预训练,可以在权值空间中找到一个较好的初始权值位置,一方面保证了网络收敛,另一方面还能够加速网络训练过程,转换到标准正向训练后,只需对权值参数空间进行局部搜索,就从整体上减小级联误差,这相比传统神经网络训练来说,收敛更快,泛化能力更好。 9   结论与展望 本文从模拟生物双向认知能力的角度出发,通过引入模拟逆向认知过程的负向神经网络,构造了互学习神经网络模型,并在此基础上提出了互学习神经网络训练方法和互学习转换训练方法,通过理论分析和数值实验形成结论如下: (1)基于结构对称和权值共享的“互学习神经网络模型”是对生物双向认知能力进行模拟的有效工具。结构对称的正向神经网络和负向神经网络分别模拟了生物的顺向认知过程和逆向认知过程。 (2)“互学习神经网络训练方法”利用输入数据和输出标签对正向神经网络进行训练,利用输出标签和输入数据对负向神经网络进行训练,并通过权值矩阵转置共享的方式使正向学习和负向学习交替进行,这种训练方法模拟了人脑形成概念的过程中通过多次对比,粗糙地认识概念的外延,粗糙地认识概念的内涵,再精细的认识概念的外延,精细的认识概念的内涵,这一循环往复的认知过程。利用互学习神经网络训练方法对互学习神经网络模型进行训练,实现了神经网络对生物双向认知能力的模拟,更符合生物的实际认知行为。 (3)“互学习转换训练方法”融合了互学习训练方法和标准正向训练方法的优势,互学习阶段的预训练利用梯度下降原理在权值空间和其对偶空间中进行双向搜索,与传统神经网络训练方法相比,可以使神经网络更快速地在权值空间中探索到一个收敛快、梯度大、分类泛化能力好的权值位置,转换到标准正向训练后,能够充分发挥算法极值寻优能力好的特点,使网络快速、稳定收敛。 (4)数值实验结果表明:互学习神经网络训练方法能够对模拟生物双向认知能力的互学习神经网络模型进行训练,并使正、负向两个神经网络同时收敛。 (5CMU PIE数据集和Mnist数据集上的负向训练可视化结果验证了负向神经网络训练对生物逆向认知过程的模拟能力,进一步揭示了神经网络的训练过程是数据驱动的学习过程,其学习结果是数据本质特征和组织形式的真实反映。数据间的内在关系不仅可以通过正向神经网络的顺向学习过程得以反映,而且可以通过负向神经网络的逆向学习过程得到刻画,这是由数据本身的内在属性所决定的。若将互学习训练方法应用于深度网络图像处理,将卷积特征作为输入,训练深度网络的最后三18  计  算  机  学  报     2017年  个全连接分类器[23],则可以实现卷积特征和图像标签的相互对应,正向输入用于分类预测,负向输入用于重构该类别的卷积特征,再利用反卷积网络则能够可视化某个特定类别的图像重构生成过程,实现基于深度网络end-to-end(标签端到输入端)的图像重构,这种利用互学习训练方法实现的自动重构绘画形式充分展现了互学习训练方法在人工智能艺术创作领域的广阔应用前景。 (6)结合本文的实验结果和文献[14]RBMSAE 上的实验结果进一步表明:基于结构对称和权值共享的神经网络模型(数据自身间的自学习神经网络模型和数据与标签间的互学习神经网络模型)在无监督学习和监督学习过程中都可以进行训练,并都能够保证网络收敛。 本文所做工作是对神经网络在生物双向认知能力模拟方面的一次有益尝试,数值实验结果充分证明了互学习神经网络训练方法的可行性。但是互学习神经网络训练方法在加速网络训练的同时,也使得网络的学习参数增加了一倍,因此,在如何有效的配置网络训练参数、丰富方法的理论内涵、拓展方法的实际应用等方面还需进一步的深入研究。 参  考  文  献 [1]  Simon  Haykin.  Neural networks  and learning machines.  third  edition. New Jersey, USA: Prentice Hall, 2008 [2]  Hinton  G.  E..  A  practical  guide  to training restricted  boltzmann machines. Momentum, 2010, 9(1):599-619 [3] Sutskever I., Martens J., Dahl G., and Hinton G.E.. On the importance of initialization  and  momentum  in  deep  learning.  //Proceedings  of  the International  Conference  on  Machine  Learning. Atlanta,  USA, 2013: 11391147 [4] Wang J., Wu W., Zurada J. M.. Deterministic convergence of conjugate gradient method  for  feedforward  neural  networks.  Neurocomputing, 2011, 74(14-15):23682376 [5] Le Q. V., Ngiam J., Coates A., et al. On optimization methods for deep learning.  //Proceedings  of  the  International  Conference  on  Machine Learning. Washington, USA, 2011:265-272 [6] Martens J.. Deep learning via hessian-free optimization. //Proceedings of the  International  Conference  on  Machine  Learning.  Haifa,  Israel, 2010:735-742 [7] Deng Wan-Yu,  Zheng Qing-Hua,  Chen Lin,  Xu Xue-Bin.  Research  on extreme learning  of neural  networks. Chinese  Journal  of  computers, 2010, 33(2):279-287 (in Chinese)         (邓万宇,  郑庆华,  陈琳,  许学斌.  神经网络极速学习方法研究.  计算机学报, 2010, 33(2):279-287) [8] Hirschauer P., Larzabal P., Clergeot H.. Design of neural estimators for multisensors:  second  order  backpropagation,  initialization  and generalization. // Proceedings of the IEEE International Conference on Acoustics,  Speech  and  Signal  Processing.  Adelaide,Australia, 1994:537-540 [9] Setiono R.. A penalty-function approach for pruning feedforward neural networks. Neural Computation, 1997, 9(1):185-204 [10]  Shao  Hong-Mei.  Converge  of bp  algorithms  with  penalty  for fnn training[phd thesis].  Dalian  University  of  Technology.  Dalian, China, 2006(in Chinese)         (邵红梅.  带惩罚项的BP神经网络训练算法的收敛性[博士学位论文].  大连理工大学,  大连, 2006.[11]  Gao  Peng-Yi.  Study  on the optimization  of backpropagation neural network classifier[phd  thesis].  Huazhong  University  of  Science  and Technology, Wuhan, China, 2012 (in Chinese)         (高鹏毅. BP 神经网络分类器优化技术研究[博士学位论文].  华中科技大学,  武汉, 2012) [12] Ham F. M., Kostanic I. Principles of neural computing for science and engineering. New York, USA: McGraw-Hill, 2000 [13]  Jiao  Li-Cheng,  Yang  Shu-Yuan,  Liu  Fang,  Wang  Shi-Gang,  Feng Zhi-Xi. Seventy years beyond neural networksretrospect and prospect. Chinese Journal of Computers, 2016, 39(8):1697-1716       (焦李成,  杨淑媛,  刘芳,.  神经网络七十年:回顾与展望.  计算机学报, 2016, 39(8):1697-1716.) [14] Hinton G.E. and Salakhutdinov R. R.. Reducing the dimensionality of data with neural networks. Science, 2006, 313(5786): 504-507 [15] Zhou Zhi-Hua. Machine learning. Beijing, China: Tsinghua University Press, 2016(in Chinese)         (周志华.  机器学习.  北京:  清华大学出版社, 2016) [16] Liu Jian-Wei, Liu Yuan, Luo Xiao-Lin. Research and development on deep  learning.  Application  Research  of  Computers.  2014,  31(7): 1921-1930. (in Chinese)         (刘建伟,  刘媛,  罗雄麟.  深度学习研究进展.  计算机应用研究, 2014, 31(7):1921-1930) [17]  Wang  Pei-Zhuang,  Zhang  Da-Zhi.  An  exploratory  study  on mathematical form  of ideology.  Applied  MathematicsA  Journal  of Chinese Universities, 1986, 1(1):85-95 (in Chinese)         (汪培庄,  张大志.  思维的数学形式初探.  高校应用数学学报:中文版, 1986, 1(1):85-95) [18] Metzler R., Kinzel W., Kanter I.. Interacting neural networks. Physical Review.  E,  Statistical  Physics,  Plasmas,  Fluids,  and  Related 论文在线出版号  No.37  刘威等:互学习神经网络训练方法研究  19  Interdisciplinary Topics, 2000, 62(2 Pt B):2555-2565 [19] Montavon  G.,  Orr  G.,  Müller  K.  R..  Neural  networks: tricks  of  the trade.  Berlin,  Germany:  Springer  Publishing  Company,  Incorporated, 2012   [20] Kramer A. H., Sangiovanni-Vincentelli A. L.. Efficient parallel learning algorithms  for neural networks.  //Proceedings  of Advances in  Neural Information Processing Systems. Denver, USA, 1988:40-48 [21] Sim T., Baker S., Bsat M.. The cmu pose, illumination, and expression  (PIE)  database//Proceedings  of  the  IEEE  International  Conference  on Automatic  Face  and  Gesture  Recognition,  Washington,  USA, 2002:46-51 [22] Kanade  T.,  Yamada  A..  Multi-subregion  based  probabilistic  approach toward  pose-invariant  face  recognition.  //Proceedings  of  the  IEEE International  Symposium  on  Computational  Intelligence  in  Robotics and Automation. Kobe, Japan, 2003:954-959  [23]  Zeiler  M. D.,  Fergus  R.. Visualizing  and understanding convolutional networks. Lecture Notes in Computer Science, 2013, 8689:818-83   Liu  Wei,  born  in  1977,  Ph.D., associate  professor.  His  research interests  include  machine  learning, deep neural  network,  mining  systems engineering.                         Liu  Shang,  born  in  1988,  M.S.,  His  research  interests include artificial intelligence and pattern recognition, machine learning.     Bai  Run-Cai,  born  in 1961,  Ph.D.,  His  research  interests include mining system engineering. Zhou  Xuan,  born  in  1992, M.S. Her  research  interests include machine learning, deep neural network. Zhou  Ding-Ning,  born  in  1993,  M.S.,  His  research interests include machine learning, deep neural network.   Background Neural  network training method has been an important problem  in  the  field  of  neural  network  research.  Now, the research  mostly  concentrated  in  the  positive  neural  network, namely  the  establishment  of  the  mapping  from  the  input space to the output space, and this research mainly focuses on how  to  use  neural  network  to  simulate  the  bidirectional cognitive ability. This  paper  presents  a  new  neural  network  model: mutual  learning  neural  network  model.  This  model  is motivated  by  the  simulation  of  biological  bidirectional cognitive ability.  The  mutual  learning  neural  network  model not  only  contains  standard  positive  neural  network,  but  also introduces  a  symmetrical  negative  neural  network.  It  uses positive  and  negative  neural  network  to  stimulate  forward and  backward  biological  cognitive  process.  Based  on  the mutual  learning  neural  network  model,  an  innovative  neural network  learning  method  called  mutual  learning  neural network  training  method  is  proposed  in  this  paper.  This innovative method trains the mutual  learning neural network model  through  the  network  connection  weights  transpose  sharing  and  positive  and  negative  bidirectional  alternating training, so that  input  data and output  results can learn from each  other.  Therefore,  the  network  has  the  bidirectional cognitive ability. The  theoretical  analysis and  numerical  experiment results show the effectiveness and performance advantages of the  mutual  learning  neural  network model.  Meanwhile,  this paper  also  proposes  the "mutual  learning  neural  network training  +  standard  positive  training" which  is  a two-stage learning strategy, the transformation learning method has the same  effect  as  the  "unsupervised  pre-training  +  supervision and fine-tuning", so that the network training effect is better. This  work  is  supported  by National  Natural  Science Foundation  of  China  under  Grant  Nos.  51304114  and 71371091.  The research results of this paper have played a positive role  in  promoting  the  development  of  artificial  neural network towards more pseudo brain, and also provide a new idea for the study of the deep learning algorithms.  

[返回]
上一篇:基于CNN与ELM的二次超分辨率重构方法研究
下一篇:高阶掩码防护的设计实现安全性研究