欢迎访问一起赢论文辅导网
SCI期刊论文
当前位置:首页 > SCI期刊论文
采用深度学习的多方位角 SAR 图像目标识别研究
来源:一起赢论文网     日期:2018-12-24     浏览数:337     【 字体:

  34 卷目标观测方位角的变化十分敏感[5],即便观测方位角间隔不大,目标在 SAR 图像中的形态也不尽相同。这给 SAR 图像解译和地物目标识别带来了特殊的难题。近年来,深度学习(Deep LearningDL)在自然语言处理、语音识别、目标检测、图像分类、人机博弈、自动驾驶等模式识别领域取得了长足的发展和辉煌的成绩,各行各业对深度学习方面的人才需求大增[6]。常用的深度学习算法有卷积神经网络[7]、深度置信网络(Deep Belief NetworkBDN)8]、循环神经网络(e-current Neural Network,RNN)9],等等,其中,在目标检测、目标识别等计算机视觉领域使用最为广泛的算法则是卷积神经网络。计算机计算性能的指数级别提升和互联网海量数据的便捷获取将深度学习推向新的高潮。2012 年,在 Image Net 举办的大规模图像分类竞赛( Image Net Large Scale Visual ec-ognition ChallengeILSVC ) 中,Krizhevsky 等人[10]设计了一个具有 8 层网络结构的 Alex Net 深度学习网络,以 15. 3% Top5 错误率夺得冠军,该错误率远低于之前 26% 的最低错误率。Szegedy 等人[11]于 2014 年设计了一个拥有 22 层网络结构的Google Inception 网络,在降低参数量和计算量的同时,以 6. 67% Top5 错误率获得冠军。在 2015年,He 等人[12]将网络层次继续加深,提出的 152层的残差网络( esidual Network,Res Net) 将错误率继续降低至 3. 57% ,超越了人工标注的 5% 的错误率。目前,基于深度学习的光学图像目标识别算法已被广泛应用到 SAR 图像目标识别中,并取得了不错的正确识别率 ( Probability of Correct CognitionPCC) 2014 年,Chen 等人[13]设计了一个单隐层卷积神经网络对 SAR 图像目标进行识别,在经典的 10大类军事目标数据集上获得了 847% 的正确识别率。2016 年,田壮壮等人[14]将类别可分性度量正则化项添加到了损失函数中,并利用支持向量机(Support Vector MachineSVM) 对卷积神经网络提取出的特征图(Feature map)进行分类,提高了网络的类别区分能力。同样在 2016 年,Chen 等人[15]针对目前 SAR 图像数据规模比较小、对观测条件敏感等客观条件,设计了一个拥有 5 个卷积层(Convolu-tional layer) 3 个池化层( Pooling layer) 的卷积神经网络,他们用卷积层替换了全连接层,并取得了9913% 的识别率。不过他们通过在数据集上对图像进行随机裁剪和翻转的方法增强训练数据集,将图像训练样本数量扩大到了原来的 10 倍,这将导致训练时间的增加。2017 年,Furukawa 等人[16]借鉴了残差网络的设计思想,针对 SAR 图像目标识别设计出一个拥有 18 个卷积层的网络结构,并通过随机裁剪等数据增强方法取得了极高的识别率。不过该网络拥有高达百万数量级别的庞大参数,训练网络时将占用巨大的计算资源以及耗费大量的时间,参数数量存在冗余,尚有待优化。上述这些 SAR 目标识别方法都只是利用了目标的单一方位角观测图像,并没有考虑到 SAR 图像数据的获取特点,即雷达可以从多个方位角对目标进行成像,这些图像中目标的信息存在一定的冗余。而且,这些方法(除文献[15]外)只对形态差异较大的目标数据集的识别率情况进行了讨论,而没有考虑形态差异很小的目标数据集的识别率情况。本文设计了一个利用同一目标的多方位角 SAR 图像进行目标识别的卷积神经网络,选取的 3 幅同目标 SAR 图像在方位角上是连续获取的,它们被分别当作彩色图像的 R、GB 三个通道的图像输入到网络中。此外,在本文设计的卷积神经网络中,每次卷积运算后紧接着一次批归一化(Batch Normaliza-tionBN) 处理[17],以提升网络的容纳能力,最后一个池化层通过尺度压缩将特征图展平(Flatten)。该网络一共有 4 个卷积层和 4 个池化层,以及一个全连接层(Fully connected layer),具有参数规模小和正确识别率高的特点。2 网络结构卷积神经网络的前几层一般由卷积层和池化层交替构成,后面则是若干全连接层,最后接入Softmax 回归进行分类识别。其中卷积层用来学习图像中不同的特征,池化层是为了在尺度空间上保证特征的层次性,全连接层则可以被看作是高维空间的一个分类器,Softmax 回归将识别结果以归于各个类别的概率输出。本文设计的网络共有 4 个卷积层和 4 个池化层,以及 1 个全连接层,其整体结构如415 期 邹 浩 等:采用深度学习的多方位角 SAR 图像目标识别研究图 1 所示,其中卷积层用“Conv”表示,“[email protected] 5×5”表示该卷积层共有 15 个尺寸为 5×5 的卷积核,激活函数 ( Activation function ) 选 用 修 正 线 性 单 元(ectified Linear Unit,Re LU),池化层选用最大池化(Max pooling),“2×2”表示该池化层的下采样窗口的尺寸为 2×2。所有卷积核的步长(Stride) 均设置为 1,特征图四周无补 0 操作,所有下采样窗口的滑动步长均设置为 2。图 1 网络整体架构Fig1 Network architecture单幅 SAR 图像的尺寸被裁剪成 80×80,一共输入 3 幅,即输入的伪彩色图像的尺寸为 80×80×3。第 1 个卷积层共有 15 个尺寸为 5×5 的卷积核,输出是 15 个尺寸为 76×76 的特征图,经过第 1 个池化层后特征图的尺寸变为 38×38。第 2 个卷积层共有 30个尺寸为 5×5 的卷积核,输出是 30 个尺寸为 34×34的特征图,经过第 2 个池化层后特征图的尺寸变为17×17。第 3 个卷积层共有 60 个尺寸为 6 × 6 的卷积核,输出是 60 个尺寸为 12×12 的特征图,经过第3 个池化层后特征图的尺寸变为 6 × 6。第 4 个卷积层共有 120 个尺寸为 5×5 的卷积核,输出是 120 个尺寸为 2×2 的特征图,经过第 4 个池化层后特征图的尺寸变为 1×1,该池化层通过尺度压缩实现了特征图的展平操作。120 1×1 的特征图即一个 120维的向量,经过 1 个全连接层后输出到 N 个节点,每个节点经过 Softmax 处理后输出该目标归于各个类别的概率,这里 N 表示目标的类别数量。21 网络的输入卷积网络的输入为一幅伪彩色图像,它的 R、GB 三个通道的图像分别是在连续方位角上获取的同一目标的三幅 SAR 图像。不妨设这三幅图像分别为 Aθ1Aθ2Aθ3,其中 θi(i= 123)为飞行平台获取图像 Aθi时的方位角角度,那么伪彩色图像的三个通道可以表示为R = rotate( Aθ1,θ2- θ1)G = rotate( Aθ20)B = rotate( Aθ3,θ2- θ3)(1)这里,rotate(X,)表示将图像 X 逆时针旋转了  度。因此,伪彩色图像可以表示为A = cat( R,GB) (2)其中 cat(·)表示图像叠加操作。图 2 是在不同方位角获取的同一目标的 SAR图像及其伪彩色图像,其中图 2(a) (f) 分别是在方位角为 738°、748°、758°、788°、828°和 838°处获取的,它们在方位角上是连续的。观测方位角的差异使得 SAR 图像中目标具有不同的形态,即便方位角角度差很小,但是由此而引起的图像变化却不容忽视。图 2(g) (j) 是图 2(a) (f) 中连续的三幅图像合成的伪彩色图像,图 2(g)对应着图 2(a) (c),图 2(h)对应着图 2(b) (d),以此类推。彩色信息赋予了目标更丰富的内容,彩色信息的差异则是观测方位角差异在目标成像上的体现。在真实场景中,我们可能无法提前获取目标的具体朝向,也就无法直接获取目标的地面真实信息,515信 号 处 理 第 34 卷图 2 同一目标的 SAR 图像(a) (f)和伪彩色图像(g) (j)Fig2 SAimages ( a) ( f) and pseudo-color images ( g) ( j) of the same target也即无法预知 θ1、θ2和 θ3的值,但是飞行平台在获取图像数据的过程中可以获取到相邻两个观测方位角的角度差,即 θ2- θ3和 θ2- θ1是可以计算出来的。因此,飞行平台只需在连续的 3 个方位角获取目标的 SAR 图像即可满足本文设计的卷积网络的要求。22 引入批归一化批归一化本质上是为了解决网络在反向传播(Back PropagationBP) 过程中的梯度不稳定问题,以加快网络的收敛速度。若令hl= ωTlhl 1(3)表示网络从第 l1 层传播到第 l 层,即网络的前向传播,其中 ωl为第 l 层的权重参数矩阵,hl为第 l层的节点。那么从第 l 层传播到第 l1 层,即网络的反向传播可以表示为Δlhl 1=Δlhl·hlhl 1=Δlhl·ωl(4)其中 Δl为反向传播过程中第 l 层的差值。当网络从第 l 层反向传播到第 k(kl)层时,有Δlhk=Δlhl·hlhl 1…hk + 1hk=Δlhl·∏li = k + 1ωi(5)在结构比较深的网络中,如果 ωi大都小于 1,那么∏li = k + 1ωi就会变得很小,以至于梯度消失;如果 ωi大都大于 1,那么∏li = k + 1ωi就会变得很大,以至于梯度爆炸,这将导致网络的不稳定。批归一化主要在神经网络的前向传播过程中对每层的输入数据做一次白化处理,使不同尺度的参数的整体更新步调一致。假设在某一层网络中一次批量训练的输入数据为 x1x2,…,xm,计算它们的均值和方差μ =1mmi = 1xi(6)σ2=1mmi = 1(xi- μ)2(7)接着对其作白化处理,即^xi=xi- μσ2+槡 (8)其中  是一个很小的正常数,是为了防止当方差 σ2趋近于 0 时出现“除 0 溢出”的情况发生。批归一化会改变原始数据的分布,会使得大部分数据被拉至激活函数中间的线性部分,而在深层网络中非线性变换是至关重要的。因此,为了在非线性和梯度之间做个权衡,引入两个参数 γ 和 β 进行对数据自动调整:yi= γ^xi+ β ( 9)参数 γ 和 β 分别对数据做尺度变换和平移变换,是需要网络自己去权衡和学习的。23 学习率的设计本文采用小批量随机梯度下降法( Mini-batchStochastic Gradient DecentMSGD)18]对整个网络进行训练,并使用参数为 09 的动量(Momentum)来保持梯度下降的惯性方向,以增强网络训练的稳定性。在初始训练时给定一个稍大的初始学习率 υ0,每当训练完 d 轮训练数据集后,使学习率下降到之615收稿日期: 20171229; 修回日期: 20180327基金项目: 国家自然科学基金资助项目(61431018615714216157141961501210)采用深度学习的多方位角 SAR 图像目标识别研究邹 浩123林 赟12洪 文12( 1. 中国科学院空间信息处理与应用系统技术重点实验室,北京 100190;2. 中国科学院电子学研究所,北京 100190; 3. 中国科学院大学,北京 100049)摘 要: 合成孔径雷达(Synthetic Aperture adarSA)在对地面目标进行观测时,可以在多个不同的方位角获取到目标的 SAR 图像,但这些图像中目标的形态各不相同。考虑到 SAR 图像对观测方位角极其敏感和 SAR 图像数据规模小这两个因素,本文设计了一个利用多方位角 SAR 图像进行目标识别的卷积神经网络( ConvolutionalNeural NetworkCNN),同一目标的 3 SAR 图像被当作一幅伪彩色图像输入到网络中,充分利用了 SAR 图像数据的获取特点,同时用池化层替代了展平操作,降低了网络参数数量。实验结果表明,即便在小规模 SAR 数据集上,该卷积网络具有识别精度高的特点,对同类别不同型号的目标也具有出色的识别表现。关键词: 深度学习; 多方位角; 目标识别; 合成孔径雷达中图分类号: TP753 文献标识码: A DOI: 1016798/jissn1003-0530201805002esearch on Multi-Aspect SAImages Target ecognition Using Deep LearningZOU Hao123LIN Yun12HONG Wen12(1Key Laboratory of Geo-spatial Information Processing and Application System TechnologyChinese Academy of SciencesBeijing 100190China; 2Institute of ElectronicsChinese Academy of SciencesBeijing 100190China;3University of Chinese Academy of SciencesBeijing 100049China)Abstract: Synthetic Aperture adar ( SA) can obtain SAimages of the target from a number of different azimuths whenobserving a ground targetbut the shapes of the target in these images are differentIn view of the fact that SAimage isextremely sensitive to the observation azimuth and small scale of SAimage datasetthis paper designs a ConvolutionalNeural Network ( CNN) for multi-aspect SAimages target recognitionThree SAimages of the same target are regardedas a pseudo-color image inputted to the networkwhich making full use of the acquisition characteristics of SAimage dataInstead of flatteningwe use pool layer to reduce the number of parameters of network at the same timeThe experimentalresults show that this convolutional network architecture has high recognition precision on small scale of SAdatasetandhas excellent recognition performance for different types of targets in the same categoryKey words: deep learning; multi-aspect; target recognition; synthetic aperture radar1 引言合成孔径雷达是一种主动式微波遥感设备,它通过发射电磁波并接收回波对目标进行成像,其特殊的成像机理使其不受光照和气候的影响,能够全天时、全天候地对地面观测目标进行高分辨地成像,因此适用于军事侦查、遥感测绘、地球科学、水文地矿 等 领 域,具 有 很 高 的 军 用 价 值 和 民 用 价值[1-3]。与光学图像不同,SAR 图像中含有大量的相干斑噪声[4],严重影响了图像质量,对目标的检测和识别有较大的影响。此外,由于透视伸缩、阴影、叠掩等 SAR 影像固有的变形现象,SAR 图像对 期 邹 浩 等:采用深度学习的多方位角 SAR 图像目标识别研究前的 α 倍,即υi + 1= αυiif mod( id) = 0υi + 1= υiothers{(10)其中 i(i1)为训练轮数。本文中,υ00001d 5,α 取 053 实验结果与分析本文使用了由 Sandia National Laboratory 提供的 SAR 图 像 数 据 集———静 止 目 标 获 取 与 识 别(Moving and Stationary Target Acquisition and ecog-nitionMSTA) 数据集。在该数据集中,所有图像的分辨率为 03 m×03 m,方位向从 0°到 360°覆盖了每个目标,涵盖了不同类别、不同型号、不同方位角、不同俯视角的军事目标,其中公开可用的只有小部分。本文分别在经典的 10 大类目标数据集和8 T72 坦克目标数据集上各自做了实验,以验证本文提出的利用目标多方位角 SAR 图像进行目标识别的方法的可行性和有效性,并与其他卷积神经网络方法在识别精度和网络参数数量上作了对比分析。在训练网络和测试网络的时候,输入的均是在连续方位角上获取的同一目标的 3 SAR 图像。31 实验一实验一用到的 SAR 图像数据为经典的 10 大类目标 ( 分 别 为 T62T72BMP2BDM2BT60BT70D7ZIL131ZSU23 / 42S1) 图像,它们各自的光学图像和同一方位向下的 SAR 图像如图 3 所示,从图中可以看出,不同目标的光学图像具有很大的差异,对应的 SAR 图像也存在人眼可辨的差别。表 1 是实验一用到的训练样本和测试样本的型号及其数量,其中在 17°俯视角下获取的 SAR 图像用于训练,在 15° 俯视角下获取的 SAR 图像用于测试。表 2 是实验一的正确识别率混淆矩阵,混淆矩阵中每一行表示目标所属的真实类别,每一列表示卷积网络的预测结果。从表中可以发现,除了目标BT60 未达到百分之百的识别外,其他 9 类目标均得到了完全的识别,整体识别率达到 9992% ,这说明本文搭建的卷积网络能够有效地对 SAR 目标进行识别。利用多幅同目标 SAR 图像作为输入的策略增加了目标的信息,网络通过反向传播能够捕获到这些重要的信息,从而提高目标识别正确率。表 3 是本文方法与其他方法的对比,分别从网络参数数量和正确识别率两个方面进行了对比分析。从文献[15-16][19-20]可以看出,目标的正确识别率与网络参数数量有关,随着参数数量的增加正确识别率也随之升高,说明针对含有大量相干斑噪声的 SAR 图像而言,过少的参数不足以挖掘出不同类别目标之间的特征,会导致较低的识别率。为了达到 9956% 的识别率,文献[16]使用了上百万数量级别的参数,这在训练网络和测试网络时会占图 3 实验一中目标的光学图像和 SAR 图像Fig3 Optical images and SAimages of targets in experiment ONE1 实验一的数据集Tab1 Dataset of experiment ONE目标型号 2S1 BMP2 BDM2 BT60 BT70 D7 T62 T72 ZIL131 ZSU234训练集(17°) 299 233 298 256 233 299 299 232 299 299测试集(15°) 274 195 274 195 196 274 273 196 274 274715信 号 处 理 第 34 卷表 2 实验一的混淆矩阵Tab2 Confusion matrix of experiment ONEClass 2S1 BMP2 BDM2 BT60 BT70 D7 T62 T72 ZIL131 ZSU234 PCC / %2S1 273 0 0 0 0 0 0 0 0 0 100BMP2 0 195 0 0 0 0 0 0 0 0 100BDM2 0 0 274 0 0 0 0 0 0 0 100BT60 0 0 1 193 0 0 0 0 0 1 9897BT70 0 0 0 0 196 0 0 0 0 0 100D7 0 0 0 0 0 274 0 0 0 0 100T62 0 0 0 0 0 0 273 0 0 0 100T72 0 0 0 0 0 0 0 196 0 0 100ZIL131 0 0 0 0 0 0 0 0 270 0 100ZSU234 0 0 0 0 0 0 0 0 0 274 100Total 9992用大量的计算资源,效率也会很低。在具有 99% 以上识别率的方法中,本文方法用最少的参数,却获得了最高的识别率,这一方面得益于本文使用多幅同目标图像作为网络训练和测试的输入,另一方面和网络的设计也分不开。在该数据集上,本文方法具有高达 9992% 的识别精度,说明本文利用多方位角 SAR 图像在卷积神经网络中进行目标识别的方法是一种有效的 SAR 图像目标识别方法。表 3 与其他方法的比较Tab3 Comparison with other methods方法 网络参数数量/(万个) PCC/%Morgan1988 9230刘寒颖[20189 9760Chen15303 9913Furukawa162752 9956本文方法 259 999232 实验二实验二同样用到了 MSTAR 数据,不过此次的目标均为 T72 坦克,只是它们的具体型号不同,分别为 A04A05A07A10A32A62A63 A64,共计8 种目标。图 4 是实验二用到的 8 种不同型号的T72 坦克的光学图像和在同一方位向下 SAR 图像,从它们的光学图像中可以看出,这 8 T72 坦克具有相似的外形,难以区分,而人眼几乎无法从它们的 SAR 图像中判别出它们的所属型号,这给 SAR图像目标识别带来了挑战性的难题。表 4 是实验二用到的训练样本和测试样本的型号及其数量,其中在 17°俯视角下获取的 SAR 图像用于训练,在 15°俯视角下获取的 SAR 图像用于测试。表 5 和表 6 是实验二的正确识别率混淆矩阵,其中表 5 是输入为单幅目标图像得到的识别结果,表 6 是输入为 3 幅同目标图像(作为 1 幅伪彩色图像)得到的识别结果,我们并未改变网络的结构和超参数,只是对输入做了修改。从表中可以发现,利用 3 幅图像作为输入时的整体正确识别率较单幅图像相比提高了 758% ,各个目标的识别率也都有所提升,其中目标 A63 8456% 的识别率提升到9818% ,足足提升了 1362% ,这说明多幅图像能够携带目标更多的信息,卷积网络正是捕获了这些信息,提高目标正确识别率。在同类别不同型号目标的识别问题上,本文方法能够获得 9849% 的识别率,说明本文方法在同类别不同型号的目标识别问题上具有较强的鲁棒性。815 期 邹 浩 等:采用深度学习的多方位角 SAR 图像目标识别研究图 4 实验二中 8 种不同型号的 T72 坦克的光学图像和 SAR 图像Fig4 Optical images and SAimages of 8 different types of T72 tank in experiment TWO4 实验二的数据集Tab4 Dataset of experiment TWO目标型号 A04 A05 A07 A10 A32 A62 A63 A64训练集(17°) 299 299 299 296 298 299 299 299测试集(15°) 274 274 274 271 274 274 274 274当卷积网络的输入为单幅 SAR 图像和 3 SAR 图像时,第 1、第 2 个卷积层分别得到的特征图如图 5 所示,其中第 1 个卷积层共得到 15 张特征图,尺寸为 76×76,第 2 个卷积层共得到 30 张特征图,尺寸为 34×34。图 5(a)和图 5(c)是输入分别为单幅图像和 3 幅图像时第 1 个卷积层获取的特征图,从图中可以看出,图 5( a) 中的特征图受原始SAR 图像中相干斑噪声的影响十分严重,目标及其阴影在特征图中表现得并不明显,甚至在有些特征图中几乎难以辨别出目标,目标周围的环境噪声被放大。而图 5(c) 中的特征图几乎不受到相干斑的影响,目标所在位置清晰可见,目标及其阴影的轮廓也十分明显,目标周围的环境噪声得到抑制,这说明将 3 幅图像作为 1 幅伪彩色图像输入到卷积网络中增加了目标的信息,卷积网络通过反向传播优化参数,能够捕获到这些有用的信息。图 5(b)和图5( d) 是输入分别为单幅图像和 3 幅图像时第 2 个卷积层获取的特征图,从图中可以发现,图 5(b) 中的特征图开始变得紊乱,而图 5(d)中的特征图依旧十分清晰,即图 5(d) 提取出的特征要比图 5(b) 好很多,而更好的特征则意味着更高的正确识别率。表 5 实验二的混淆矩阵(单幅图像)Tab5 Confusion matrix of experiment TWO ( single image)Class A04 A05 A07 A10 A32 A62 A63 A64 PCC / %A04 239 1 3 0 3 2 15 2 9019A05 0 258 9 8 1 0 2 14 8836A07 7 7 229 2 3 0 1 4 9051A10 2 3 10 261 0 0 1 0 9422A32 10 2 10 0 265 3 3 0 9044A62 2 1 0 0 1 247 11 2 9356A63 14 0 9 0 1 18 241 2 8456A64 0 2 4 0 0 4 0 250 9615Total 90916 实验二的混淆矩阵(3 幅图像)Tab6 Confusion matrix of experiment TWO ( three images)Class A04 A05 A07 A10 A32 A62 A63 A64 PCC / %A04 264 0 0 0 5 1 4 0 9635A05 0 274 0 0 0 0 0 0 100A07 0 1 271 2 0 0 0 0 9891A10 0 0 0 270 0 0 0 1 9963A32 0 1 2 0 271 0 0 0 9891A62 0 0 0 0 0 270 3 1 9854A63 3 0 0 1 0 0 269 1 9818A64 0 1 5 0 0 0 1 267 9745Total 9849915信 号 处 理 第 34 卷图 5 输入分别为单幅图像和 3 幅图像时,不同卷积层中的特征图Fig5 Feature maps of different convlayerswhen input is a single image or three images一方面卷积核提取出的特征图的质量好坏影响着整体识别性能,另一方面,卷积核的个数同样对识别性能有所影响。在用深度学习做图像识别领域中,一般地,后一层卷积层中卷积核的数量是前一层的两倍,也就是说,如果第 1 个卷积层有 s 个卷积核,那么第 k(k2)层卷积层则有 2k1·s 个卷积核,本文的网络亦采用了这样的设计策略。图 6展示了目标整体识别率随卷积核的数量变化的示意图,可以看出,识别率受卷积核的数量的影响颇大。当卷积核较少时,随着其数量的增加,正确识别率急速上升;但当卷积核较多时,随着其数量的增加,正确识别率上升缓慢,甚至几乎不再上升。卷积核的多少决定着特征图的数量,太少的卷积核不利于获得可观的目标识别率,而过多的卷积核不但对提高目标识别率帮助不大,还会在训练阶段占用大量的计算资源和训练时间。图 6 正确识别率与卷积核的数量的关系Fig6 elationship of PCC and the number ofconvolution kernels025

[返回]
上一篇:地质灾害监测中的SAR变形观测、解译与数据同化研究
下一篇:安全生产应急救援领域先进适用技术装备