欢迎访问一起赢论文辅导网
本站动态
联系我们

手机:153 2730 2358
邮箱:910330594@QQ.COM

Q Q:
910330594
网址:http://www.17winner.com
工作时间:
9:00-24:00  

硕士论文
当前位置:首页 > 硕士论文
融合多传感器信息的移动图像识别方法
来源:一起赢论文网     日期:2016-11-01     浏览数:409     【 字体:

 41卷 第8期 自 动 化 学 报 Vol. 41, No. 820158ACTA AUTOMATICA SINICA August, 2015一种融合多传感器信息的移动图像识别方法桂振文1吴侹1彭欣2摘 要 多传感器数据融合作为一种特殊的数据处理手段在图像识别领域得到了较大的重视和发展, 本文提出了一种融合多传感器信息的移动图像识别方法. 首先通过在智能手机端提取带传感器信息的图像局部特征, 增强局部特征的辨别能力; 其次改进了随机聚类森林的建立算法, 减少了样本图像训练时间; 最后使用快速几何一致性校验对匹配结果进行检查, 保证算法的识别精度. 实验结果表明, 本文提出的方法能够快速有效地识别移动图像, 并具有较好的鲁棒性, 同时与传统的Vocabularytree方法进行比较, 本文方法的识别速度和精度较优, 训练代价较低.关键词 多传感器数据融合, 移动图像识别, 随机聚类森林, 智能手机引用格式 桂振文, 吴侹, 彭欣. 一种融合多传感器信息的移动图像识别方法. 自动化学报, 2015, 41(8): 1394¡1404DOI 10.16383/j.aas.2015.c140177A Novel Recognition Approach for Mobile Image Fusing Inertial SensorsGUI Zhen-Wen1WU Ting1PENG Xin2Abstract Multi-sensor data fusion as a special means of data processing in the ¯eld of image recognition has beendeveloped rapidly. This paper presents a novel recognition approach for mobile image to fuse multi-sensor data. Firstly,the local features are extracted by fusing the sensor information to enhance the distinguish ability of them; secondly, theestablished method of random clustering forest is improved to reduce the training time of sample images; ¯nally, the fastgeometric consistency approach is used to check the matching result to ensure the recognition accuracy. Experimentalresults show that the proposed method can quickly and e±ciently recognize the object and has strong robustness. It alsohas a higher accuracy, faster recognition speed, and less training complexity than the traditional method of vocabularytree.Key words Multi-sensor data fusion, mobile image recognition, randomized clustering forests, smartphoneCitation Gui Zhen-Wen, Wu Ting, Peng Xin. A novel recognition approach for mobile image fusing inertial sensors.Acta Automatica Sinica, 2015, 41(8): 1394¡1404近年来, 随着智能手机的价格下降, 智能手机用户变得逐渐庞大. 越来越多的用户通过智能手机进行移动拍摄, 并将拍摄的视频、图像等上传到互联网上, 形成了一个巨大的图像资源库. 如何利用这些数字资源, 进行快速、高效的内容识别是一个关键问题. 移动拍摄的图像与传统的静态图像识别有较大区别, 容易受光照、尺度、视角、前景遮挡和背景杂收稿日期2014-03-24 录用日期2014-08-18Manuscript received March 24, 2014; accepted August 18, 2014国家高技术研究发展计划(863 计划) (2013AA013802),国家自然科学基金(61370134), 国家重大科技专项(2012ZX03002004),广东省协同创新与平台环境建设专项(2014B090901024) 资助Supported by National High Technology Research and Devel-opment Program of China (863 Program) (2013AA013802), Na-tional Natural Science Foundation of China (61370134), Na-tional Science and Technology Major Project (2012ZX03002004), and Collaborative Innovation and Platform EnvironmentConstruction Major Project of Guangdong Province (2014B090901024)本文责任编委徐昕Recommended by Associate Editor XU Xin1. 中国电子科技集团公司第七研究所广州510310 2. 广州杰赛科技股份有限公司广州5103101. China Electronics Technology Group Corporation No.7 Re-search Institute, Guangzhou 510310 2. Guangzhou Jie SaiScience and Technology Co., Ltd., Guangzhou 510310乱等因素的影响. 1给出了一些移动拍摄的室外建筑物图片.1 智能手机拍摄的室外建筑物图片Fig. 1 The outside building pictures by smartphones移动图像的识别系统包括图像内容表示和图像匹配两部分. 图像内容的表示方法可以分为基于全局特征的表示方法和基于局部特征的表示方法.8期 桂振文等: 一种融合多传感器信息的移动图像识别方法 1395全局特征提取的对象通常是整幅图像, 将整幅图像划分成均匀的子区域, 提取各个子区域的特征,再将所有子区域特征联合形成全局特征. 全局特征抽取速度快、有效利用图像上下文信息, 但是对图像缩放、亮度变化和目标遮挡比较敏感. 常见的全局特征有: GIST 全局特征信息[1]、方向梯度直方图特征(Histogram of oriented gradients, HOG)[2].局部特征提取的对象通常是局部的变化显著区域,常见的局部特征有: 尺度不变的特征变换(Scale-invariant feature transform, SIFT)[3]、加速鲁棒的特征(Speed up robust feature, SURF)[4], 对尺度、光照及旋转具有较好的鲁棒性. 文献[5] 提出了改进的SIFT算法, 能够在样本数量较大的情况下实现图像的快速识别. 文献[6] 提出了基于SURF的特征点匹配方法, 通过构建索引和采用票决算法, 实现了较高的匹配率. 图像内容表示方法的优劣, 直接决定着最终图像识别系统性能的高低. 图像特征匹配分为基于最近邻、基于词袋、基于机器学习及基于贝叶斯概率统计等方法.基于最近邻的匹配方法有K-D tree[7]Spilltree[8¡9]; 基于词袋特征的方法有Vocabularytree[10¡13]; 基于分类学习的有: SVM (Sup-port vector machine)[14¡17]Random clusteringforests[18¡19]; 基于贝叶斯概率的有: Randomizedtree[20]FERNS[21]. 基于最近邻方法的优点就是利用树形结构查找最近邻的特征, 相比逐个特征匹配算法, 缩小了比较范围, 实时性较好. 文献[9] 通过最近邻方法在智能手机上实现了一个基于自然特征实时位置跟踪系统, 实时性较好, 对少量目标跟踪精度较好. 但是, 当训练样本数增加, 跟踪精度急剧下降. 文献[22] 提出了一个基于局部均值与类全局信息的近邻原型选择方法, 能实现较高精度的图像识别, 但是计算量较大. 最近邻的弱点就是在样本数量增加的情况下, 查找时间和误差也会增大.基于词袋的方法通过提取局部描述K-meansclustering[23]Hierarchical K-means[10]方法进行聚类, 建立单词树, 再利用TF-IDF (Term frequ-ency-inverse document frequency)[23]方法查找样本库中最相似的图像. 文献[10¡13]中的大规模图像识别系统通过提取SIFT局部特征描述符[4], 经过单词树进行量化, 用词袋模型进行直方图表示和TF-IDF方法快速地查找样本库中最相似的图像.基于分类学习的方法常采用SVM对样本进行分类识别. 文献[14¡15]用词袋模型生成的统计直方图向量作为学习样本, 能解决大规模图像高精度的分类问题, 同时SVM分类器对图像检测的速度非常快, 通常是1 ms左右. 但是, 该类方法在训练图像较多时单词树的建立时间和内存开销都较大; 同时, 描述符经过单词树的量化, 降低了区分能力. 基于贝叶斯概率的分类方法是通过对特征点进行后验概率判断, 选择可能性最大的类作为特征点的归属类. 文献[20¡21]运用该类方法对图像进行识别, 识别速度和准确率都较高, 但是需要大量的学习样本才能生成准确率比较高的判定树. 该类方法要达到较高的识别精度, 就需要大量的学习样本, 但是训练样本会占用大量内存, 特别是在判定树的层数较多时, 内存消耗更大.在综合分析以上图像识别算法的基础上, 本文提出了一种移动图像识别方法, 以克服现有算法存在的识别率和训练代价等问题. 该算法利用智能手机的传感器信息辅助移动图像的识别, 提高相似图像之间的区分能力; 通过改进随机树的生成方法来训练单词树, 减少训练代价; 再通过SVM分类器对图像进行分类确保了识别的精度.1 移动图像识别算法的框架移动图像的变化较复杂, 直接采用图像的特征点进行匹配来实现移动图像识别, 识别率较低. 本文采用对要识别的场景拍摄不同角度样本集并经过训练生成SVM分类器的方法, 当智能手机拍摄场景图像进行识别时, 首先经过分类器进行分类, 确定查询图像的类别, 再与该类别下的样本图像进行局部特征匹配, 选择最相似的样本图像并返回该样本的相关信息. 本文算法整体流程如图2所示, 具体包括离线(步骤1»4)和在线(步骤5»7)两个阶段.2 移动图像识别算法的流程Fig. 2 The recognition algorithm for moving image步骤1. 建立来自真实场景不同观察视点的训练图像数据库, 并对每个场景拍摄一张中心图像.步骤2. 提取带GPS信息和重力方向的SIFT[4]描述符, 进行聚类生成ERT (Extremelyrandomized trees)[21]的随机森林.步骤3. 将场景的训练图像经过随机聚类森林1396 自 动 化 学 报 41卷生成统计直方图向量.步骤4.将场景的训练图像作为正样本, 其他场景的样本图像作为负样本, 进行训练生成带GPS信息的分类器.步骤5.在智能手机端提取带GPS信息和重力方向的SIFT特征描述符, 生成RAR压缩文件发送给服务器.步骤6.服务器端读取压缩文件的GPS和带重力方向的图像SIFT特征描述符, 运用ERT的随机聚类森林, 计算查询图像的统计直方图向量.步骤7. 使用已经训练好的SVM分类器对查询图像进行分类; 根据分类结果选取该类对应场景的中心图像与当前图像, 进行带重力方向SIFT特征点逐点匹配和PROSAC几何校验, 利用特征点的空间信息对分类结果进行再次求精.2 移动图像识别算法的框架传统的局部特征匹配算法在对建筑物等存在大量相似结构的物体进行匹配时效果并不理想, 其原因在于该算法无法区分图像里面的结构相似部分. 如图3左边所示, 窗户的四个角点根据局部特征像素强度的主方向对齐后, 局部特征变得非常相似, 无法区分. 而智能手机上的众多传感器为提取更有区分能力的图像特征点提供了条件. 文献[24] 提出了Gravity aligned feature descriptors (GAFD),Gravity-aware SIFT通过将重力方向加入特征点的描述对传统SIFT算法做了改进. 将摄像机坐标系中的重力方向依据摄像机成像模型投射到图像平面得到特征点的重力方向, 将重力方向与特征点主方向的夹角作为特征点的一个描述, 如图3右边部分, 或者以重力方向作为特征点的主方向构造描述符. 这样, 相似结构的局部特征变得可区分. 本文选择夹角µ作为特征点的一个描述, Gravity-awareSIFT特征向量V = (v1; v2;¢ ¢ ¢ ; v128; µ),在进行特征点匹配时, 首先判断特征点对的夹角差绝对值是否小于设定的阈值Tµ, 再进行特征描述符的比较.Tµ 的不同取值会造成识别效果的差异, 本文将在实验部分给出实验数据以决定最好的取值. 普通的智能手机带有加速度传感器、姿态传感器和陀螺仪等传感设备. 加速度传感器为每一帧图像提供了重力方向, 用三维的矢量表示, g= [gx; gy; gz]T, 通常在摄像机坐标系中对g进行归一化kgk= 1,并将重力矢量投影到图像所在二维平面上, 通过式(1) 计算投影平面的图像像素点p= [u; v;1]的重力方向d= [du, dv, 0].d=p0¡p (1)其中,p0= [u0; v0;1],摄像机内参为3£3的矩阵K,p0处满足[wu0; wv0; w] = p+Kgg (2)其中, g= [gx; gy; gz]T即为手机中重力加速度感应器获得的三个坐标轴方向的加速度矢量计算, 内参矩阵K=264fu0 pu0 fvpv0 0 1375, 经过p点重力方向近似为d= [gz(pu¡u) +fugx; gz(pv ¡v) +fvgy;0] (3)其中, [pu; pv] 为摄像机的主点, fu fv 是水平和垂直方向的焦距, 所以特征点的方向角µ 通过arctan(dv=du) 计算得出. Gravity-aware SIFT 通过对特征点沿重力方向对齐, 将重力方向与特征区域的主方向夹角作为描述符的一部分, 其原理如图3所示. 描述符匹配时先进行夹角差的绝对值判断, 小于设定阈值的再进行传统描述符的近似最近邻查找,它在一定程度上克服了传统SIFT算法对于相似结构的特征点难以区分的缺点, 也节省了描述符匹配时间, 在性能上优于传统的SIFT算法.3 特征点的重力方向与特征区域主方向夹角Fig. 3 The angle between the gravitational direction andthe feature point direction3 改进的ERT随机聚类森林ERC随机聚类森林(Extremely randomizedclustering forests, ERC-forests)[19]由预测描述符类别属性的随机树构成, 通过对全体描述符进行可监督的递归学习建立. 相对于目前存在的各种全局的聚类方法, : K-means Hierarchical K-means,该方法仅需要较少的内存, 聚类时间也短,同时ERT方法较高的随机性改善了分类识别的精度, 为此本文选用随机聚类森林ERT来训练样本图像. ERC 树生长的过程中, 运用香农熵进行节点分裂判断. 香农熵计算公式如下:SC(L; T) =2£IC;T(L)HC(L) +HT(L)(4)8期 桂振文等: 一种融合多传感器信息的移动图像识别方法 1397其中, HC(L) 表示在训练集L中类分布情况的熵,HC(L) =¡Xc2Cncnlog2ncn(5)其中, L为已标记的全体描述符集合, 同一张图像的所有描述符为一类标签, n是训练集合L的数目, nc是节点中描述符属于类c的数目. 当所有的nc 都相等的时候, HC(L)取得最大值. 同样, 分裂熵HT(L)是依据分裂条件T的分裂结果来定义和计算的, HT(L) =¡2 XP=1ncnlog2ncn(6)分裂熵的最大值也是在分裂后的两部分有相同的大小时取得. 基于某个给定集的熵, 某些分裂的绝对熵增益可以通过分裂的相互信息计算得到, IC;T(L) =HC(L)¡2 XP=1npnHC(LP) (7)当每个子集Li 类的不确定性为0, 绝对熵增益IC;T(L)取得最大值.ERC树的生成算法步骤如下:步骤1.选取已标记好的样本描述符, 进行是否停止分裂判断. 如果符合停止分裂的要求, 创建叶子节点保存描述符, 返回. 其中分裂中止的条件是: 1)树节点中所有描述符的类别相同; 2) 树节点中所有特征描述符同一维度上值也相同.步骤2. 随机选择特征描述符的维度序号和维度属性阈值, 在该维度上对描述符进行判断, 大于该阈值的进右子树, 小于的进左子树, 再根据式(1) 计算香农熵SC(L; T). 当值大于最小的香农熵Smin(L; T), 分裂成立. 否则, 循环进行步骤2,直到大于设定的尝试次数.步骤3.创建决策节点, 存储随机维度序号和随机维度属性值, 继续ERC左、右子树的生长.3.1 节点分裂模式改进在ERT生成过程中, 对每一个父节点进行分裂时都是随机选择分裂条件, 以保证树树之间、树的节点之间的相对独立性, 减少它们之间的相关性, 增强每棵树的聚类作用. 同时, 为了保证每棵树的聚类精度, 都会设置一个分裂阈值, 当随机选择分裂条件的熵大于阈值, 则对父节点进行分裂. 但是, 随机选择的分裂条件数目有限, 不可能使所有的分裂都大于阈值, 可能在出现没有分裂效果或是分裂效果不明显的情况时仍对其进行了分裂, 由此导致的直接后果是聚类森林的训练耗时大和聚类精度不高. 本文通过增加平衡因子的方法, 在不增加计算复杂度的情况下, 尽可能使随机选择的分裂条件对节点进行均匀划分. 通过统计随机选择分裂条件下节点左、右子树个数, 它们之间的绝对值作为平衡因子, 选择平衡因子最小的分裂条件对节点进行分裂. 具体计算方法如式(8) 和式(9):balancei =jcount(Rleft)¡count(Rright)j;i= 1;¢ ¢ ¢ ; MaxIter (8)其中, count(Rleft) count(Rright) 分别是节点分裂后左、右子树的描述符数量, i 是尝试分裂的次数,MaxIter为节点的最大分裂尝试次数, balancei 为第i 次尝试分裂的平衡因子.8><>:8(Si ·Smin); i = 1;¢ ¢ ¢ ; MaxIter;find(balanceall)9(Si > Smin); i = 1;¢ ¢ ¢ ; MaxIter;find(balancec)(9)其中, Si 为第i 次尝试分裂的熵, Smin为最小分裂熵阈值, balanceall 为所有平衡因子, balancec 为满足大于最小阈值的平衡因子, find(¢)为找出最小平衡因子对应的分裂条件. 当所有随机分裂条件的熵都小于阈值时, 则从所有平衡因子中找出最小的平衡因子对应的分裂条件; 当存在分裂条件的熵大于阈值时, 则从满足熵大于阈值的平衡因子中找出值最小的平衡因子对应的分裂条件; 若只存在一个大于阈值的分裂条件, 则直接选择该分裂条件. 按照最小平衡因子的分裂条件, 对节点进行分裂, 尽可能保证分裂后的近似均匀分布.3.2 提高叶子节点的区分能力传统的ERT生成叶子节点的标准是当节点中的所有特征描述符的属性值都相同时或者所有的特征向量都属于一个类别时停止分裂, 创建叶子节点.这种方式对相似性较高的背景信息能有效地去除,减少对训练模型的影响, 但是对噪音影响发生变化的背景效果一般. 本文通过增加描述符的重力方向与局部主方向的夹角µ, 对叶子节点的描述符聚类进一步细化, 提高分类能力. 因为叶子节点中来自不同图像的描述符, 即使是描述符向量相同, 重力方向与局部主方向的夹角也不一定相同; 而来自同一类图像描述符不但存在描述向量值不同, 而且重力方向与局部主方向的夹角也不同. 所以, 通过增加的µ对叶子节点再次聚类, 使角度相近的描述符划分到同一个子节点. 划分标准根据式(10)和式(11).1398 自 动 化 学 报 41splitAngle=Rmid(µ);mid=count(R)2; R =sort(L(µ))(10)其中, L为叶子节点的全体特征描述符, sort(L(µ))为对叶子节点描述符根据夹角大小按照递减次序进行排序, R为排序后的叶子节点描述符, count(¢)为统计叶子节点中描述符的数量, mid为中间数序号,Rmid(µ)为叶子节点中间位置描述符的夹角.split(L) =(Rn!RleftjRn(µ)·splitAngleRn!RrightjRn(µ)> splitAngle;n= 1;¢ ¢ ¢ ; count(S) (11)其中, Rleft Rright 分别是叶子节点的左、右子树,Rn(µ)为排序后叶子节点中第n个节点的相对角度,当排序后的叶子节点描述符相对角度小于划分角度splitAngle时进左子树, 大于等于时进右子树, 并设置当前分裂节点角度阈值为splitAngle. 4是改进的叶子节点分裂方法详细流程, 图中椭圆节点代表描述符通过ERC-forests产生的叶子节点, 虚线下面是使用本文方法对椭圆叶子节点进一步细分产生的新的叶子节点.4 节点分裂流程图Fig. 4 The °owchart of node splitting当进行图像查询时, 将查询图像的所有描述符遍历ERC-forests,统计新叶子节点访问的次数, 生成一个统计直方图向量. 再通过SVM分类器对该向量进行分类, 输出一个分值.改进的叶子节点算法具体实现如下:1. Lt 为所有训练样本的描述符, leafNum = 0, 叶子节点数leafT, Smin= 0:5,Tmax= 50 (Smin, Tmax的值越大, 随机聚类的森林的区分度越好, 但是时间复杂度也随之增加).2. repeat3. Tree(Lt) 从所有的训练样本的描述符中创建一棵子树4. Select(i) (1»128维中随机选择一个维度)Sample(Pt) (随机采样一个服从标准正态分布的阈值)5. if (stopsplitting(Lt) = true)fcreateLeafNode(Lt);创建一个中间节点, 选择中间特征向量的夹角为splitAnglecreateLeafNodeL(Lt)Ãff2Ltjfµ < splitAnglegcreateLeafNodeR(Lt)Ãff2Ltjfµ ¸splitAnglegleafNum+2;return; (Lt 中的样本描述符都是属于同一类图像或者fi 的值都相同, i 代表特征向量的维度).gelse尝试分裂, 设置初始尝试计数tries = 0repeat6. triesÃtries + 1根据测试得到的¡和计算得到的香农分值分裂Lt¡ =ffi ·Ptgscore=Sc(L; H)7. Ll à ff2Ltjfi < PtgLr à ff2Ltjfi ¸Ptg8. until (score¸Smin) or (tries¸Tmax)9. if (scoreall ·Sminjj9scorej ¸Smin)fi = find(balance) 找出最小平衡因子createDecisionNode(i, Pt, Tree(Pt), Tree(Lr))gelse10. i= max(scoren), n= (1;2;¢ ¢ ¢ ; Tmax)11. createDecisionNode(i, Pt, Tree(Pt), Tree(Lr))return;end if12. until (leafNum¸leafT), 如果叶子节点数大于设定的阈值, 则随机聚类森林已生成.4 SVM分类与几何校验支持向量机SVM[25]以统计学习作为理论基础,是一种很有效的学习机器, 广泛应用于语音处理、图像识别等多个领域. 文献[14¡15]中通过大量实验展示了SVM分类器对大规模图像的分类效果优于8期 桂振文等: 一种融合多传感器信息的移动图像识别方法 1399现在其他方法的结果, 为此本文选择SVM作为分类器. 下面对SVM算法进行简要介绍.4.1 SVM算法SVM是从线性可分情况下的最优分类发展而来的, 通过内积函数定义的非线性变换将输入空间变化到高维空间, 在这个空间寻找一个将样本分开最优的分类超平面, 把此平面作为分类决策面.在最优分类面中采用适当的内积函数K(Xi; Xj),就可以实现某一非线性变化后的线性分类, 而计算复杂度却没有增加. Mercer 定理指出, 核函数K(xx; yy) 通过与其相联系的非线性变换Á隐含地把特征向量映射到高维特征空间, 使得学习样本成为线性可分的. 用不同的核函数K(xx; yy) 可以构造实现输入空间中不同类型的非线性决策面的学习机, 从而得到不同的支持向量算法. 在实际问题中, 通常直接给出核函数. 常用的核函数有: 线性核函数K(xx; xxi) = (x¢ xi), 多项式核函数K(xx; xxi) = (s(x¢xi) +c)d以及径向基函数K(xx; yyi) = exp(¡°jx¡xij) . 选定一个核函数后, 高维空间的最优分类函数如下:I(x) = sgn"Xsvyia0iK(xx; xxi) +b0#(12)分类函数(决策函数) 类型为式(12) 的学习机称为支持向量机.本文选择三种核函数来对比分析其在户外复杂场景上分类识别的性能. 三种核函数分别为应用比较广泛的和分类速度比较快的线性核函数(Linearkernel, LK)、最近提出的直方图交叉核函数(His-togram intersection kernel, HIK)[26¡27]Â2[28].文献[25, 27] 提出的HIK核函数, 对场景分类识别的精度较高, 文献[28] 提出的Â2核函数, 能快速地对物体进行分类识别, 同时保持较高的精度, 其核函数分别为式(13)和式(14).·(x1; x x2) =d Xj=1g(min(x1;j; x2;j)) (13)·Â2(x1; x x2) =d Xj=12x1;jx2;jx1;j +x2;j(14)其中, x1, x2 分别为直方图向量, d为直方图向量的维度. 对三个不同的核函数, 用场景不同视角的图像组成正样本、其他的场景图像组成负样本训练一对多的SVM分类器. 同时, 将场景的GPS信息附在相应训练好的分类器上, 用来对分类结果进行再次判断. 当对查询图像进行分类识别时, 先用分类器进行归类, 再判断查询图像的GPS与归属类别分类器的GPS差值是否小于一个阈值. 如果小于阈值则认为分类成功, 否则分类失败. 通常设定的阈值是100, 在天气不好的情况下, 根据GPS传感器最坏的误差精度通常是50»100. 每一类场景都会拍摄不同视角的样本图像, 而文献[24] 中的实验结果表明, 重力方向垂直摄像机光心轴等于90±时, Gravity-aware SIFT 特征的匹配效果最好. 本文对每一类场景采集一幅重力方向为90±的涵盖场景主要信息的图像作为中心图像, 并提取该中心图像Gravity-aware SIFT特征保存在磁盘文件中, 用来做后续几何校验.4.2 几何校验对查询图像成功分类以后, 载入归属类别中心图像的Gravity-aware SIFT特征, 与当前查询图像的Gravity-aware SIFT特征进行逐个匹配, 通过计算最近和次近的欧氏距离的比值来确定两个特征点是否匹配. 如果这个比值小于某个阈值, 认为两个特征点匹配. 再对匹配点进行几何校验, 剔除误匹配点, 留下比较精确的匹配点对分类结果进行二次判断. 通过设置图像最小匹配点阈值, 统计经过几何校验后剩下的匹配点数是否大于这个阈值. 如果大于则认为本次分类是正确的, 否则视为没有查询图像相关的类.本文选用渐进抽样一致性算法(Progressivesample consensus, PROSAC)[29]对分类识别的结果进行二次求精, 通过对匹配点空间位置进行几何一致性校验, 剔除误匹配点并设置匹配点阈值来实现二次判断. PROSAC 算法原理类似于RANSAC[30], 但在性能上优于后者. 因为RAN-SAC是随机选择匹配点对进行模型拟合, 当误匹配点对较多时会使迭代次数增多, 增加了运算量. PROSAC采用顺序渐进抽样, 选择最近邻与次近邻距离比值较小的匹配点进行模型拟合, 而比值越小对应正确匹配的概率就越大. 在模型拟合时优先抽取正确匹配概率最大的匹配点对进行迭代估计, 有利于拟合过程的快速收敛, 降低运算量.5 实验结果及分析本文在室外采集图像上进行实验, 从识别时间和识别精度两方面来测试提出算法的性能. 实验环境为: 1) 服务器端配置为2.8 GHz Intel (R)Core (TM) i5 CPU, 16 GB内存, Win 7 (64) 位操作系统; 2) 智能手机为HTC (A9191), CPU (高通Adreno205, 1 024 MHz), RAM (1.5 GB ROM+ 768 MB RAM), OS (Google Android 2.3), Mi-croSD (32 G).实验数据集为通过人工拍摄的方式用智能手机在北京、南京和重庆三个城市对1 0001400 自 动 化 学 报 41卷个场景采集了50 K带传感器信息的图像. 每个场景包括从不同视角、不同尺度拍摄的50张图像, 再对所有的图像统一进行降分辨率处理, 压缩为320像素£240像素. 5为部分场景图像, 1为部分场景图像的GPS信息和重力方向信息. 每次测试随机选择训练集, 剩下的为测试集存储在智能手机端,通过实验室的无线网络WIFI进行移动识别, 10次测试结果的平均值. 实验具体设置如下:5 部分场景图像Fig. 5 The scene images1)N为场景数, 每个场景随机选择30幅图像. 将随机选择的所有图像用作训练集, 其余图像用来作为测试集. 每个场景通过30幅正样本和(N¡1)£30幅图像为负样本, 训练成一对多的SVM分类器, 一共N个分类器. 分别在N= 200, 500,1 000上进行测试.2)测试图像经过分类器分类, 得到N个分值,选择分值最高的类别进行PROSAC校验, 剔除误匹配点, 剩下匹配点数量满足设定的阈值的则视为成功分类. 如果分类的结果与图像真实类别一致, 认为识别正确, 否则认为识别失败.3)定义识别精度为识别正确的测试图像数量与测试图像总数的比率, 识别时间为从发送图像描述开始到收到返回结果的时间差值.5.1 训练时间分析表2统计了本文方法和文献[10] 中的单词树(Vocabulary tree, VOC) 层级聚类方法, 在样本场景数N= 1 000时训练词汇树的时间. 从表中可以得出, 本文算法能更快速地对图像特征进行聚类并建立词汇树.5.2 识别时间分析表3、图6和图7是选择单词数20 000时对本文算法使用核函数LK的测试结果. 3为场景数N= 1 000时本文算法各个部分的执行时间. 从表31 场景传感器信息Table 1 The sensor information of scene城市 场景名称 GPS信息(经度/纬度) 重力方向g= [gx; gy; gz]中兴通讯雨花台软件园1号楼 118.780031731/31.97835803 [¡1;9;3]中兴通讯雨花台软件园2号楼 118.78117561/31.97764993 [2;9;2]南京 中兴通讯雨花台软件园3号楼 118.78134727/31.97643757 [5;8;1]中兴通讯雨花台软件园4号楼 118.77980232/31.97805762 [¡7;6;0]舜天集团 118.78121853/31.97993517 [4;8;1]中兴通讯研究院综合楼 106.51237/29.62021 [8;0;1]重庆地矿局 106.515697/29.619950 [0;7;6]重庆 重庆农业局 106.51121/29.61937 [0;9;1]重庆渝富大厦 106.51010/29.61904 [5;8;0]渝景苑小区1106.5207/29.62226 [¡3;9;¡1]北京理工大学主楼 116.321247/39.959647 [¡1;7;6]北外国际商学院 116.307337/39.955325 [0;5;7]北京 东城区王府井百货大楼 116.410682/39.913695 [¡2;9;1]颐和园新建宫门 116.273927/39.999676 [5;7;¡2]故宫博物馆北门 116.396821/39.922688 [¡5;7;¡2]8期 桂振文等: 一种融合多传感器信息的移动图像识别方法 14012 描述符聚类时间Table 2 The clustering time of descriptors单词数量本文聚类时间 Hierarchical K-means(ms) 聚类时间(ms)1£1031 389 103 3285£1032 175 261 3471£1042 880 630 3155£1043 378 9 654 6323 移动图像识别时间Table 3 The recognition time for moving image任务名称 消耗时间(ms)生成特征文件(100 points) 628.5文件无线传输(20 KB) 24.8生成统计向量 28.6SVM线性核函数分类 463.7PROSAC几何校验 6.506 本文算法在不同场景数上各步骤占用时间Fig. 6 The time of each step on di®erentnumbers of scenes7 本文算法与VOC算法的识别时间对比Fig. 7 The recognition time for this algorithm vs.VOC algorithm可以看出, 由于没有服务器端高速的处理能力, 移动端生成特征文件消耗的时间最多. 但是总的识别时间仍能保持在1 s,能满足用户快速识别的要求. 从图6可以看出, 场景数增加时本文算法的查找时间也在逐渐增加. 7给出了在场景数不是很大的情况下, 本文算法的查找时间要少于VOC,否则要运用并行处理来解决本文算法逐个计算分类器值而产生查找时间过大的问题.5.3 识别精度分析图8»10是在不同场景数N和不同阈值,使用核函数LKVOC算法的图像识别精度的对比. 从图中可以看出, 本文算法对室外建筑的识别精度更优, 并且在¼=6时识别效果最好. 而基于VOC的识别算法, 因为通过单词量化弱化了描述符本身的区分能力; 同时室外场景存在很多复杂的变化, 场景内又存在众多的相似性, 单靠对词汇统计向量的打分来确定相似性, 会存在很多误识别. 而本文算法图8 N= 1 000时移动图像识别精度Fig. 8 Recognition accuracy onN= 1 000 formobile image9 N= 500时移动图像识别精度Fig. 9 Recognition accuracy onN= 500 formobile image1402 自 动 化 学 报 41卷图10 N= 200时移动图像识别精度Fig. 10 Recognition accuracy onN= 200 formobile image通过提高描述符本身的区分能力, 并训练高精度的SVM分类器和利用快速几何校验二次判断来提高识别精度. 所以, 本文提出的算法能有效地进行移动识别.在场景数N= 1 000和阈值Tµ =¼=6, 对比分析三种核函数的对户外场景的分类识别性能(见图11和表4). 从图11可以看出, 三种核函数的分类识别精度都相对提高大约80 %,使用Â2核函数的SVM分类器的分类识别精度最高, 而使用线性LK核函数的分类识别精度相对其他两种较低. 但是从表4可以看出, 线性分类器识别速度最快, 其他两种识别速度较慢, 实时性较差, 所以在识别精度和识别速度折中的情况下, 线性核函数相对比较适合移动图像识别的应用. 12是在场景数N= 1 000,使用线性核函数LK对带有重力方向与特征强度主方向夹角µ和不带µ(设置µ= 0 )的移动图像识别的精度对比图. 从图12可以看出, 使用µ对室外建筑的识别效果相对较好, 能有效地区分户外场景内部存在的相似结构.11 N= 1 000时三种核函数的识别精度Fig. 11 Recognition accuracy onN= 1 000 ofthree kernel13是在场景数N= 1 000, 使用线性核函数LM对带平衡因子改进的随机聚类方法和不带平衡因子的原始随机聚类方法的移动图像识别精度对比. 从图13可以看出, 使用平衡因子对室外建筑的识别效果相对原始的随机聚类方法较好, 同时使用平衡因子和重力方向的方法具有最高的识别精度,能实现高精度的户外场景识别.4 三种核函数识别时间(ms)Table 4 Recognition time for three kernel (ms)单词数量 LK分类时间 HIK分类时间 Â2分类时间2£10370.35 608.97 636.425£103115.79 1 317.51 1 326.7512 N= 1 000时带重力方向与原始的SIFT特征识别精度Fig. 12 Recognition accuracy comparison betweengravity-aware SIFT vs. SIFT whenN= 1 00013 N= 1 000时带平衡因子与原始聚类森林的识别精度Fig. 13 Recognition accuracy comparison betweenimproved method vs. the original clustering approachwhenN= 1 0005.4 算法应用本文算法已经成功应用在户外导览系统, 通过8期 桂振文等: 一种融合多传感器信息的移动图像识别方法 1403智能手机采集的室外场景的视觉、重力和GPS等传感器信息对户外的场景进行识别, 系统的识别效果如图14所示. 用户开启智能手机获取当前位置的GPS信息和重力方向的信息, 再通过摄像头对准要识别的建筑物, 截取视频帧进行识别, 识别成功以后将该场景的相关信息以虚实融合现实的方式提供给用户, 实现户外移动导览.(a) 场景1识别效果(a) The recognition result for Scene 1(b)场景2识别效果(b) The recognition result for Scene 214 户外导览系统Fig. 14 Outdoor navigation system6 结论与展望本文针对计算机视觉领域中基于词袋模型的图像识别方法存在的不足, 提出了一种融合智能手机传感器信息的移动图像识别方法. 首先建立了区分力更强的描述符; 然后用改进的随机聚类方法生成单词树, 既能快速聚类, 又能减少量化后的特征的区分能力损失, 最后通过SVM分类器进行分类和PROSAC方法对分类结果进行二次过滤, 实现了高精度的分类识别. 实验结果表明, 本文所提出的算法能实现快速高效的识别, 并对不同视角拍摄的图像具有较强的鲁棒性. 但是, 本文算法也有不足之处,没有在百万级规模的场景上进行测试. 下一步的工作是研究描述能力更强和计算量少的特征, 采集更多的样本数据集, 实现百万级图像的实时识别.致谢感谢北京理工大学光电与信息系统教育部重点实验室王涌天教授、刘越教授、陈靖副教授对识别算法做的的理论指导和北京市混合现实与新型显示工程技术研究中心的师弟、师妹们在算法的工程实现上给予支持.References1 Lazebnik S, Schmid C, Ponce J. Beyond bags of features:spatial pyramid matching for recognizing natural scene cat-egories. In: Proceedings of the 2006 IEEE Conference onComputer Vision and Pattern Recognition. New York, USA:IEEE, 2006. 2169¡21782 Dalal N, Triggs B. Histograms of oriented gradients for hu-man detection. In: Proceedings of the 2005 IEEE ComputerSociety Conference on Computer Vision and Pattern Recog-nition. San Diego, USA: IEEE, 2005. 886¡8933 Lowe D G. Distinctive image features from scale-invariantkeypoints.Journal of Computer Vision, 2004, 60(2): 91¡1104 Bay H, Tuytelaars T, Gool L V. Surf: speeded up robust fea-tures. In: Proceedings of the 9th European Conference onComputer Vision. Berlin, Germany: Springer, 2006. 404¡4175 Yan Xue-Jun, Zhao Chun-Xia, Yuan Xia. 2DPCA-SIFT: ane±cient local feature descriptor. Acta Automatica Sinica,2014,40(4): 675¡682(颜雪军, 赵春霞, 袁夏. 2DPCA-SIFT: 一种有效的局部特征描述方法. 自动化学报, 2014, 40(4): 675¡682)6 Yan Zi-Geng, Jiang Jian-Guo, Guo Dan. Image matchingbased on surf feature and delaunay triangular meshes.ActaAutomatica Sinica, 2014, 40(6): 1216¡1222(闫自庚, 蒋建国, 郭丹. 基于SURF特征和Delaunay三角网格的图像匹配. 自动化学报, 2014, 40(6): 1216¡12227 Ramasubramanian V, Paliwal K K. Fastk-dimensional treealgorithms for nearest neighbor search with application tovector quantization encoding.IEEE Transactions on SignalProcessing, 1992, 40(3): 518¡5318 Liu T, Moore A W, Gray A, Yang K. An investigation ofpractical approximate nearest neighbor algorithms. In: Pro-ceedings of the 2004 Conference Neural Information Process-ing Systems. British Columbia, Canada: MIT Press, 2004.825¡8329 Wagner D, Reitmayr G, Mulloni A, Drummond T, Schmal-stieg D. Real-time detection and tracking for augmented re-ality on mobile phones.IEEE Transactions on Visualizationand Computer Graphics, 2010, 16(3): 355¡3681404 自 动 化 学 报 4110 Nister D, Stewenius H. Scalable recognition with a vocabu-lary tree. In: Proceedings of the 2006 IEEE Conference onComputer Vision and Pattern Recognition. New York, USA:IEEE, 2006. 2161¡216811 Baatz G, Koser K, Chen D, Grzeszczuk R, Pollefeys M. Han-dling urban location recognition as a 2d homothetic prob-lem. In: Proceedings of the 11th European Conference onComputer Vision. Crete, Greece: Springer, 2010. 738¡74212 Su Y C, Huang K Y, Chen T W, Tsai Y M, Chien S Y, ChenL G. A 52 mW full HD 160-degree object viewpoint recog-nition SoC with visual vocabulary processor for wearablevision applications.IEEE Journal of Solid-State Circuits,2012,47(4): 797¡80913 Ober S, Winter M, Clemens A, Bischof H. Dual-layer vi-sual vocabulary tree hypotheses for object recognition. In:Proceedings of the 2007 IEEE International Conference onImage Processing. San Antonio, TX: IEEE, 2007. 345¡34814 Csurka G, Dance C R, Fan L X, Willamowski J, Bray C.Visual categorization with bags of keypoints. In: Proceed-ings of the 8th European Conference on Computer Vision,Prague, Czech Republic, Springer, 2004. 59¡7415 Zhang Xue-Feng, Wang Peng-Hui, Feng Bo, Du Lan, LiuHong-Wei. A new method to improve radar HRRP recog-nition and outlier rejection performances based on classi¯ercombination. Acta Automatica Sinica, 2014, 40(2): 348¡356(张学峰, 王鹏辉, 冯博, 杜兰, 刘宏伟. 基于多分类器融合的雷达高分辨距离像目标识别与拒判新方法. 自动化学报, 2014, 40(2):348¡356)16 Shi C Z, Wang C H, Xiao B H, Zhang Y, Gao S. Multi-scalegraph-matching based kernel for character recognition fromnatural scenes.Acta Automatica Sinica, 2014, 40(4): 752¡75617 Muralidharan R, Chandrasekar C. 3D object recognition us-ing multiclass support vector machine-k-nearest neighborsupported by local and global feature.Journal of ComputerScience, 2012, 8(8): 1380¡138818 Philbin J, Chum O, Isard M, Sivic J, Zisserman A. Objectretrieval with large vocabularies and fast spatial matching.In: Proceedings of the 2007 IEEE Conference on ComputerVision and Pattern Recognition. Minneapolis, MN: IEEE,2007. 1¡819 Moosmann F, Nowak E, Jurie F. Randomized clusteringforests for image classi¯cation. IEEE Transactions on Pat-tern Analysis and Machine Intelligence, 2008, 30(9): 1632¡164620 Lepetit V, Fua P. Keypoint recognition using randomizedtrees. IEEE Transactions on Pattern Analysis and MachineIntelligence, 2006, 28(9): 1465¡147921 Ozuysal M, Calonder M, Lepetit V, Fua P. Fast keypointrecognition using random ferns.IEEE Transactions on Pat-tern Analysis and Machine Intelligence, 2010, 32(3): 448¡46122 Li Juan, Wang Yu-Ping. A fast neighbor prototype selectionalgorithm based on local mean and class global information.Acta Automatica Sinica, 2014, 40(6): 1116¡1125(李娟, 王宇平. 考虑局部均值和类全局信息的快速近邻原型选择算法. 自动化学报, 2014, 40(6): 1116¡1125)23 Sivic J, Zisserman A. Video google: a text retrieval approachto object matching in video. In: Proceedings of the 2003IEEE International Conference on Computer Vision. Nice,France: IEEE, 2003. 1470¡147724 Kurz D, Benhimane S. Inertial sensor-aligned visual featuredescriptors. In: Proceedings of the 2001 IEEE Conferenceon Computer Vision and Pattern Recognition. Providence,RI: IEEE, 2011. 161¡16625 Vapnik V N. An overview of statistical learning theory.IEEETransactions on Neural Networks, 1999, 10(5): 988¡99926 Maji S, Berg A C, Malik J. Classi¯cation using intersectionkernel support vector machines is e±cient. In: Proceedingsof the 2008 IEEE Conference on Computer Vision and Pat-tern Recognition. Anchorage, AK: IEEE, 2008. 1¡827 Wu J X, Tan W C, James M R. E±cient and e®ective vi-sual codebook generation using additive kernels. Journal ofMachine Learning Research, 2011, 12(11): 3097¡311828 Maji S, Berg A C, Malik J. E±cient classi¯cation for addi-tive kernel SVMs. IEEE Transactions on Pattern Analysisand Machine Intelligence, 2013, 35(1): 66¡7729 Chum O, Matas J. Matching with prosac-progressive sampleconsensus. In: Proceedings of the 2005 IEEE Conference onComputer Vision and Pattern Recognition. San Diego, USA:IEEE, 2005. 20¡2530 Chum O, Werner T, Matas J. Epipolar geometry estima-tion via RANSAC bene¯ts from the oriented epipolar con-straint. In: Proceedings of the 2004 International Con-ference on Pattern Recognition. Washington, USA: IEEE,2004. 112¡115桂振文 博士, 中国电子科技集团公司第七研究所高级工程师. 主要研究方向为计算机视觉, 图像处理和移动增强现实. 本文通信作者.E-mail: quizhenwen1983@bit.edu.cn(GUI Zhen-Wen Ph. D., senior en-gineer of China Electronics TechnologyGroup Corporation No. 7 Research In-stitute. His research interest covers computer vision, im-age processing, pattern recognition, and augmented reality.Corresponding author of this paper.)吴侹 学士, 中国电子科技集团公司第七研究所高级工程师. 主要研究方向为图像识别和卫星通信.E-mail: 13631490916@139.com(WU Ting Bachelor, senior engi-neer of China Electronics TechnologyGroup Corporation No. 7 Research In-stitute. His research interest covers im-age recognition and wireless network communication.)彭欣 学士, 广州杰赛科技股份有限公司工程师. 主要研究方向为图像处理和卫星通信.E-mail: peng1984xin@163.com(PENG Xin Bachelor, engineer ofGuangzhou GCI Science and Technol-ogy Co., Ltd. Her research interest cov-ers image processing and satellite com-munication.)

[返回]
上一篇:基于RSA公钥密码体制的可选择可转换
下一篇:基于机器学习的自适应光伏超短期出力预测模型