欢迎访问一起赢论文辅导网
本站动态
联系我们

手机:15327302358
邮箱:peter.lyz@163.com

Q Q:
910330594  
微信paperwinner
工作时间:9:00-24:00

SCI期刊论文
当前位置:首页 > SCI期刊论文
基于谱聚类的无监督特征选择算法
来源:一起赢论文网     日期:2020-07-05     浏览数:76     【 字体:

  软件学报ISSN 1000 - 9825, CODEN RUXUEW   E - mail: jos@iscas.ac.cn Journal of Software,  [doi: 10.13328/j.cnki.jos.00 592 7 ]  http://www.jos.org.cn  © 中国科学院软件研究所版权所有.   Tel: +86-10-62562563  基于谱聚类的无监督特征选择算法* 谢娟英1,    丁丽娟1 , 3,    王明钊2 1( 陕西师范大学  计算机科学学院, 陕西  西安    710062)  2( 陕西师范大学  生命科学学院, 陕西  西安    710062)  3( 武警工程大学  信息工程学院, 陕西  西安    710086) 通讯作者:  谢娟英, E- mail: xiejuany@snnu.edu.cn  摘    要:  基因表达数据具有高维小样本特点,   包含了大量与疾病无关的基因,   对该类数据进行分析的首要步骤是特征选择.   常见的特征选择方法需要有类标的数据,  但样本类标获取往往比较困难.  本文针对基因表达数据的特征选择问题,  提出基于谱聚类的无监督特征选择思想FSSC  (  feature selection by spectral   clustering   ).  FSSC 对所有特征进行谱聚类,  将相似性较高的特征聚成一类,  定义特征的区分度与特征独立性,  以二者之积度量特征重要性,   从各特征簇选取代表性特征, 构造特征子集.   根据使用的不同谱聚类算法,   得到FSSC-SD  (FSSC  based  on standard deviation) FSSC-MD  (FSSC based on mean distance) FSSC-ST  (FSSC based on self- tuning) 3 种无监督特征选择算法.  SVM(support  vector machines) KNN(K-nearest neighbours) 为分类器,  10个基因表达数据集进行实验测试.  结果表明,   FSSC-SDFSSC-MDFSSC-ST算法均能选择到具有强分类能力的特征子集. 关键词:  谱聚类;无监督特征选择;特征独立性;特征区分度;特征重要度 中图法分类号:   TP3 11  中文引用格式:  谢娟英, 丁丽娟, 王明钊. 基于谱聚类的无监督特征选择算法. 软件学报,202 0 .   http://www.jos.org.cn/1000- 9825/ 5927.htm  英文引用格式: X ie   JY,  Ding LJ,  Wang MZ.  Spectral  c lustering based  unsupervised feature selection a lgorithms Ruan Jian Xue Bao/ Journal of Software,  2020  (in Chinese).   http ://www.jos.org.cn/1000 - 9825/5927.htm  Spectral Clustering based Unsupervised Feature Selection Algorithms X IE   Juan - Ying1,    DING Li - J uan1 , 3,    WANG Ming- Zhao2  1(School of Computer Science,  Shaanxi Normal   University,  Xian, Shaanxi 710062, China) 2( College of life Sciences ,  Shaanxi Normal   University,  Xian, Shaanxi 710062, China) 3( College of Information En gineering ,  Engineering University of PAP , 710086)  Abstract :     Gene expression data usually comprise small number of samples with tens of thousands of genes. There are a large number of genes unrelated to diseases in  this kind of   data. The primary task  is to   detect  those key essential genes   when analyzing this kind of data . The  common  feature selection algorithms are depend on labels of data, but it is very difficult to get labels  for  data. To overcome the                                                                  *   基金项目:  国家自然科学基金( 61673251); 陕西省科技攻关重点项目( 2018ZDXMSF-079 ); 国家重点研发计划( 2016YFC0901900);  科技成果转化培育项目(GK201806013);中央高校基本科研业务费专项资金( GK201701006); 研究生培养创新基金( 2015CXS028 , 2016CSY009 )  Foundation item:  National  Natural  Science Foundation of China   ( 61673251);  Key  projects of science and technology  research in Shaanxi Province( 2018ZDXMSF-079 );   National Key Research and Development Program of China (2016YFC0901900);   Scientific and Technological  Achievements  Transformation  and  Cultivation  Funds  of  Shaanxi  Normal  University  (GK201806013);  Fundamental Research  Funds  for  the  Central  Universities  (GK201701006);   Innovation  Funds  of  Graduate  Programs  at  Shaanxi  Normal   University ( 2015CXS028 , 2016CSY009 ) 收稿时间: 2019 -05-31;  修改时间: 2019 -07-29;  采用时间: 2019 -09- 20; jos 在线出版时间: 2020 - 01-10  网络出版时间:2020-01-14 09:53:31网络出版地址:http://kns.cnki.net/kcms/detail/11.2560.TP.20200114.0953.012.html   2   Journal  of  Software  软件学报      challenges,  especially for   gene expression data,   we p ropose the unsupervised feature selection idea, named   as FSSC   ( Feature  Selection by Spectral  Clustering) . FSSC  groups   all of  features into  clusters by a spectral  clustering  algorithm, so  that similar features are in   same clusters. The feature discernibilit y and independence are defined, and the feature importance is defined as the product of its discernibility and  independence.  The  representative  feature  is  selected  from  each  cluster  to  construct  the  feature  subset.  According  to  the  spectral clustering  algorithms  used  in  FSSC,  t hree  kinds  of  unsupervised  feature  selection  algorithms  named  as  FSSC -SD  (F SSC  based  on Standard Deviation), FSSC -MD (FSSC based on Mean Distance) and FSSC-ST  (FSSC based on Self - Tuning)  are  developed. The SVM (support vector machines ) and KNN (K-nearest neighbours) classifiers are adopted to test the  performance of the selected feature subsets in experiments. Experimental results on 10 gene expression datasets show that FSSC - SD, FSSC-MD and FSSC-ST algorithms can select powerful features to classify samples.  Key words:     spectral clustering; unsupervised feature selection ;   feature independence ;   feature discernibility ;   feature importance  生物测序技术的迅速发展实现了大规模基因表达数据的自动获取, 为癌症等疾病的发病机理和诊断研究提供了新途径[ 1 - 3 ].   然而, 基因表达数据具有高维小样本特点, 包含了大量与疾病无关的基因(冗余基因)[ 4 - 6 ].   因此, 选取具有高分类信息的基因子集是分析基因表达数据的首要任务[ 5 ,  7 ].   特征选择可以筛选出与分类任务高度相关的基因, 提高分类准确率[ 8 ].    特征选择是从原始特征集合中选取具有强分类信息且尽可能相互独立的特征构成特征子集,  以尽可能保留原始系统的分类信息且包含尽可能少的特征,  从而达到去除冗余特征,  提高分类准确率的目的.  根据与分类器的关系,  特征选择算法分为FilterWrapperEmbedded 方法[ 9 - 11 ].   根据是否使用类标信息, 特征选择算法分为有监督特征选择方法和无监督特征选择方法.    1    相关工作介绍 有监督特征选择方法通过计算特征与类标的相关性进行特征选择, Relief 算法[ 12]mRMRMinimal redundancy - maximal relevance )算法[ 13]CFS Correlation - based feature selection for machine learning)算法[ 14].   然而样本类标往往很难获得, 因此无监督特征选择算法引起研究者关注.    Dash[ 15]提出基于熵排序的无监督特征选择算法, 利用信息熵度量特征重要性程度, 从而选择最优特征子集; 徐峻岭等[ 16]提出基于互信息的无监督特征选择算法, 利用互信息定义特征的相关度与冗余度, 综合考虑特征的相关度与冗余度来评价特征重要性; 张莉等[ 17]提出基于K - 均值聚类的无监督特征选择算法, 利用特征对聚类结果的影响以及特征之间的相关性作为特征选择的判别标准;   He[ 18]针对无监督特征选择算法多是Wrapper方法, 提出独立于任何学习算法的Filter特征选择方法——Laplacian Score 无监督特征选择算法, 利用同类样本距离更近原理, 对每个特征计算其拉普拉斯分数以反映其局部保持能力, Laplacian  Score 越小的特征其局部保持能力越强, 重要度越高, 越具有代表性, 需要说明的是该算法也可以监督的方式执行; Cai [ 19]提出多类簇无监督特征选择算法MCFS  (multi - cluster feature selection), 使用谱聚类技术, 然后求解带有L1正则项的最小二乘问题, 并定义特征的MCFS  score, 选择MCFS  score 位于最前面的若干个特征, 使选择的特征既能保留更多数据类簇结构又能覆盖所有可能类簇的特征; 王连喜等[ 20]提出了一种基于聚类集成的特征选择算法, 利用聚类算法将冗余特征聚成一类簇, 然后从各类簇挑选代表性特征构成最优特征子集; Zhao[ 21]基于谱图理论提出SPEC 算法, 以特征值的分布与目标的概念是否一致作为评价准则进行特征选择; 我们团队提出基于密度峰值的无监督特征选择算法, 分别定义了特征密度与特征距离, 以二者之积度量特征的重要性[ 8 , 22]; He[ 23]提出基于决策图的无监督特征选择算法DGFS  (Decision graph based feature selection) , 定义特征的局部密度、判别距离, 和决策图得分, 利用局部密度度量特征代表性, 利用判别距离度量特征之间的冗余性与相似性, 以决策图得分作为评价标准进行特征选择, 决策图得分较高的若干特征构成特征子集; 我们团队提出基于基因密度峰值发现的结肠癌患者诊断基因标志物识别算法[ 24], 定义基因局部密度和距离, 以密度峰值点基因作为结肠癌患者的识别基因; 鲁棒的无监督特征选择方法RUFS ( robust unsupervised feature selection )[ 25]不同于传统无监督特征选择方法,   通过局部学习正则化的鲁棒非负矩阵分解,   学习样本的伪类簇标签,   在标签学习过程中, 通过鲁棒加入2,1l 范数最   谢娟英  等:基于谱聚类的无监督特征选择算法    3   小化,   同时完成特征选择.   RUFS 算法在标签学习和特征学习过程中引入了 2,1l 范数, 能有效处理异常点和噪音,并能有效去除冗余和噪音特征,  兼具鲁棒非负矩阵分解、局部学习和鲁棒特征学习的优势.  同时, R UFS 算法基于有限内存投影,  采用迭代算法解决了算法伸缩性问题;   非负判别特征选择算法 NDFS  (  nonnegative discriminant feature selection )[ 26]采用谱聚类学习样本类标, 在学习样本类标过程中完成特征选择.   类簇标签和特征选择矩阵的联合学习使NDFS 算法能够选择最具鉴别性的特征.   算法中为了学到更准确的类别标签, 对类指示器添加了非负约束,   为了减少冗余甚至噪声特征, 在目标函数中加入2,1l 范数最小化约束, 保证特征选择矩阵的行稀疏性.   算法利用判别信息和特征关联来选择更好特征子集, 并设计了一种简单有效的迭代算法来优化目标函数.   因为谱聚类的强大优势, 基于谱聚类思想的特征选择方法得到越来越多学者的关注[ 17,  18,  20,  21,  27,  28].  本文借助谱聚类算法能发现任意形状类簇, 收敛于全局最优解的性能, 提出基于谱聚类的无监督特征选择思想FSSC  ( feature selection by spectral clustering ). 首先对特征进行谱聚类,  使相似( 具有强冗余性) 的特征聚在同一类簇,  定义特征区分度和独立性,  以特征区分度与独立性之积量化其重要性,  选择各类簇最重要特征代表该类簇特征,  各类簇的代表特征构成特征子集.   利用SC_SD[ 29]Spectral  Clustering  based  on  Standard Deviation)、 SC_MD[ 29]Spectral Clustering based on Mean Distance)、 self - tuning[ 30]算法进行特征谱聚类, 得到3 种不同谱特征选择算法:FSSC- SDFSSC based on SC_SD )、FSSC- MDFSSC based on SC_MD)和FSSC- STFSSC based on  S elf- Tuning.   与其他无监督特征选择算法相比, 提出的算法同时考虑了特征区分度和独立性,能够选择到代表性强的特征子集.   10个癌症基因数据集的实验测试表明, FSSC- SD  FSSC- MDFSSC- ST算法均能选择到具有丰富分类信息的关键基因, 为癌症发病机理、早期诊断、治疗等提供支撑与基础.  2    FSSC 无监督特征选择 特征选择旨在选择具有高分类信息且相互之间低冗余的特征构成特征子集.  本文利用谱聚类算法能发现任意形状类簇, 收敛于全局最优解的优势,  提出谱聚类特征选择思想FSSC,  以期选择既具有强区分能力, 又彼此之间相互独立的特征构成特征子集.  FSSC 通过对所有特征进行谱聚类,  将相似( 冗余) 特征聚到同一类簇, 定义特征标准差为特征区分度, 定义特征与簇内其他区分度更好特征的Pearson相关系数和的倒数为特征独立性,  定义特征重要性为其区分度与独立性之积,  选择各类簇最重要特征代表该类簇,  所有代表特征构成特征子集.  其思想框架如图1 所示.   Fig.1 The frame of proposed FSSC algorithm  1  提出的FSSC 算法框架 2.1    特征谱聚类 聚类根据某种相似性原则将数据对象划分为不同类簇,  簇内对象相似性较高,  但与其他簇对象相似性较低.   传统的K - means 等聚类算法适合发现球状簇,  无法发现非凸状的簇[ 3 1 ,  3 2 ].   谱聚类算法以谱图理论为基础, 将样本聚类问题转化为以样本为顶点,  样本间相似性为顶点连接边权重的带权无向图的划分问题.   谱聚类算法能发现任意形状的簇,  且收敛于全局最优解[ 3 3 ].   因此对特征进行谱聚类,  有助于揭示特征之间的内在联系, 发现真正的特征簇.    对特征进行谱聚类,  即以特征为顶点,  特征间相似性为顶点连接边权重,  将特征聚类问题转换为特征图划分问题,  分别采用SC_SD[ 2 9 ]Spectral Clustering based on Standard Deviation)、SC_MD[ 2 9 ]Spectral Clustering    4   Journal  of  Software  软件学报      based  on  Mean  Distance )、 self - tuning[ 30]算法对特征进行谱聚类, 得到FSSC- SDFSSC  based  on  SC_SD)、FSSC- MDFSSC  based  on  SC_MD )和FSSC- STFSSC  based  on  self - tuning )三种谱特征选择算法.   其中, self - tuning 算法[ 30]是一种自适应的谱聚类算法,  其对传统谱聚类算法计算亲和矩阵的全局尺度参数s 不能准确体现数据集真实分布信息的缺陷进行了改进,  提出了样本i 的局部尺度参数is ,  定义is 为样本i 到其第p个近邻的欧氏距离,  采用样本, i j 的局部尺度参数 ,i js s 计算其亲和系数 , i jA .  SC_SDSC_MD 谱聚类算法是对self - tuning 谱聚类算法的改进[ 29],  针对self - tuning 谱聚类算法的局部尺度参数会受离群点影响的问题,  提出的两种完全自适应的谱聚类算法.  SC_SD 依据样本i 标准差2,111Ni i jjstd dN =æ ö=ç ÷-è øå ,, i jd 是样本, i j 的欧氏距离, N 为数据集样本数,  定义其完全自适应的局部尺度参数2_ ,11=1iSSD i j ijidSs=-å ,  iS 为样本i 对应邻域半径为istd 的邻域内样本数.    SC_MD 依据定义样本i 与数据集其余样本欧氏距离的均值 _ ,1,11Nmean i i jj j id dN = ¹æ ö=ç ÷-è øå 定义样本i 的局部尺度参数2_ ,11=1iMMD i j ijidMs=-å , iM 为样本i 对应邻域半径为_ mean id 的邻域内样本数.  2.2    特征重要度 给定训练数据集n d´Î D ,  其中n d 分别表示样本数和特征维数.   1 2, , , , ,i dL L f f f f 表示d 个特征向量,  则 [ ]1 2= , , , , ,i dL L D f f f f niÎ Â f ; 1 2, , , , ,j nL L x x x x 表示n 个样本,  djÎ Â x 1 2; ; ; ;j né ù =ë ûL L; D x x x x .  定义1   特征区分度(feature discernibility ):一个区分能力强的特征对不同类样本的取值往往差异很大,  因此具有较大方差(或标准差),  本文用特征标准差度量特征的类别区分能力.   故定义特征if 的区分度idis 为其标准差istd ,  如式(1 )所示.    21 11 112 ,1n ni i ji jij jdis =std f f    i=1,2, ,d; j= , , nn n= =æ ö= -ç ÷-è øå å , L L                       ( 1 )  jif 表示样本j 在第i 个特征的取值, istd 表示第i 个特征的标准差(standard deviation).    定义2   特征独立性  (  feature independence   ) Pearson相关系数可以度量两变量之间的相关性,  两变量的Pearson相关系数绝对值越小,  则其越不相关.   特征选择的目的是选择区分能力强,  且彼此不相关的特征构成特征子集,  剔除不相关和冗余特征.   以特征子集中的特征来表达样本,  不仅可以保持和提高系统分类能力,   且能使原系统得到简化.   因此,  本文以Pearson相关系数度量特征独立性,  定义特征与同类簇区分能力更强特征的Pearson相关系数绝对值和的倒数为特征独立性.  对区分度最大的特征,  定义其独立性为与本簇最不相关特   谢娟英  等:基于谱聚类的无监督特征选择算法    5   征的Pearson相关性绝对值的倒数.  特征独立性定义见式  ( 2 ),   其中M j 是特征fi 所在的特征类簇.   特征fi,  fk 间的Pearson相关系数定义见式( 3). { }1, ,,,: ,1maxmin1,i kji kk i ji jj df fk Mif fk dis dis k Mdis disrindotherwiser=Î> Îì=ïï=íïïîå,L                                    (2) 1,2 21( )( ), , 1,2, , ; 1,2, ,( ) ( )i knji i jk kjf fnji i jk kjf f f fr i k d j nf f f f==- -= = =- -ååL L                       (3)     式(2 )特征独立性定义保障了,   若第i 特征与区分能力比它强的特征越不相关,  则其独立性越强.   区分度最大特征的独立性定义保障了区分能力最强的特征的独立性最强,  这样保障了数据集中区分能力最强的特征一定会被选择到特征子集.  定义3   特征重要度(feature  importance): 特征if 的重要度iscore 定义为特征区分度与特征独立性之积, 见式(6 , iscore 越大,  特征if 越重要.    =i i iscore dis ind ´                                                               (4 2.3    算法思想描述 输入:训练数据集n d´Î  D ,  n 为训练样本数,  d 为特征数; 被选特征子集规模k  输出:特征子集S  BEGIN a)   初始化被选特征子集S = Æ ,  全部特征集合为F ;  b)   对全部特征分别采用SC_SDSC_MDself - tuning 算法进行谱聚类,  得到k 个特征簇;  c)   利用公式(4 )计算各特征的Score,  从各特征簇选取Score值最大的特征加入特征子集S ;  d)   输出特征子集S .  END 2.4    算法时间复杂度分析 本文算法的时间消耗主要在步骤b ) 特征谱聚类和步骤c )基于特征重要度的特征选择.  假设训练数据集包含n 个样本,  每个样本的维数为d .  步骤b ) 特征谱聚类的时间复杂度为 ( )2O d .  步骤c ) 基于特征重要度的特征选择过程中,  计算特征辨识度的时间复杂度是 ( ) O nd ,  计算特征独立性的时间复杂度是 ( ) O nd ,  计算特征Score 值并对其降序排序的时间复杂度是 ( ) log O d d ,  由于n <<d ,  故步骤c ) 的时间复杂度为 ( )2O d .   因此,  本文基于谱聚类算法的无监督特征选择算法的时间复杂度为 ( )2O d .      6   Journal  of  Software  软件学报      3    实验结果与分析 实验采用10 个常用基因数据集对算法进行测试,  实验使用数据集可从 Broad  Institute  Genome  Data Analysis  Center   ( http://portals.broadinstitute.org/cgi - bin/cancer/datasets.cgi) Gene  Expression  Model  Selector (   http://www.gems- system.org/   ) 获取.   数据集详细描述见表1 .  Table 1  The descriptions of datasets   used in experiments 1     实验数据集描述 数据集  特征数  样本数  类簇数 Colon  2000  62  2  SRBCT  2308  83  4  Lymphoma   4026  45  2  Leukemia  7129  72  2  DLBCL Tumor  7129  77  2  Carcinoma  7457  36  2  CNS   7129  90  2  LungCancer-Michigan   7129  96  2  Leukemia_MLL   12582   72  3  A LL1   12625   128   2  3.1    实验设计 为了验证提出的三种谱聚类特征选择算法FSSC- SDFSSC- MD FSSC- ST的性能,  实验比较了该三个算法与基于决策图的无监督特征选择算法DGFS( decision graph- based feature selection )[ 23]、多类簇无监督特征选择算法MCFS ( mu lti - cluster feature selection )[ 19]Laplacian分值特征选择算法( laplacian score for feature selection )[ 18]、扩展的无监督特征选择方法RUFS ( robust unsupervised feature selection )[ 25]以及非负判别特征选择算法NDFS ( nonnegative discriminant feature selection )[ 26]在表1 数据集的实验结果.   其中FSSC- ST算法中,  高斯核函数参数设置为经验值7 ,  对比算法DGFS 采用欧式距离计算特征间距离并升序排序,  截断距离dc设置为特征总数2%位置处的距离值; 对比算法LaplacianRUFS NDFS 采用余弦相似性度量特征相似性,  且近邻数K 均设置为5 ,  NDFS 算法的正则化参数设置为0.1.  实验采用1 0 折交叉验证方法划分训练集与测试集,  缺失数据采用类内均值填充,  为避免特征间不同量纲对实验结果的影响,  采用最大最小化方法标准化数据,  采用SVMKNNK=1 )两种分类器,  SVM分类器采用林智仁等开发的SVM工具箱Libsvm[ 3 4 ].   其中,  核函数采用线性核函数,  惩罚因子C 20,  其余参数均取默认值.   5 10折交叉验证实验结果的平均值比较各算法的性能,  评价准则采用分类正确率ACCAUC  ( MAUC)F2[ 3 5 ]F - measureSensitivity Specificity.   其中,  F2是针对不平衡数据的评价方法,  可以避免ACC不适合不平衡数据与F - measure主要强调分类器对正类样本识别能力的缺陷[ 3 5 ].   MAUCAUC对多类问题的推广.   实验代码使用MATLAB  R2017b 实现; 实验环境为Win10  64bit操作系统,  8GB 内存,  Intel(R)  Core(TM) i5 - 6600 CPU @3.30GHz 3.31GHz.    3.2    实验结果比较 本节比较提出的FSSC- SDFSSC- MDFSSC- ST算法与无监督特征选择算法DGFSMCFSLaplacianRUFS NDFS 在表1 数据集选择的基因子集的性能,  比较各算法选择的基因子集对应分类器的各指标值.  3.2.1     平均实验结果 以ColonCarcinomaALL1 DLBCL- Tumor 数据集为例,  对比各算法采用KNN的实验结果.   2 - 5分别是各算法在ColonALL1Carcinoma DLBCL- Tumor 数据集对应不同特征子集的实验结果.       谢娟英  等:基于谱聚类的无监督特征选择算法    7   0 10 20 30 40 50 60 70 80 90 100The number of selected features0.70.750.80.850.90.95Mean   AUCFSSC-SDFSSC-MDFSSC-STDGFSMCFSLaplacianRUFSNDFS0 10 20 30 40 50 60 70 80 90 100The number of selected features0.60.650.70.750.80.850.9M ean   F- measu r eFSSC-SDFSSC-MDFSSC-STDGFSMCFSLaplacianRUFSNDFS   (a) ACC                                                      (b) AUC                                                          (c) F -measure 0 10 20 30 40 50 60 70 80 90 100The number of selected features0.650.70.750.80.850.90.951M ean   Sen si ti vi tyFSSC-SDFSSC-MDFSSC-STDGFSMCFSLaplacianRUFSNDFS0 10 20 30 40 50 60 70 80 90 100The number of selected features0.10.20.30.40.50.60.7M ean   Sp eci fi ci tyFSSC-SDFSSC-MDFSSC-STDGFSMCFSLaplacianRUFSNDFS0 10 20 30 40 50 60 70 80 90 100The number of selected features0.10.20.30.40.50.60.70.8Mean   F2FSSC-SDFSSC-MDFSSC-STDGFSMCFSLaplacianRUFSNDFS   (d) Sensitivity                                              (e) Specificity                                                  (f) F2 Fig.2 The  average index es   of KNN classifier of each algorithm for  different feature subsets o n Colon dataset 2    各算法在Colon 数据集对应不同特征子集的KNN分类器平均指标值 图2 实验结果显示,  本文算法FSSC- SDFSSC- STFSSC- MD选择的特征子集的KNN分类器的各指标值绝对地优于对比算法.     MCFSRUFS 算法次之,  接着是NDFS 算法,  DGFS 算法与Laplacian算法选择的特征子集的KNN分类器的性能最差.  0 10 20 30 40 50 60 70 80 90 100The number of selected features0.60.650.70.750.80.850.90.951M ean   AC CFSSC-SDFSSC-MDFSSC-STDGFSMCFSLaplacianRUFSNDFS0 10 20 30 40 50 60 70 80 90 100The number of selected features0.650.70.750.80.850.90.951M ean   AU CFSSC-SDFSSC-MDFSSC-STDGFSMCFSLaplacianRUFSNDFS0 10 20 30 40 50 60 70 80 90 100The number of selected features0.750.80.850.90.951Mean   F-m easu reFSSC-SDFSSC-MDFSSC-STDGFSMCFSLaplacianRUFSNDFS (a) ACC                                                        (b) AUC                                                          (c) F -measure 0 10 20 30 40 50 60 70 80 90 100The number of selected features0.820.840.860.880.90.920.940.960.981M ean   Sen si ti vi tyFSSC-SDFSSC-MDFSSC-STDGFSMCFSLaplacianRUFSNDFS0 10 20 30 40 50 60 70 80 90 100The number of selected features00.10.20.30.40.50.60.70.80.91M ean   Sp eci fi ci tyFSSC-SDFSSC-MDFSSC-STDGFSMCFSLaplacianRUFSNDFS0 10 20 30 40 50 60 70 80 90 100The number of selected features00.10.20.30.40.50.60.70.80.91Mean   F2FSSC-SDFSSC-MDFSSC-STDGFSMCFSLaplacianRUFSNDFS   (d) Sensitivity                                              (e) Specificity                                                   (f) F2     8   Journal  of  Software  软件学报      Fig.3 The  average index es   of   KNN classifier of each algorithm for  different feature subsets o n ALL1 dataset 3     各算法在ALL1 数据集对应不同特征子集的KNN分类器平均指标值 图3 实验结果显示,  提出的FSSC- SDFSSC- MDFSSC- ST算法选择的特征子集的分类性能最优,  接着是NDFS 算法,  MCFS RUFS 算法选择的特征子集的分类性能居中,  DGFS 算法与Laplacian算法选择的特征子集的分类能力最差.  0 10 20 30 40 50 60 70 80 90 100The number of selected features0.80.820.840.860.880.90.920.940.960.981Mean   AUCFSSC-SDFSSC-MDFSSC-STDGFSMCFSLaplacianRUFSNDFS0 10 20 30 40 50 60 70 80 90 100The number of selected features0.30.40.50.60.70.80.91M ean   F- measu r eFSSC-SDFSSC-MDFSSC-STDGFSMCFSLaplacianRUFSNDFS (a) ACC                                                          (b) AUC                                                          (c) F -measure 0 10 20 30 40 50 60 70 80 90 100The number of selected features0.20.30.40.50.60.70.80.91M ean   Sp eci fi ci tyFSSC-SDFSSC-MDFSSC-STDGFSMCFSLaplacianRUFSNDFS0 10 20 30 40 50 60 70 80 90 100The number of selected features0.20.30.40.50.60.70.80.91M ean   Sp eci fi ci tyFSSC-SDFSSC-MDFSSC-STDGFSMCFSLaplacianRUFSNDFS0 10 20 30 40 50 60 70 80 90 100The number of selected features0.20.30.40.50.60.70.80.91Mean   F2FSSC-SDFSSC-MDFSSC-STDGFSMCFSLaplacianRUFSNDFS   (d) Sensitivity                                              (e) Specificity                                                  (f) F2 Fig.4 The  average index es   of K NN classifier of each algorithm for  different feature subsets on  Carcinoma dataset  4    各算法在Carcinoma 数据集对应不同特征子集的KNN分类器平均指标值 图4 实验结果显示,  提出的FSSC- STFSSC- SDFSSC- MD算法选择的基因子集的分类性能优于DGFSLaplacianRUFS NDFS 算法选择的基因子集的分类性能.   DGFSMCFSLaplacian算法选择基因子集的分类性能居中,  RUFS NDFS 算法选择的基因子集的各项指标值最低.   当选择的特征数较多时,  MCFS算法选择的基因子集的KNN分类器的S ensitivity Specifity 指标上略有超过FSSC- STFSSC- SD FSSC- MD 算法.   因此,  Carcinoma 数据集的实验结果揭示,  本文算法FSSC- SD、  FSSC- MDFSSC- ST算法均能选择出区分能力好且包含特征数少的特征子集.    0 10 20 30 40 50 60 70 80 90 100The number of selected features0.650.70.750.80.850.90.951Mean   AUCFSSC-SDFSSC-MDFSSC-STDGFSMCFSLaplacianRUFSNDFS0 10 20 30 40 50 60 70 80 90 100The number of selected features0.70.750.80.850.90.951M ean   F- measu r eFSSC-SDFSSC-MDFSSC-STDGFSMCFSLaplacianRUFSNDFS (a) ACC                                                      (b) AUC                                                          (c) F -measure    谢娟英  等:基于谱聚类的无监督特征选择算法    9   0 10 20 30 40 50 60 70 80 90 100The number of selected features0.80.820.840.860.880.90.920.940.960.981Mean   Sen si ti vi tyFSSC-SDFSSC-MDFSSC-STDGFSMCFSLaplacianRUFSNDFS0 10 20 30 40 50 60 70 80 90 100The number of selected features00.10.20.30.40.50.60.70.80.9Mean   Sp eci fi ci tyFSSC-SDFSSC-MDFSSC-STDGFSMCFSLaplacianRUFSNDFS0 10 20 30 40 50 60 70 80 90 100The number of selected features00.10.20.30.40.50.60.70.80.91Mean   F2FSSC-SDFSSC-MDFSSC-STDGFSMCFSLaplacianRUFSNDFS   (d) Sensitivity                                                  (e) Specificity                                                  (f) F2 Fig.5 The  average index es of   KNN classifier of each algorithm for  different feature subsets on  DLBCL- Tumor dataset  5    各算法在DLBCL- Tumor 数据集对应不同特征子集的KNN分类器平均指标值 图5 实验结果显示,  提出FSSC- STFSSC- SDFSSC- MD算法选择的基因子集对应分类器的ACCAUCF - measureSpecificity F2指标非常好,  优于对比算法DGFSMCFSLaplacianRUFS NDFS.   在基因子集规模大于50,  提出FSSC- STFSSC- SDFSSC- MD选择的基因子集的Sensitivity 指标优于其他对比算法.   因此,  提出的FSSC- SDFSSC- MDFSSC- ST算法均能选择到区分能力较好的特征子集.  综合图2 - 5 的实验结果来看,  提出FSSC- SDFSSC- MDFSSC- ST算法均能选择出类别区分能力很好的特征子集,  优于其他对比算法.  3.2.2     各算法最优值比较 为了验证本文算法的整体性能,  比较各算法在10个癌症基因数据5 10折交叉验证选择的特征子集对应分类器的各指标平均结果的最优值,  采用各算法在10个数据集实验结果的win/draw/loss 来评价其性能.   2 - 3 分别展示了各算法在10个数据集所选特征子集对应KNNSVM 分类器的最优平均分类准确率ACCAUCF - measureSensitivitySpecificity F2值的win/draw/loss 比较.   4 展示了各算法在表1 1 0 个数据集选择的基因子集的KNNSVM分类器各指标值的最优值平均的win/draw/loss 结果比较.   表中加粗和下划线表示本文提出的FSSC- SDFSSC- MD FSSC- ST算法优于其他对比算法的结果.   表中加粗加红和下划线表示本文提出的FSSC- SDFSSC- MDFSSC- ST谱特征选择算法之间比较,   win 大于loss 的结果.  Table 2  T h e highest aver age  index  comparison   of KNN of selected gene subsets on  10 datasets (win/draw/loss) 2     各算法在10个数据集所选基因子集的KNN分类器的最高平均分类性能指标比较(win/draw/loss Indexes  Algorithms  FSSC-SD  FSSC-MD  FSSC- ST  DGFS  MCFS  Laplacian  RUFS  NDFS ACC FSSC-SD  -   6 / 1 / 3  6 / 1 / 3  9 / 0 /  1   10 / 0 / 0   9 / 0 / 1  10 / 0 / 0   10 / 0 / 0  FSSC-MD  3 / 1 / 6  -   4 / 2 / 4  9 / 0 / 1  10 / 0 / 0   9 / 0 / 1  10 / 0 / 0   10 / 0 / 0  FSSC- ST  3 / 1 / 6  4 / 2 / 4  -   9 / 0 / 1  10 / 0 / 0   9 / 0 / 1  10 / 0 / 0   10 / 0 / 0  AUC FSSC-SD  -   3 / 2 / 5  6 / 2 / 2  8 / 0 / 2  9 / 0 / 1  8 / 1 / 1  9 / 0 / 1  9 / 1 / 0 FSSC-MD  5 / 2 / 3  -   4 / 2 / 4  9 / 0 / 1  9 / 0 / 1  9 / 1 / 0  9 / 0 / 1  9 / 1 / 0 FSSC- ST  2 / 2 / 6  4 / 2 / 4  -   9 / 0 / 1  9 / 0 / 1  8 / 1 / 1  9 / 0 / 1  9 / 1 / 0 F - measure FSSC-SD  -   7 / 1 / 2  4 / 1 / 5  9 / 0 /  1   10 / 0 / 0   9 / 0 / 1  10 / 0 / 0   9 / 0 / 1 FSSC-MD  2 / 1 / 7  -   4 / 1 / 5  9 / 0 / 1  10 / 0 / 0   9 / 0 / 1  10 / 0 / 0   9 / 0 / 1 FSSC- ST  5 / 1 / 4  5 / 1 / 4  -   9 / 0 / 1  10 / 0 / 0   9 / 0 / 1  10 / 0 / 0   10 / 0 / 0  Sensitivity FSSC-SD  -   5 / 2 / 3  7 / 2 / 1  9 / 0 / 1  10 / 0 / 0   8 / 1 / 1  10 / 0 / 0   8 / 1 / 1 FSSC-MD  3 / 2 / 5  -   5 / 2 / 3  8 / 0 / 2  10 / 0 / 0   8 / 1 / 1  10 / 0 / 0   8 / 1 / 1 FSSC- ST  1 / 2 / 7  3 / 2 / 5  -   8 / 0 / 2  10 / 0 / 0   8 / 1 / 1  10 / 0 / 0   7 / 1 / 2 Specificity FSSC-SD  -   7 / 1 / 2  5  / 1 / 4   10 / 0 / 0   9 / 0 / 1  9 / 0 / 1  9 / 0 / 1  10 / 0 / 0  FSSC-MD  2 / 1 / 7  -   3 / 2 / 5  10 / 0 / 0   8 / 0 / 2  9 / 0 / 1  7 / 0 / 3  10 / 0 / 0  FSSC- ST  4 / 1 / 5  5 / 2 / 3  -   10 / 0 / 0   10 / 0 / 0   9 / 0 / 1  10 / 0 / 0   10 / 0 / 0  F2  FSSC-SD  -   4 / 1 / 5  4  / 1 / 5   10 / 0 / 0   10 / 0 / 0   9 / 0 / 1  10 / 0 / 0   10 / 0 / 0  FSSC-MD  5 / 1 / 4  -   5 / 1 / 4  10 / 0 / 0   10 / 0 / 0   9 / 0 / 1  10 / 0 / 0   10 / 0 / 0  FSSC- ST  5 / 1 / 4  4 / 1 / 5  -   10 / 0 / 0   10 / 0 / 0   9 / 0 / 1  10 / 0 / 0   10 / 0 / 0     10  Journal  of  Software  软件学报      表2 实验结果揭示,  提出的FSSC- SDFSSC- MDFSSC- ST谱特征选择算法选择的基因子集的K NN分类器的分类性能绝对地优于对比算法DGFSMCFSLaplacianRUFS NDFS 选择的基因子集的分类能力.  提出的FSSC- SDFSSC- MDFSSC- ST算法相比,  FSSC- SD算法选择的基因子集的分类性能最优,  ACCAUCF - measureSensitivity Specificity 五个指标上优于FSSC- ST算法,  ACCF - measureSensitivitySpecificity 四个指标上优于F SSC - MD算法.   提出的FSSC- MDFSSC- ST算法选择的基因子集的分类能力相当.   F2指标上,  提出的三种谱特征选择算法FSSC- SDFSSC- MDFSSC- ST选择的基因子集的分类能力相当,  FSSC- MD略优于FSSC- SDFSSC- ST算法.  Table  3   T h e highest average  index  comparison of   SVM of selected gene subsets  on 10 datasets (win/draw/loss) 3     各算法在10个数据集所选基因子集的SVM分类器的最高平均分类性能指标比较(win/draw/loss Indexes  A lgorithms   FSSC- SD  FSSC- MD  FSSC- ST  DGFS  MCFS  Laplacian  RUFS  NDFS A CC FSSC- SD  -   4 / 1 / 5  3 / 1 / 6  10 / 0 / 0   9 / 1 / 0  10 / 0 / 0   10 / 0 / 0   10 / 0 / 0  FSSC- MD  5 / 1 / 4  -   4 / 2 / 4  10 / 0 / 0   10 / 0 / 0   10 / 0 / 0   10 / 0 / 0   10 / 0 / 0  FSSC- ST  6 / 1 / 3  4 / 2 / 4  -   10 / 0 / 0   10 / 0 / 0   10 / 0 / 0   10 / 0 / 0   10 / 0 / 0  A UC FSSC- SD  -   6 / 2 / 2  6 / 2 / 2  9 / 0 / 1  8 / 1 / 1  9 / 1 / 0  9 / 0 / 1  9 / 1 / 0 FSSC- MD  2 / 2 / 6  -   6 / 2 / 2  9 / 0 / 1  8 / 1 /   1   9 / 1 / 0  9 / 0 / 1  9 / 1 / 0 FSSC- ST  2 / 2 / 6  2 / 2 / 6  -   9 / 0 / 1  8 / 1 / 1  8 / 1 / 1  9 / 0 / 1  8 / 1 / 1 F - measure FSSC- SD  -   4 / 1 / 5  5 / 1 / 4  10 / 0 / 0   9 / 0 / 1  9 / 0 / 1  10 / 0 / 0   9 / 0 / 1 FSSC- MD  5 / 1 / 4  -   4 / 2 / 4  9 / 1 / 0  9 / 0 / 1  8 / 1 / 1  9 / 1 / 0  8 / 1 / 1 FSSC- ST  4 / 1 / 5  4 / 2 / 4  -   9 / 1 / 0  9 / 0 / 1  8 / 1 / 1  9 / 1 / 0  8 / 1 / 1 Sensitivity FSSC- SD  -   3 / 7 / 0  3 / 5 / 2  6 / 4 / 0  5 / 5 / 0  5 / 4 / 1  6 / 4 / 0  5 / 4 / 1 FSSC- MD  0 / 7 / 3  -   3 / 5 / 2  6 / 4 / 0  5 / 5   / 0  5 / 4 / 1  6 / 4 / 0  5 / 4 / 1 FSSC- ST  2 / 5 / 3  2 / 5 / 3  -   6 / 4 / 0  5 / 5 / 0  5 / 4 / 1  6 / 4 / 0  5 / 4 / 1 Specificity FSSC- SD  -   2 / 4 / 4  2 / 4 / 4  7 / 0 / 3  8 / 0 / 2  7 / 0 / 3  8 / 0 / 2  7 / 0 / 3 FSSC- MD  4 / 4 / 2  -   3 / 4 / 3  7 / 0 / 3  8 / 0 / 2   7 / 0 / 3  8 / 0 / 2  7 / 0 / 3 FSSC- ST  4 / 4 / 2  3 / 4 / 3  -   8 / 0 / 2  8 / 0 / 2  7 / 0 / 3  7 / 1 / 2  7 / 0 / 3 F2  FSSC- SD  -   4 / 1 / 5  5   / 1/ 4  10 / 0 / 0   10 / 0 / 0   9 / 0 / 1  10 / 0 / 0   9 / 0 / 1 FSSC- MD  5 / 1 / 4  -   6 / 1 / 3  10 / 0 / 0   10 / 0 / 0   9 / 0 / 1  10 / 0 / 0   9 / 0 / 1 FSSC- ST  4 / 1 / 5  3 / 1 / 6  -   10 / 0 / 0   10 / 0 / 0   9 / 0 / 1  10 / 0 / 0   9 / 0 / 1 3 关于各算法选择的基因子集的SVM分类器的各项最优平均值比较显示:提出的FSSC- S T FSSC- MDFSSC- ST绝对地优于对比算法DGFSMCFSLaplacianRUFS NDFS.   提出的FSSC- SDFSSC- MDFSSC- ST三种特征选择算法选择的基因子集对应  SVM分类器的平均AUC最高值比较显示,  FSSC- SD 选择的基因子集的性能最好,  其次是FSSC- MD算法,  FSSC- ST位居第三.   提出的三种谱特征选择算法选择的基因子集对应SVM分类器的ACC比较显示,  FSSC- ST选择的基因子集的分类性能最好,  然后依次是FSSC- MDFSSC- SD.  F - measure指标比较显示,  FSSC- MD算法的性能略优于FSSC- S D FSSC- ST算法.  Sensitivity 比较显示,  提出的三种谱特征选择算法FSSC_SDFSSC- MDFSSC- ST选择的基因子集的分类性能基本相当, FSSC- S D 略优于FSSC- MD,  FSSC- MD 略优于FSSC- S T.   Specificity 最高均值比较显示,  提出的FSSC- S T FSSC- MD 算法略优于提出的FSSC- SD 算法,  FSSC- STFSSC- MD 性能相当.   各算法的基因子集对应SVM分类器的F2值显示,  FSSC- M D 算法最优,  然后依次是FSSC- S D 算法和FSSC- ST算法.    3 各算法选择的基因子集对应SVM 分类器的实验结果分析得出:提出的3 种无监督特征选择算法FSSC- SDFSSC- MDFSSC- ST绝对地优于对比算法DGFSMCFSLaplacianRUFS NDFS.   提出的3种算法之间,  多数情况下的性能指标值比较基本持平,  没有一个绝对地优于其他两个算法.  Table  4   T h e  mean  highest average  index   of KNN and SVM for the   selected gene subsets on 10 datasets (win/draw/loss)  4     各算法在1 0 个数据集所选基因子集的SVMKNN分类器的最高平均分类指标的均值比较(win/draw/loss Index   A lgorithms   FSSC-SD  FSSC-MD  FSSC- ST  DGFS  MCFS  Laplacian  RUFS  NDFS ACC FSSC- SD  -   7 / 1 / 2  4 / 1 / 5  10 / 0 / 0   10 / 0 / 0   10 / 0 / 0   10 / 0 / 0   10 / 0 / 0  FSSC-MD  2 / 1 / 7  -   4 / 1 / 5  10 / 0 / 0   10 / 0 / 0   10 / 0 / 0   10 / 0 /   0   10 / 0 / 0  FSSC-ST  5 / 1 / 4  5 / 1 / 4  -   10 / 0 / 0   10 / 0 / 0   10 / 0 / 0   10 / 0 / 0   10 / 0 / 0     谢娟英  等:基于谱聚类的无监督特征选择算法    11   AUC FSSC- SD  -   6 / 2 / 2  6 / 2 / 2  9 / 0 / 1  9 / 0 / 1  9 / 1 / 0  9 / 0 / 1  9 / 1 / 0 FSSC-MD  2 / 2 / 6  -   6 / 2 / 2  9 / 0 / 1  9 / 0 / 1  9 / 1 / 0  9 / 0 /  1   9 / 1 / 0 FSSC-ST  2 / 2 / 6  2 / 2 / 6  -   9 / 0 / 1  9 / 0 / 1  9 / 1 / 0  9 / 0 / 1  9 / 1 / 0 F -measure FSSC- SD  -   7 / 1 / 2  5 / 1 / 4  9 / 0 / 1  10 / 0 / 0   9 / 0 / 1  10 / 0 / 0   10 / 0 / 0  FSSC-MD  2 / 1 / 7  -   4 / 1 / 5  9 / 0 / 1  10 / 0 / 0   9 / 0 / 1  10 /  0 / 0   9 / 0 / 1 FSSC-ST  4 / 1 / 5  5 / 1 / 4  -   9 / 0 / 1  10 / 0 / 0   9 / 0 / 1  10 / 0 / 0   10 / 0 / 0  Sensitivity FSSC- SD  -   5 / 2 / 3  7 / 2 / 1  9 / 0 / 1  10 / 0 / 0   8 / 1 / 1  10 / 0 / 0   8 / 1 / 1 FSSC-MD  3 / 2 / 5  -   4 / 2 / 4  9 / 0 / 1  10 / 0 / 0   8 / 1 /  1   10 / 0 / 0   8 / 1 / 1 FSSC-ST  1 / 2 / 7  4 / 2 / 4  -   9 / 0 / 1  10 / 0 / 0   8 / 1 / 1  10 / 0 / 0   7 / 1 / 2 Specifity  FSSC- SD  -   6 / 1 / 3  5 / 1 / 4  10 / 0 / 0   7 / 1 / 2  9 / 0 / 1  8 / 0 / 2  9 / 0 / 1 FSSC-MD  3 / 1 / 6  -   2 / 4 / 4  10 / 0 / 0   8 / 0 / 2  10 / 0 / 0   8 / 0 / 2  10 / 0 / 0  FSSC-ST  4 / 1 / 5  4 / 4 / 2  -   10 / 0 / 0   8 / 0 / 2  10 / 0 / 0   8 / 0 / 2  10 / 0 / 0  F2 FSSC- SD  -   5 / 1 / 4  4 / 1 / 5  10 / 0 / 0   10 / 0 / 0   10 / 0 / 0   10 / 0 / 0   10 / 0 / 0  FSSC-MD  4 / 1 / 5  -   6 / 1 / 3  10 / 0 / 0   10 / 0 / 0   10 / 0 / 0   10 / 0 / 0   10 / 0 / 0  FSSC-ST  5 / 1 / 4  3 / 1 / 6  -   10 / 0 / 0   10 / 0 / 0   10 / 0 / 0   10 / 0 / 0   10 / 0 / 0  4 关于提出的FSSC- SDFSSC- MD FSSC- ST谱特征选择算法在表1 1 0 个基因数据集选择的基因子集对应KNNSVM分类器相应最优指标的均值比较显示:提出的三个谱特征选择算法所选基因子集的分类性能绝对地优于对比算法DGFSMCFSLaplacianRUFS NDFS.   提出的三个算法FSSC- SDFSSC- MDFSSC- ST相比,  FSSC- SD算法选择的基因子集的分类能力在多数情况下优于提出的 FSSC- MDFSSC- ST算法,   FSSC- MDAUCF2指标绝对地优于FSSC- ST算法,  FSSC- ST只在ACCF2指标略优于FSSC- SDFSSC- MD.    因此,  综合表2 - 4 的实验结果得出:   提出的FSSC- SDFSSC- MDFSSC- ST谱特征选择算法绝对地优于对比算法DGFSMCFSLaplacianRUFS NDFS.   提出的3 个谱特征选择算法相比,    FSSC- SD选择的特征子集的分类能力最强,  其次是FSSC- MDFSSC- ST算法.  3.2.3     特征子集规模比较 前两小节展示了提出的3 种无监督特征选择算法选择的基因子集的分类性能比较,  本小节将比较各算法选择的特征子集的规模,  即选择的基因数.   6 展示了各算法选择的基因子集对应KNNSVM分类器的最优指标值对应基因子集包含的平均基因数.   图中颜色越偏于ColorBar 底部颜色,  表示基因数越少(特征子集规模越小),  反之,  颜色越偏于ColorBar 顶部的颜色,  特征子集包含的基因数越多.    FS S C - SDFS S C - MDF SS C - S TD G F SMCF SLa p lac ia nR U F SN D FSAlgorithmsColonLeukemiaLungCancer-MichiganCarcinomiaDLBCL-TumorLeukemia_MLLLymphomaCNSSRBCTALL1D ata setThe average number of features on the two classifiers61.561.57692.571.571.5739536.57670.576.595.570.5 4879.582.56882.535.5836868834791.596.596291498896287.587.54567.5241.532.532.594.5959298969689.580809496.52293.596908282936187.5906.59681.58080939896.5979654828249.59019900.10.20.30.40.50.60.70.80.91FS S C - SDFS S C - MDF SS C - S TD G F SMCF SLa p lac ia nR U F SN D FSAlgorithmsColonLeukemiaLungCancer-MichiganCarcinomiaDLBCL-TumorLeukemia_MLLLymphomaCNSSRBCTALL1D ata setThe average number of features on the two classifiers727283.57578787945.5617971.57150.560.5838388734462838389.574.57382185685.53199.521967961002949420.557.596.57346231.531.593.597759690.599.599.590.5929613790.595.587.58697.59985.5278399.599.59995.5188.595.537510085.527.500.10.20.30.40.50.60.70.80.91FS S C - SDFS S C - MDF SS C - S TD G F SMCF SLa p lac ia nR U F SN D FSAlgorithmsColonLeukemiaLungCancer-MichiganCarcinomiaDLBCL-TumorLeukemia\_MLLLymphomaCNSSRBCTALL1D ata setThe average number of features on the two classifiers7376 7395.534.576.570.576.595.52957.557.577.5866857.557.535.577.57468688370709197.55395.5285.571.571.580.591.597.5272724596.5241.549.549.594.59588974873.596898094916.59690.553539351.593.5906.59581.593.59397919396535323.590197.500.10.20.30.40.50.60.70.80.91           a ACC                                             b AUC                                            c F- measure FS S C - SDFS S C - MDF SS C - S TD G F SMCF SLa p lac ia nR U F SN D FSAlgorithmsColonLeukemiaLungCancer-MichiganCarcinomiaDLBCL-TumorLeukemia_MLLLymphomaCNSSRBCTALL1D ata setThe average number of features on the two classifiers4922.534616149.595.530.567.594.546555519.573.584.554.554.56487555554.554.5214068686797.5971.53538.59297.51.54044.544.545633.596.51.5850.550.519297487950.540.578.5911.550429.571903.5404093.5897912.595.5503522.566.5901834000.10.20.30.40.50.60.70.80.91FS S C - SDFS S C - MDF SS C - S TD G F SMCF SLa p lac ia nR U F SN D FSAlgorithmsColonLeukemiaLungCancer-MichiganCarcinomiaDLBCL-TumorLeukemia_MLLLymphomaCNSSRBCTALL1D ata setThe average number of features on the two classifiers802883.58256.531.573.56577.530.572.5768857.559.581.566.568926849.549.5669429246.546.5609297250.550.59095.533.5792111167.588.592.5888174.589.550.550.593.592.5968389.55650.550.568.587.596956550.550.57793.599968989.56250.550.516055.596989700.10.20.30.40.50.60.70.80.91FS S C - SDFS S C - MDF SS C - S TD G F SMCF SLa p lac ia nR U F SN D FSAlgorithmsColonLeukemiaLungCancer-MichiganCarcinomiaDLBCL-TumorLeukemia_MLLLymphomaCNSSRBCTALL1D ata setThe average number of features on the two classifiers61.561.56771.571.572.5839266.5766082.579759280839255.585697892836586.54762.5918495.52914996281.581.546.595.551.579.5249.549.588.5889079.59289.5505093.554.5839975759387969594.585505081.5978295.59940.5757539.596589794.500.10.20.30.40.50.60.70.80.91 d Sensitivity                                        e Specificity                                          f F2    12  Journal  of  Software  软件学报      Fig.6    The  mean feature number of selected gene subsets with the  best   average index of   SVM and KNN by each algorithm for  each data set:   ( a ) ACC; ( b ) AUC; ( c ) F - measure; ( d ) Sensitivity; ( e ) Specificity; ( f ) F2 6     各算法对各数据集选择的基因子集对应SVMKNN分类器的最优指标值对应特征子集的平均特征数,  ( a ) ACC,   ( b ) AUC,   ( c ) F - measure,   ( d ) Sensitivity,   ( e ) Specificity,   ( f ) F2 6 特征子集规模比较显示,  提出的FSSC- SDF SSC - MD F SSC - ST算法无论采用哪种评价指标,  均能在发现ALL1 数据集的最具分类能力且规模最小的基因子集.   除了F - measure指标,  ACCAUCF2Sensitivity S pecificity 指标,  提出的FSSC- SDFSSC- MDFSSC- ST算法在各数据集均能选择到规模相对较小且具有很好分类能力的基因子集.   分析原因是F - measure指标过分强调了对于正类的识别能力,  而忽略了选择的基因子集对于负类的识别能力.    综合图6 各算法选择的特征子集规模的分析可知,  提出的3 种谱特征选择算法FSSC- SDFSSC- MD FSSC- ST能选择到分类性能好且规模不大的特征子集.  4    各算法统计重要度分析 为了检验本文提出FSSC- SDFSSC- MDFSSC- ST算法与对比算法DGFS[ 23]MCFS[ 19]Laplacian[ 18]RUFS [ 25]NDFS[ 26]是否具有统计显著性,  本节采用Friedman 检验来检验各特征选择算法间的差异[ 36,  37],  Friedman 检测到算法间的显著性差异后,  采用多重比较检验(Multiple comparison test)作为事后检验,  发现各特征选择算法之间的显著性差异.  我们依据各算法在10个癌症基因数据5 10折交叉验证选择的特征子集对应K NN分类器的A CCAUCF - measureSensitivitySpecificity F 2 各指标平均结果的最优值,  =0.05 a 时,  进行Friedman 检测.   6 种指标下的Friedman 检测显示各特征选择算法之间存在显著差异.  基于KNN分类器的预测准确率A CC2c = 60.9034,  df = 7 ,  p = 9.9624e- 11 ; AUC2c = 59.4230,  df = 7 ,  p = 1.9679e- 10; F - measure2c =58.7260 , df =7,  p =2.7102e - 10; Sensitivity 2c = 44.7006,  df = 7 ,  p = 1.5633e- 07;   Specificity 2c = 23.7982,  df = 7 ,  p = 0.0012 ; F 22c = 62.1587,  df = 7 ,  p = 5.5873e- 11 .  p <0.05 对所有评价指标均成立,  因此得出结论:各算法间存在显著差异.   5 - 10展示了可信水平为0.95 ,  每一对特征选择算法进行多重比较检验的结果.  各表上三角展示了各算法间的平均等级差,  下三角展示了各算法对之间的统计重要性,  *表示相应算法之间统计重要性显著.   Table  5   P ai red rank comparison of 8 feature selection algorithms in ACC   of KNN predictive model  5     8 种特征选择算法依据特征子集对应KNN预测模型的ACC等级比较 Algorithm  FSSC- SD  FSSC- MD  FSSC-ST  DGFS  MCFS  Laplacian  RUFS  NDFS FSSC- SD    -0.1500   0.0500   5.3000   2.2000   4.2000   3.1500   4.8500  FSSC-MD    0.2000   5.4500   2.3500   4.3500   3.3000   5.0000  FSSC-ST        5.2500   2.1500   4.1500   3.1000   4.8000  DGFS  *   *   *     -3.1000   - 1.1000   -2.1500   - 0.4500  MCFS  *   *   *       2.0000   0.9500   2.6500  Laplacian   *   *   *     *     -1.0500   0.6500  RUFS  *   *   *     *       1.7000  NDFS  *   *   *     *     *    Table  6   P ai red rank comparison of 8 feature selection algorithms in AUC   of KNN predictive model  6    8种特征选择算法依据对应特征子集的KNN预测模型的AUC等级比较 Algorithm  FSSC- SD  FSSC- MD  FSSC-ST  DGFS  MCFS  Laplacian   RUFS  NDFS FSSC- SD    0   0.6000   5.3500   2.3000   4.2500   3.7500   4.9500  FSSC-MD    0.6000   5.3500   2.3000   4.2500   3.7500   4.9500     谢娟英  等:基于谱聚类的无监督特征选择算法    13  FSSC-ST        4.7500   1.7000   3.6500   3.1500   4.3500  DGFS  *   *   *     -3.0500   - 1.1000   -1.6000   - 0.4000  MCFS  *   *   *       1.9500   1.4500   2.6500  Laplacian   *   *   *     *     -0.5000   0.7000  RUFS  *   *   *     *       1.2000  NDFS  *   *   *     *     *    Table  7   P ai red rank comparison of 8 feature selection algorithms in  F - measure  of KNN  predictive model  7    8 种特征选择算法依据对应特征子集的KNN预测模型的F - measure等级比较 Algorithm  FSSC-SD  FSSC-MD  FSSC-ST  DGFS  M CFS   Laplacian  RUFS  NDFS FSSC-SD    - 0.3000   - 0.2000   5.1000   2.1000   4.1000   3.1000   4.5000  FSSC- MD      0.1000   5.4000   2.4000   4.4000   3.4000   4.8000  FSSC-ST        5.3000   2.3000   4.3000   3.3000   4.7000  DGFS  *   *   *     - 3.0000   -1.0000   -2.0000   -0.6000  MCFS  *   *   *       2.0000   1.0000   2.4000  Laplacian  *   *   *     *     -1.0000   0.4000  RUFS  *   *   *     *       1.4000  NDFS  *   *   *     *     *    Table  8   P ai red rank comparison of 8 feature selection algorithms in  S ensitivity   of KNN  predictive model  8    8 种特征选择算法依据对应特征子集的KNN预测模型的S ensitivity 等级比较 Algorithm  FSSC-SD  FSSC-MD  FSSC-ST  DGFS  MCFS  Laplacian  RUFS  NDFS FSSC-SD    -0.2000   0.9000   4.2500   2.1000   3.4500   3.3500   3.3500  FSSC- MD    1.1000   4.4500   2.3000   3.6500   3.5500   3.5500  FSSC- ST        3.3500   1.2000   2.5500   2.4500   2.4500  DGFS  *   *   *     2.1500   -0.8000   -0.9000   - 0.9000  MCFS  *   *   *       1.3500   1.2500   1.2500  Laplacian  *   *   *     *     -0.1000   - 0.1000  RUFS  *   *   *     *       0  NDFS  *   *   *     *        Table  9   P ai red rank comparison of 8 feature selection algorithms in  Spcificity  of KNN  predictive model 9    8 种特征选择算法依据对应特征子集的KNN预测模型的Spcificity等级比较 Algorithm   FSSC-SD  FSSC-MD  FSSC-ST  DGFS  MCFS  Laplacian  RUFS  NDFS FSSC-SD    0.2000   0.1000   3.1500   0.5500   2.3000   1.5500   3.1500  FSSC- MD    -0.3000   2.9500   0.3500   2.1000   1.3500   2.9500  FSSC- ST        3.2500   0.6500   2.4000   1.6500   3.2500  DGFS  *   *   *     -2.6000   -0.8500   -1.6000   0  MCFS      *       1.7500   1.0000   2.6000  Laplacian  *   *   *     *     -0.7500   0.8500  RUFS  *   *   *     *       1.6000  NDFS  *   *   *     *     *    Table  10  P ai red rank comparison of 8 feature selection algorithms in  F2  of KNN  predictive model 10    8 种特征选择算法依据对应特征子集的KNN预测模型的F 2 等级比较 Algorithm   FSSC-SD  FSSC-MD  FSSC-ST  DGFS  MCFS  Laplacian  RUFS  NDFS FSSC-SD    0.9000   0.3000   5.2000   2.1000   3.9000   3.1000   4.7000  FSSC- MD  *     1.2000   6.1000   3.0000   4.8000   4.0000   5.6000  FSSC-ST        4.9000   1.8000   3.6000   2.8000   4.4000  DGFS  *   *   *     - 3.1000   -1.3000   -2.1000   -0. 5000 MCFS  *   *   *       1.8000   1.0000   2.6000  Laplacian  *   *   *     *     0.8000   0.8000  RUFS  *   *   *     *   *     1.6000  NDFS  *   *   *     *   *   *    5 - 10的统计重要性检测结果显示:本文提出的F SSC - ST算法与所有对比特征选择算法DGFSM CFS LaplacianR UFS N DFS 之间均存在显著性差异.   提出的FSSC- SDFSSC- MD算法,  当使用所选基因子集   14  Journal  of  Software  软件学报      对应KNN分类器的ACCAUCF - m easure Sensitivity F2指标时,  与所有对比特征选择算法DGFSMCFSLaplacianRUFS NDFS 之间均存在显著不同; 当使用Specificity 指标时,  MCFS 算法没有显著区别,  但与其他对比算法DGFSLaplacianRUFS NDFS 均存在显著性不同.   算法MCFS 与算法LaplacianRUFSNDFS 在所有指标下均存在统计显著性不同.  对比算法NDFS RUFS 在除了Sensitivity 外的其他指标上存在显著性不同.  1 0 统计分析结果显示:当使用F2指标时候,  本文提出的三种谱特征选择算法FSSC- SDFSSC- MDFSSC- ST不仅与所有对比算法DGFSMCFSLaplacianRUFS NDFS 存在显著性不同,  提出的FSSC- SDFSSC- MD算法之间也存在统计显著性差异,  另外LaplacianR UFS 、  N DFS 算法间存在显著性不同.    由以上统计重要性分析可见,  提出的谱特征选择算法FSSC- SDFSSC- MD FSSC- ST是非常有效的基因选择算法,  能选择到分类性能显著不同于对比算法的基因子集。 5    结论 针对癌症基因数据的特征选择问题,  提出基于谱聚类的无监督特征选择算法FSSC- SDFSSC- MD FSSC- ST 对所有特征进行谱聚类,  将相似性较高(强冗余性)的特征聚成一类,   从各类簇选择代表特征构成特征子集.   提出特征区分度、特征独立性、特征重要度概念,  定义特征区分度为其标准差,  定义特征独立性为其与簇内其他区分度更高特征的Pearson相关系数和的倒数,  对区分度最大特征,  定义其独立性为其与所在特征簇最不相关特征的Pearson相关系数绝对值的倒数,  定义特征重要性为其区分度与独立性之积.   10个基因数据集的实验测试及各算法的统计显著性检测表明,  提出的无监督谱特征选择算法FSSC- SDFSSC- MD FSSC- ST均能选择到不仅具有强分类能力,  且包含基因数较少的特征子集,  其中FSSC- SD选择的特征子集的分类能力最优.   提出的谱特征选择算法FSSC- SDFSSC- MDFSSC- ST和对比算法DGFSMCFSLaplacianRUFSNDFS 之间存在显著性差异.  References :  [1]     Derisi JL, Iyer VR, Brown PO. Exploring the metabolic and genetic control of gene expression on a genomic scale .   Science, 1997, 278(5338):   680 - 686 .  [2]     Golub TR, Slonim D K, Tamayo P, Huard C,   Gaasenbeek M,   Mesirov JP,   Coller H,   Loh ML,   Downing JR.   Molecular classification of cancer: class discovery and class pred iction  by gene expression monitoring . Science, 1999, 286(5439): 531 - 537  [3]     K han J, Wei JS, Ringner M, Saal LH,   Ladanyi M,   Westermann F,   Berthold F,   Schwab M,   Antonescu CR,   Peterson C. Classification and diagnostic prediction of cancers using gene expression p rofiling a nd artificial neural networks. Nature  M edicine, 2001, 7(6): 673.  [4]     Li YX, Li JG, Ruan XG. Study of inofrmative gene selection for tissue classification based on tumor gene expression profiles. Chinese Journal of Computers, 2006,  29(2):324330 (in C hinese with English abstract). [5]     Guyon I, Elisseeff A. An introduction to variable and feature selection . Journal of  M achine  Learning R esearch, 2003, 3: 1157-1182. [6]     Ding C, Peng H C . Minimum redundancy feature selection from microarray gene expression data . Jo urnal of  B ioinformatics and C omputational  B iology, 2005, 3(02): 185-205.  [7]     X ie JY, Wang MZ, Hu QF. The differentially expressed gene selection algorithms for unbalanced gene datasets by maximize the area under ROC. Journal of Shaanxi Normal University (Natur al Science Edition),   2017,  45(01):  13-22  (in Chinese with English abstract) .  [8]     Xie JY, Wang MZ, Zhou Y, Li, JY. Coordinating discernibility and independence scores of variables in a 2D space for efficient  and accurate feature selection .  In :   Huang  D S ,  Han  K, Hussain A , ed .  International C onference on Intelligent Computing  2016, Part III , Intelligent Computing Methodologies , LNAI 9773 .   Switzerland :   Springer International Publishing Switzerland,  2016.  116 -127.  [9]     B lum  A L,  Langley  P.  Selection  of  relevant  features  and  examples  in  machine  learning .  Artificial  Intelligence,  1997,  97(1 -2): 245 -271.  [10]     Kohavi R,  John G H. Wrappers  for feature subset selection. Artificial  Intelligence, 1997, 97(1 -2): 273 -324.     谢娟英  等:基于谱聚类的无监督特征选择算法    15  [11]     Lal  TN,  Chapelle  O,  Weston  J, Elisseeff  A .  Embedded  methods.  In:  Gu yon  I,  Nikravesh  M, Gunn  S,  Zadeh  LA,  ed.  Feature E xtraction ,  Foundation  and  Applications,  Studies  in  Fuzziness  and  Soft  Computing,  207 .   Heidelberg:   Springer- verlag  Berlin Heidelberg, 2006.   137 - 165.  [12]     Kira K, Rendell LA. The Feature Selection Problem: Traditional Methods and a New Algorithm . In:  Kerber R, ed.  Proc eedings  of the 10th National Conf erence   on Artificial Intelligence.  California:  AAAI Press, 1992. 129-134.  [13]     Peng  HC ,  Long  F H ,  Ding  C.  Feature  selection  based  on  mutual  information:  criteria  of  max-dependency,  max -relevance,  and min- redundancy.  IEEE Transactions on Pattern Analysis & Machine Intelligence, 2005 (8): 1226-1238.   [14]     Hall  MA.  Correlation-Based  Feature Selection  for  Machine  Learning  [ Ph. D .   Thesis ].   Hamilton,  New  Zealand:  University  of Waikato, 1999. [15]     Dash M, Liu H, Yao J. Dimensionality reduction of unsupervised data.  In:  Storms P, ed. Proceedings Ninth IEEE International Conference on  Tools with Artificial Intelligence .   California:  IEEE,   1997.   532 -539.  [16]     X u JL, Zhou YM, Chen L, Xu BW.  An unsupervised feature selection approach based on mutual information .  J ournal of Computer Research and Development, 2012, 49(2): 372 -382   (in Chinese with English abstract).  [17]     Z hang L, Sun G, Guo J.  Unsupervised feature selection method based on K-means clustering.   App lication Research of Computers,  2005,   22(3):22 - 24  (in Chinese with English abstract).  [18]     He  XF,  Cai  D Y ,  Niyogi  P.  Laplacian  score  for  feature  selection.   In:  Weiss  Y,  Schölkopf  B,  Platt  J,  ed.  Advances  in   Neural Information Processing Systems  (NIPS 18) . Cambridge: MIT Press, 2006. 507 - 514.  [19]     Cai D, Zhang C Y , He X F. Unsupervised feature selec tion for multi -cluster data.  In:  Wallace BC, Small K, Brodley CE, Trikalinos TA, ed.  Proceedings of the 16th ACM SIGKDD Internation  Conferfence  on Knowledge Discovery and Data Mining. Washington : ACM,  2010. 333-342.  [20]     Wang  LX, Jiang SY.   Novel feature selection method based on feature clustering.   Application Research of Computers , 2015, 32(5): 1305-1308  (in Chinese with English abstract).  [21]     Zheng Z, Liu H. Spectral feature selection  for supervised and unsupervised learning. In: Ghahramani Z, ed. Proc eedings  of the 24th International Conference   on Machine Learning (ICML 2 007). New York: ACM, 2007. 1151 - 1157.   [22]     X ie  JY,  Qu  YN,  Wang  MZ.  Unsupervised  feature  selection  algorithms  based  on  de nsity  peaks .   J ournal  of  Nanjing  U niversity  ( Natural sciences ) .   2016, 52(4): 735 -745.  [23]     He  JR ,  Bi  Y Z ,  Ding  L X ,  Li  ZK,  Wang  SW .  Unsupervised  feature  selection  based  on  decision  graph.  Neural  Computing  and Applications, 2017, 28(10): 3047 - 3059. [24]     X ie  JY ,  Fan  W.  G ene  markers  identifi cation  algorithm  for  detecting  colon  cancer  patients .   Pattern  Recognition  and  Artificial Intelligence ,   2017,  52(4 ) : 1019 -1029  (in Chinese with English abstract).  [25]     Qian MJ , Zhai C X . Robust unsupervised feature selection. In:  Rossi F, ed. Proc eedings  of the 23rd Int ernational  Joint Confernce  on Artificial Intelligence (IJCAI 2013). California:  AAAI press ,   2013. 1621 -1627.   [26]     -+ Li Z C , Yang Y, Liu J,  Zhou XF ,   Lu HQ . Unsupervised feature selection using nonnegative spectral analysis. In: Hoffmann J, Selman B, ed. Proceedings of the Twenty -Sixth AAAI Conference on Artificial  Intelligence (AAAI -12).  Toronto: AAAI press, 2012. 1026 -1032.   [27]     H u MJ, Zheng LP, Tang L, Yang H, Fu W.  Feature selection algorithum based on joint spectal clustering and neighborhood mutual information.  Pattern Recognition and Artificial Intelligence, 2017, 30(12): 1121 -1129  (in Chinese with English abstract).  [28]     J iang SY, Zheng Q, Zhang QS.   Clustering- b ased feature  s election.  Acta Electronica Sinica , 2008, 36(s1): 157 - 160.   ( in Chi nese with English abstract )  [29]     X ie  JY,  Ding  LJ.   The  True  Self-adaptive  s pectral c lustering  a lgorithms.  Acta  Electronica  Sinica,  2019,  47(5):  1000 -1008  (in Chinese with English abstract) .  [30]     Zelnik -Manor L, Perona P. Self- tuning spectral clustering.  In:  Saul LK, Weiss Y, Bottou L, ed. Advances in neural information processing systems   ( NIPS17) .  Cambridge MA: MIT press, 2005 .1601 - 1608.  [31]     Wang L, Bo LF, Jiao LC. Density- Sensitive Semi- Supervised Spectral Clustering .  Journal of Software, 2007, 18(10) :   2412-2422  (in Chinese with English abstract) .     16  Journal  of  Software  软件学报      [32]     Xie JY, Zhou Y. A new criterion for clustering algorithm. Journal of Shaanxi Normal University (Natural Science Edition),   2015, 43(06):  1 - 8   (in Chinese with English abstract).  [33]     Luxburg UV. A tut orial on spectral clustering. Stati stics and Computing, 2007, 17(4): 395-416.  [34]     Chang CC, Lin CJ. LIBSVM: a librar y for support vector machines . ACM  T ransactions on  Intelligent S ystems and  T echnology (TIST), 2011, 2(3): 27.  [35]     Xie  JY, Wang MZ, Zhou Y, Gao HC, Xu SQ .  Differentially expressed gene  selection algorithms for unbalanced gene datasets. Chinese Journal of Computers, 2019 ,  42( 6 ): 1 232 -1 251   (in Chinese with English abstract).  [36]     Borg  A,  Lavesson  N,  Boeva  V.  Comparison  of  Clustering  Approaches  for  Gene  Expression  Data. In:  Jaeger  M ,   Nielsen TD, Viappiani P,  ed. Twelfth Scandinavian Conference on Artificial Intelligence.  Aalborg:  IOS Press, 2013.   55-64.  [37]     Xie  J Y ,   Gao HC, Xie WX,   Liu XH, Grant PW.  Robust clustering by detecting density peaks and assigning points based on fuzzy weighted K -nearest neighbors. Inf ormation Sciences, 2016,   354: 19-40. 附中文参考文献:  [ 4 ]    李颖新,  李建更,  阮晓钢.  肿瘤基因表达谱分类特征基因选取问题及分析方法研究.  计算机学报, 2006,   29(2):  324330.  [ 7]     谢娟英,   王明钊,   胡秋锋.   最大化ROC曲线下面积的不平衡基因数据集差异表达基因选择算法.   陕西师范大学学报( 自然科学版),   2017,  45(01):  13- 22. [ 1 6 ]  徐峻岭,  周毓明,  陈林,  徐宝文.  基于互信息的无监督特征选择.  计算机研究与发展, 2012, 49(2): 372 -382.  [ 1 7 ]  张莉,  孙钢,  郭军.  基于  K - 均值聚类的无监督的特征选择方法.  计算机应用研究,   2005,   22(3):   22-24.  [ 20]  王连喜,  蒋盛益.  一种基于特征聚类的特征选择方法.  计算机应用研究, 2015, (5): 1305 -1308. [ 2 2 ]  谢娟英,  屈亚楠,  王明钊.  基于密度峰值的无监督特征选择算法.  南京大学学报( 自然科学), 2016, 52(4): 735 - 745.  [ 2 4 ]  谢娟英,  樊雯.   结肠癌患者诊断的基因标志物识别算法.  模式识别与人工智能, 2017, 52(4 ): 1019 -1029.  [ 2 7 ]  胡敏杰,  郑荔平,  唐莉,  杨红,   郑荔平,   傅为.  联合谱聚类与邻域互信息的特征选择算法.  模式识别与人工智能,   2017,  30(12): 1121-1129. [ 2 8 ]  蒋盛益,   郑  琪,  张倩生.  基于聚类的特征选择方法.  电子学报, 2008, 36(s1): 157 - 160.  [ 2 9 ]  谢娟英,  丁丽娟.  完全自适应的谱聚类算法.  电子学报, 2019, 47(5): 1000 - 1008.  [ 31]  王玲,  薄列峰,  焦李成.  密度敏感的半监督谱聚类.  软件学报, 2007, 18(10) :   24122422 .  [ 32]  谢娟英,   周颖.   一种新聚类评价指标.   陕西师范大学学报( 自然科学版),   2015,  43(06):  1 - 8.  [ 3 5 ]  谢娟英,  王明钊,  周颖,  高红超,  许升全.  非平衡基因数据的差异表达基因选择算法研究.  计算机学报,  201 9 ,  42(6 ): 1232-125 1 .  

[返回]
上一篇:基于多通道自注意力机制的电子病历实体关系抽取
下一篇:基于低密度分割几何距离的半监督KFDA 算法