基于谱图理论的流形学习算法

基于谱图理论的流形学习算法计算机研究与发展 JournalofComputerResearchandDevelopment ISSN1000—1239／CN11—1777／TP 43(7)：1173～1179，2006 基于谱图理论的流形学习算法罗四维赵连伟 (北京交通大学计算机与信息技术学院北京 100044) (swluo@center．njtu．edu．cn) ManifoldLearningAlgorithmsBasedonSpectralGraphTheory LuoSiweiandZhao“anwei (...

计算机研究与发展 JournalofComputerResearchandDevelopment ISSN1000—1239／CN11—1777／TP 43(7)：1173～1179，2006 基于谱图理论的流形学习算法罗四维赵连伟 (北京交通大学计算机与信息技术学院北京 100044) (swluo@center．njtu．edu．cn) ManifoldLearningAlgorithmsBasedonSpectralGraphTheory LuoSiweiandZhao“anwei (Sc^00￡q厂Gompt‘抛randf规如r僦￡io托仡^nozogy，Be巧ingJ洳￡o札gU心i曰Prsi￡3，，嘲i扎g100044) AbstractIntheproblemofmanifoldlearning，oneseekstofinda smoothlow-dimensionalmanifold embeddedinthehigh—dimensionalvectorspace，basedonasetofsamplepoints．Spectralgraphtheory studiestheeigenvectorsandeigenvaluesofmat“cesassociatedwithgraphsandhasbeenwidelyusedinthe manifoldlearningalgo“thmrecently．Inthispaper，therelationshipbetweenthemanifoldandthemanifold learningisintroducedfirst，andthensometypicalmanifoldlearningalgorithmsbasedonspectralgraph theoryarestudied．FinaUy，somedirectionsforfurtherresearcharesuggested． Keywordsmanifoldlearning；spectralgraphtheory；localtangentspace；randomwalk；eigenmaps 摘要流形学习的主要目标是发现嵌入在高维数据空间的低维光滑流形．近年来基于谱图理论的学习算法受到研究者的广泛关注．介绍了流形与流形学习的关系，着重研究了几种有代表性的基于谱图理论的流形学习算法，并对算法进行了比较分析，最后进行总结和对进一步的研究做了展望．关键词流形学习；谱图理论；局部切空间；随机游走；特征映射中图法分类号TPl8 1 引言近年来，神经科学的研究取得很多重大发展．越来越多的研究表明，视感知系统响应具有的某种不变性与连续变化信号本身蕴涵的不变性非常一致．研究还发现整个神经细胞群的触发率可以由少量变量组成的函数描述，如眼的角度和头的方向，这表明神经元的群体活动性是由外界刺激的内在低维结构所控制．Seung等人认为感知可能以流形方式存在uJ，视觉记忆也可能是以稳态的流形存储，而在理解人脑中感知如何从神经网络动力学产生，流形可能是至关重要的．能够从相对少量的数据中学习到有效的知识是人类智能的一个重要特性，理解人类的感知过程无疑是科学界最令人关注的问题之一．流形是微分几何中的一个基本概念．20世纪微分几何得到高速发展，几何和拓扑的研究方法也逐渐形成和完善，同时也愈加广泛应用在其他学科中，神经科学中用流形方法研究人类感知就是典型的一个应用．微分几何学为研究感知流形的形成及其性质提供了坚实的数学理论基础，几何和拓扑的研究方法为研究感知流形提供了新的思路．如果把外界的感知表示为高维空间上的点集，而这些感知输入可能会有较强的相关性，可能会在一个低维流形上，或在低维流形的附近。人能够从收稿日期：2005—0519；修回日期：2006—0222 基金项目：国家自然科学基金项目(60373029)；国家教育部博士学科点基金项目(20050004001)；北京市重点学科共建基金项目(Ⅺ(100040415) 万方数据计算机研究与发展2006，43(7) 外界的刺激感知到这些固有的低维流形，研究和模拟人的这种感知能力，即从有限样本数据中学习到潜在流形的问题，成为众多计算机科学家的研究目标． 2流形与流形学习微分几何中首先对M上每一点的无穷小邻域定义与Euclid空间某个开集的微分同胚，加上这些邻域的连接信息组成微分结构，M连同这个微分结构称为流形．严格的流形定义参见文献[2]．简单的说一个流形就是一个拓扑空间，它在局部上是欧氏的．若在保留流形拓扑或连接特性的条件下把M 表示在某种空间中，这样的表示称为嵌入．从流形的定义可以看出，流形最基本的一个性质就是可以在局部上建立与Euclid空间的微分同胚，并借以研究流形的全局性质．虽然在许多情形下传统的实数或复数空间是最重要的情形，但是在微分几何中只可以看做是局部的情形．几何上研究的通常是连续可微的流形，而实际问题中，对象通常给定的是高维观测数据集，数据变量可以用少量几个影响因素来表示，这种现象在几何学上表现为样本点散布在低维流形上，或者是在低维流形附近．而要有效揭示数据潜在的几何结构，需要根据有限的离散样本数据学习和发现嵌入在高维空间中的低维光滑流形，这就是流形学习的主要目标．流形学习问题的数学描述：给定高维观测数据集x={工】，x2，⋯，工N}，其中工i∈RD，为独立同分布的随机样本，散布在光滑的d维流形M[RD上，即M为嵌入在D维欧氏空间中d维流形，定义嵌入映射厂：McRD—R4，这里d《D．流形学习是在没有任何关于M和d的先验知识的条件下，根据有限的观测数据集x发现未知嵌入映射．厂(·)，且找到与高维观测数据一一对应的低维嵌入l，={y】， j，2，⋯，J，N}，yi∈Rd．流形学习算法的主要思想：①由局部到整体的思想．根据流形的定义，流形在局部上可以看做是欧氏的，研究中通常首先在局部建立坐标卡，然后用对每个局部的坐标卡进行整合，进而得到全局低维嵌入．②由离散逼近连续的思想．对于给定的离散样本，要得到连续可微流形的性质，必须通过逼近方法．本文主要对基于谱图理论的流形学习算法进行研究． 3基于谱图理论的流形学习谱方法是数学领域里一种经典的分析和代数方法，在高维数据的低维表示和聚类问题¨’4j中有着广泛的应用．算法首先根据给定的样本数据集定义一个描述成对数据点相似度的关系矩阵，并计算此矩阵的特征值和特征向量；然后选择合适的特征向量，投影得到数据的低维嵌入．如果相似度矩阵定义在一个给定的图上，比如为图上的邻接矩阵、 Laplacian矩阵等，则称为谱图方法．谱图理论¨J通过研究根据图定义的矩阵的谱，进一步研究图中包含的信息，并通过几何、分析和代数的技术在离散空间和连续空间之间建立了联系．一个图G=(V，E)包含有两个集合：v为顶点集合，E为边的集合．对于取样自d维流形上的样本数据集x，首先在数据点和图G的顶点之间建立一一对应，并定义成对数据点的相似度为图中的边，这样就根据数据点建立了一个与之对应的图．图和流形有很多相近的性质，最重要的一点就是都可以嵌入到Euclid空间，所以很多研究人员都使用图的方法逼近流形，并利用图的理论求解低维嵌入．对于流形来说，一个与之对应的图就是一个拓扑对象，其拓扑性质通过边的权值表现．如果数据集足够大，噪声较小，合理定义图中边的权值可以充分逼近嵌入流形．谱图理论在流形学习中有着广泛的应用，本文根据成对数据点之间相似度的定义方法把基于谱图理论的方法分为两类：一是基于全局的方法，即计算每一个数据点与所有其他数据点的关系，即建立全连接图．二是基于局部的方法，即考虑每一个数据点与它邻域内的点的关系，如忌近邻或e邻域方法定义图中的边． 3．1基于全局的方法 3．1．1 PCA，KernelPCA和主曲线处理高维数据的经典方法是采用线性方法进行降维，线性组合容易计算，且能够进行解析分析．主成分分析(PCA)在全局最小重构误差的意义下把高维观察数据投影到低维主子空间上，而数据点协方差矩阵最大几个特征值所对应的特征向量生成的子空间正好满足这个条件．PcA是一种理论完善且在算法上可行的线性降维方法，也是最为经典方法之一，但是其有效性建立在假设数据嵌入在全局线性或近似线性的低维子流形上．万方数据罗四维等：基于谱图理论的流形学习算法 1175 KernelPCAMl是PCA的非线性推广，主要思想是把输人数据x经由一个非线性映射垂(工)映射到特征空间F，然后在特征空间F执行线性PCA． KernelPCA对于特征空间中特征值和向量在特征空间上投影的计算都不要求映射西(x)有显式的形式，而只需要计算映射的点积，实际中点积可以由核函数计算．KernelPCA的非线性是通过核变换把输入空间变换到Hilbert特征空间来实现的，所以可以说PCA是在输入空间上的计算，KernelPCA则是在特征空间上的计算．Hastie和Stuetzle【7J提出的主曲线在统计学上定义为满足自相合特性的曲线，是第一主成分的非线性推广．有关主曲线算法大多不是基于谱的方法，本文不做详细论述，更详细的论述参见文献[8，9]． 3．1．2MDS和Isomap PCA、主曲线(面)等都是把高维空间的数据点映射到一个低维流形空间中，而在一些应用中可能没有可以利用的数据点坐标，只有这些数据点的某种相似度关系．多维尺度分析(MDs)¨钊就是根据数据间的相似度(可以为距离)组成关系矩阵，并利用求解关系矩阵的谱，寻找数据在低维空间中的投影，借此尽可能地保留每对观测之间的相似性关系． MDS保留的是直线距离，所以只能发现线性结构，Tenenbaum等提出的Isomap算法111，12J首先计算流形上的测地线距离，然后应用MDs算法，发现嵌入在高维空间的低维流形，这样Isomap就通过数据间的测地线距离，保留了数据固有的非线性几何结构．其主要思想是通过在输入空间与参数空间建立等距映射，保持测地线距离不变，以进一步研究流形上的全局几何结构．Donoho等人u3J用人工合成的数据用Isomap算法进行测试实验，实验结果表明 Isomap能够准确地发现图像流形潜在的参数空间，并在自然图像的实验中得到较好的结果．标准 ISomap算法共有3步： Stepl．构建邻接图，距离定义为Euclid距离 d。(i，j)，邻接关系定义为￡球或志最近邻． Step2．通过计算图G上两点间的最短路径 dG(i，J)估计流形M上测地线距离dM(i，J)，得到的矩阵D(；={dG(i，j)}为图G上任意两点间的最短路径距离． Step3．应用MDS算法，构建d维Euclid空间 l，上的嵌入．文献[14]提出通过在输入空间与参数空间之间建立共形映射的方法——C—Isomap，保留各个局部之间的连接信息．C—ISomap与Isomap主要区别在于在局部邻域上采用的距离为一种平均距离． 3．2基于局部的方法 3．2．1局部线性嵌入(LLE) LLE[15，16]认为流形上每一个局部邻域内的任意一点都可以描述为邻域内其他点的线性表示，各个邻域之间的连接信息也可以通过相互重叠的部分得以描述，而这个线性关系在映射时保持不变，这样即可以把输人数据映射到统一的一个全局低维坐标系统，并保留邻接特性．通过利用线性重构的局部对称性质，LLE能够学习非线性流形的全局结构，比如从人脸和文本图像中学习到有意义的特性、人脸姿态和文本语义关联等．另外LLE算法还具有旋转、尺度和平移不变性，最优化过程也不包含局部极小，算法中的可变参数较少．LLE算法的具体步骤如下： Stepl．使用忌近邻方法为每一个数据点xi分配近邻； Step2．计算根据xi近邻线性重构工i的权值 wi，使得min￡(w)=∑lxi一∑wi马I2； l J Step3．通过求稀疏对称矩阵Mi，=、瓯i—wi，一 wji+∑眠i岷的最小特征值，最小化西(y)= ^ ∑l咒一∑w鹕I2，计算由w巧最优重构的低维 2 J 嵌入向量咒．清华大学张长水等人¨7J在LLE的基础上提出一个从低维嵌入空间向高维空间的映射方法，并在多姿态人脸图像的重构实验中得到验证． 3．2．2局部切空间整合算法(LTSA) 对于非线性流形来说，全局的非线性结构来自于局部线性分析和局部线性信息的全局整合，根据这个思想浙江大学张振跃等人提出局部切空间整合算法(LTSA)[18，19。．算法假定待定的参数表示函数厂为正则的，则．厂在点f的切空间r可以由厂在f 的Jacobi矩阵J，(f)的d个列向量张成．由于函数未知，并不能显式地计算Jacobi矩阵，但是可以利用厂(f)在某个邻域点集来逼近其切空间，由厂(亏)一厂(f)向T7的正交投影的局部坐标口(f)逼近其真实局部坐标9，再利用仿射变换L，将局部坐标D整合到厂的全局坐标f．对于给定的高维数据集x， LTSA算法基本步骤如下： Stepl．局部近邻选取．对于样本点xi，选取包含鼍本身在内的愚个近邻；万方数据 1176 计算机研究与发展2006，43(7) Step2．局部线性拟合．计算点xi处d维切空间的正交基Qi和每一个x甜在切空间上的正交投影：o；=Qj’(x“一ji)，这里牙i为忌个近邻的均值． Step3．局部坐标整合．根据咒个局部投影Di= [oj，⋯，吠]，整合得到全局坐标{％}冬1．对于所有的Li∈R4“4和T=[f1，⋯，f。]，fi=[fil，⋯，f浊]，通过最小化全局重构误差得到全局坐标： ∑№JK=∑№(J一知T)一L；Di忆。。Z 上述最小化问题能够等价地转化为一个求特征值的简单问题．浙江大学王靖等人提出一种自适应的局部切空间整合算法(AdaptiveLTSA)[20|，算法能够自适应地选择近邻的个数，局部空间整合时考虑了流形曲率和数据集取样密度的变化对算法的影响，所以能够更好地拟合局部几何结构．在VQPCA和LTSA算法的基础上，中国科学院自动化研究所杨剑、王珏等人提出一种改进的局部切空间排列算法(PLTSA)幢1|．算法利用x一均值算法把样本空间划分成一些相互有重叠的块，通过把样本点投影到它所在块的局部切空间上得到局部低维坐标，对局部低维坐标施加变换，求出整体低维坐标．PLTSA解决了LTSA中大规模矩阵的特征值分解问题，且能够有效处理新样本． Brand提出的建立流形坐标卡算法(chartinga manifold)怛2J的基本思想也是使用局部坐标卡覆盖流形．它把流形学习看做是密度估计问题，首先根据样本估计流形固有维数，然后用软划分的方法把样本数据集分解为局部线性低维近邻，建立局部坐标卡，最后根据仿射变换的方法，连接坐标卡为一个统一的坐标系统，进而得到样本和坐标空间之间的映射和逆映射． 3．2．3Laplacian特征映射 Belkin和Niyogi提出的Laplacian特征映射算法[23'24]是为找到一个在平均意义上保留数据点局部特性的映射，即最小化问题：L(，)=寺∑(工一厶 i，J ．^)2W¨其中L表示LaplacianBeltrami算子．L 是半正定的，这样问题可转化为求L的特征函数问题．而根据谱图理论，如果数据均匀取样自高维空间中的低维流形，流形上Laplace—Beltrami算子可以由图的Laplacian逼近，而图的Laplacian最前面的几个特征向量就是流形上Laplace—Beltrami算子特征函数的离散逼近125|，这也是算法的成功之处．算法具体步骤如下： Stepl．使用最近邻或e邻域的方法构建邻接图； Step2．使用热核(heatkemel)方法定义权值； Step3．特征映射．假设图G为连接图(否则对每一个连接部分)，计算方程L拿=AD考的特征值和特征向量，以及zi在低维空间的映射，这里D越= ∑w_，L=D—w为Laplacian矩阵． J Belkin等还成功地把图的Laplacian作为正则化项，应用于半监督学习问题，提出流形正则化算法[26，27]，其有效性在声音、文本分类的实验中得到验证． 3．2．4Hessian特征映射 Donoho和Grimes认为ISomap要求参数空间的概率测度有凸支撑，进行全局等距映射这个条件过于严格，而局部等距更合理，从而提出一种HessiaJl 特征映射算法[28|．Hessian特征映射和Laplacian特征映射的理论框架非常相似，只是使用Hessian算子代替了Laplacian算子．映射，：M—R，厂∈C2的 Hessian算子使用局部坐标的方法定义为 j 3 (H尹(m))锄2豢静(x)I删， r Il lI 1 H(厂)=I。，IlH罗“(m)惦dm．这里dm代表M上的概率测度．如果流形M 和Rd开的连接子集存在局部等距映射，则H(．厂)的 d+1维零空间包含常数函数和d维函数空间，并证明了对于H(厂)一个适当的基，都可以恢复其参数空间．Hessian特征映射要解N个忌×忌的特征值问题，这一点又同LLE算法非常相似，但是Hessian 方法要求估计局部邻域内的二阶导，而这对于高维数据样本来说是非常困难的． 3．2．5扩散映射(diffusionmap) 很多的学习算法的目标函数都归结于最小化一个低维表示的二次函数，这个问题很自然地转化为求关系矩阵的特征向量问题．如果关系矩阵的每一行的和都为1，那么元素巧就可以看做随机意义上从i到j的一步转移概率．受此启发，Coifman等人首先使用高斯核函数定义图中任意两点的边，然后利用归一化方法构建图上的扩散过程．扩散过程的转移矩阵构成算子的核，对应于一次转移概率口(xi，zi)，口‘优)(xi，xi)表示从xi到xf随机游走优步的转移概率．而对核进行特征分解可得到映射到低维空间的特征向量，Coifman等人称之为扩散映射[29，3o|．Coifman等人还在图上随机游走理论的基万方数据罗四维等：基于谱图理论的流形学习算法础上定义了任意两点的距离函数，称为扩散距离．扩散距离考虑了连接两点所有路径经过边的贡献，所以比测地线距离的鲁棒性更强．算法具体步骤如下： Stepl．对于给定的样本数据集x，使用GuaSSiall 核定义成对数据点之间的相似度矩阵； Step2．利用加权的图Laplacian归一化方法，构建扩散核口(xi，xi)； Step3．扩散核的谱分解。．首先定义扩散算子 Ⅳ(鼍)=∑n(薯，弓)厂(弓)，根据M凼过程的谱 J 图理论，可以得到谱分解，口(毛，弓)=∑A，九(墨) 5≥0 声。(薯)，其中1=Ao≥A1≥⋯≥0，那么通过映射西(x)即可得到高维数据集的低维嵌入．文献[31]表明合理选择归一化的高斯核可以逼近Laplace—Beltrami算子，而不必考虑数据点的分布密度，这个构造把由Laplace—Beltrami算子表示的几何结构和数据集的统计特性分离开来，这一点在密度无意义和数据点不是均匀取样的情况下尤其重要． Szummer等人还把随机游走理论的方法应用于半监督学习算法[32，33|，取得较好的结果． 4 算法分析流形学习算法的目标为了发现嵌入在高维数据空间中的低维流形结构，并给出一个有效的低维表示．基于全局的方法的主要优点在于能够对数据的全局结构给予更可信的表示，而且保留全局度量在理论上也更容易理解．基于局部的方法的优点在于：一是计算复杂度较低，通常是对一个稀疏矩阵进行特征分解；二是能够发现曲率较大的流形的潜在几何结构，应用范围更广．发现线性空间低维结构的方法在理论上较为完善，所以对于线性的结构，PCA和MDS有很完善的解释，并且都能够取得较好的效果．而对于非线性流形结构来说，则要复杂很多．利用不同的性质，给予不同的约束，就可以得到不同的算法，每一种算法都是在保留某一方面特性的条件下得到高维数据的低维表示．比如ISomap保留的是其测地线距离， Laplacian特征映射则利用流形上函数的Laplacian 算子等．同样各种算法也各有优缺点，LLE得到的整体坐标通常有一定的拉伸与压缩的形变；Isomap， LTSA以及Hessian特征映射仅有较小的形变，但是实验中发现Hessian特征映射对于样本个数和近邻参数敏感，选取不当可能导致失败，这是因为算法要利用样本估计每个点处的二阶微分，在局部要有充分的样本；Isomap要求样本集为凸集，否则也将产生一定的形变．Laplacian特征映射和扩散映射来源于图的分割方法，在映射时有聚类效果，所以比较适于聚类．虽然这些学习算法的动机和推导过程不同，然而其共同的地方在于首先得到一个关系矩阵，然后利用谱分解的方法，最终把流形投影到低维空间，并希望这个低维空间能够表示流形固有的几何结构．这些算法之间的区别在于构造的关系矩阵不同，文献[34]把不同关系矩阵看做是不同的核矩阵，然后用核方法对这些学习算法进行解释．然而除了PCA 之外，几乎所有的基于谱图理论的学习算法中只能直接得到训练样本的低维嵌入，而不能直接处理新的样本．Bengio等人给出一个统一的框架，得到 MDS，IsOmap，LLE以及Laplacian特征映射等算法的扩展135|．这个框架下关系矩阵被看做一个独立于数据的核，根据这个核学习其特征函数，这样使得其能够在不必重新计算特征向量的条件下直接得到新样本的低维嵌入． 5总结与展望流形学习是一个具有基础性和前瞻性的研究方向，研究流形学习的主要意义在于寻找海量高维数据集中蕴涵的整体几何和拓扑规律，而这种规律本质上不依赖于实际观测的维数．对流形学习问题的研究有着非常重要的实际意义，比如生物信息、经济数据、网页搜索、气象预测等领域都有着广泛的应用．除了本文介绍的基于谱图理论的算法外，还有很多的方法应用于流形学习，如神经网络方法旧6'37J等，详细论述参见文献[38]中由张军平和王珏撰写的流形学习专题．另外流形固有维数的估计也是一个关键的问题，在这方面研究也取得了很多的成果139~41|．本文总结了文献中出现的基于谱图理论的流形学习算法，对这些算法进行了综述和分析，并指出这些算法都是通过把局部看做Euclid空间，然后研究局部邻域的连接信息．算法的目的都是为了能够发现非线性流形，为了更好地描述数据的固有几何结构．尽管基于谱图理论的流形学习算法在过去的几年中已经取得了丰硕的成果，但是仍有许多亟需研究和解决的问题，尤其在下述几个方面： (1)流形学习算法的理论基础研究涉及微分几何、图论、概率、随机过程等多个数学分支，比较复杂，万方数据 1178 计算机研究与发展2006，43(7) 而要研究鲁棒性更强、应用范围更广的算法又必须有充分的理论支持．目前关于学习问题的数学基础研究已经取得一定的成果H2~4引． (2)基于谱图理论的算法都涉及求特征值和特征向量的问题，不利于进行大规模的计算和扩展，所以需要在此基础上研究大规模学习问题的高效和可扩展的学习算法． (3)目前大部分学习算法都是基于局部的，而基于局部算法一个很大缺陷就在于受噪声影响较大，所以需要研究减小局部方法对于噪声和离群值的影响，提高学习算法鲁棒性及泛化能力． (4)虽然基于谱图理论的算法已经在图像流形H5。、对象识别146J等有了一定的应用，但若要更成熟更广泛地应用于实际问题，仍需要进一步的研究． 1 2 4 5 6 7 8 9 10 致谢感谢审稿专家提出的宝贵意见与建议．参考文献 H． SebastianSeung，DanielD． Lee．Themanif01dwaysof perception[J]．science，2000，290(12)：2268～2269 ChenXingshen，ChenWeihuan．LectureNotesinDi“erentiable Manifold[M]．Be妇ing：PekinguniverSityPress，1983(in Chinese) (陈省身，陈维桓．微分几何讲义[M]．北京：北京大学出版社，1983) AndrewY．Ng，MichaelI．Jordan，YairWeiss．0nspectral clustering：Analysisandanakorithm[G]．In：AdvancesinNIPs 14．Camb“dge，MA：MITPress，2001．849～856 J． Shawe—Taylor，N． Cristianini，J． Kandola．Onthe concentrationofspectralpmperties[G]．In：AdvancesinNIPs 14．Cambridge，MA：MITPress，2001．511～517 F． R． K． Chung．SpectralGraphTheory[M]．Fresno： AmericanMathematicalSociety．1997 B．Sch01kopf，A．snlola，K—R．Muller．Nonlinearcomponent analysisas a kemeleigenvalueproblem[J]． Neural Computacation，1998，10(5)：1299～1319 T．Hastie，w． StuetzIe．PrincipaIcurves[J]．JournaIofthe AmericanStatisticalAsSociation，1989，84(406)：502～516 zhangJunping，wangJue．Anoverviewofprincipalcurves[J]． ChineseJoumalofC。mputers，2003，26(2)：126～146(in Chinese) (张军平，王珏．主曲线研究综述[J]．计算机学报，2003，26 (2)：129～146) ZhangJunping．Manifoldlearningandits applications： [Ph．D．dissertation][D]．Be巧ing：InstituteofAutomation， ChineseAcademyofSciences，2003(inChinese) (张军平．流形学习及应用：[博士论文][D]．北京：中国科学院自动化研究所，2003) T．Cox，M． cox．MultidimensionalScaling【MJ． London： 11 20 21 23 24 25 26 27 Chapman&Hall，1994 J．B．Tenenbaum，V．deSilva，J．C． Langford．Aglobal geometricframe、Ⅳorkfornonlineardimensionalityreduction[J]． Science，2000，290(12)：2319～2323 M．Balasubr锄anian，E．L．Schwartz．Theisomapalgorithmand topologicalstability[J]．science，2002，295(5552)：7 D．Donoho，C．Grimes．WhendoesISOMAPrecoverthenatural parameterizationof familiesof articulatedimages?[R]． DepartmentofStatistics，StanfordUniversity，Tech．Rep．： 2002．27．2002 V．DeSilva，J．B．Tenenbaum．Globalversuslocalmethodsin nonlineardimensionalityreduction[G]．In： AdvancesinNIPs 15．Cambridge，MA：MITPress，2002．705～712 S．T．Roweis，L．K．Saul．Nonlineardimensionalityanalysisby locallylinear锄bedding[J]．science，2000，290(12)：2323～ 2326 L． K．SauI，S． T． Roweis．Thinkglobally，fit locally： Unsupervisedleamingoflowdimensionalmanifolds[J]．Joumal 0fMachineLeamingResearch，2003，4(6)：119～155 ZhangChangshui，WangJun， ZhaoNanyuan，P￡口Z． Reconstructionandanalysisofmulti—posefaceimagesbasedon nonlineardimensionalityreduction[J]．PatternRecognition， 2004，37(1)：325～336 ZhangZhenyue，ZhaHongyuan．Principalmanifoldsandnonlinear dimensionalityreductionviatangentspacealignment[J]．SIAM JournalofScientificComputing，2004，26(1)：313～338 ZhangZhenyue，ZhaHongyuan．Linearlow—rankapproximations andnonlineardimensiDnalityreductjon[J]．SciencejnChinaSeries A，Mathematics，2005，35(3)：273～285(inChinese) (张振跃，查宏远．线性低秩逼近与非线性降维[J]．中国科学 A辑：数学，2005，35(3)：273～285) WangJing，ZhngZhenyue，ZhaHongyuan．Adaptivemanifold leaming[G]．In：AdvancesinNIPS17．Cambridge，MA：MIT Press．2004 YaJlgJian，LiFuxin，WangJue．Abetterscaledlocaltangent spacealignmentakorithm[J]．Journalofsoftware，2005，16 (9)：1584～1590(inChinese) (杨剑，李伏欣，王珏．一种改进的局部切空间排列算法[J]．软件学报，2005，16(9)：1584～1590) M．Brand．chartingamanifold[G]．In：AdvancesinNIPs15． Cambridge，MA：MITPress，2002．961～968 M． Belkin，P． Niyogi．Laplacianeigenmapsandspectral techniquesforembeddingandclustering[G]．In：Advancesin NIPS14．Carrlbridge，MA：MITPress，2001．585～591 M．Belkin，P． Niypgi．Laplacianeigenmapsfordimensionality reductionanddatarepresentation[J]．Neural(沁mputation， 2003，15(6)：1373～1396 M．Belkin，P． Niyogi．Towarda theoreticalfoundationfor Laplaciambasedmanifoldmethods【G]．In：Proc．18thAnnual Conf．LeamingTheory，LNCS3559．Berlin：Springer-Verlag， 2005．486～500 M．Belkin，P． Niyogi．Usingmanifoldstructureforpanially 1abeledclaSsification[G]．In：AdvancesinNIPs15．Cambridge， MA：MITPress．2002．929～936 M．Belkin，P．Niyogi，V．Sindhwani．Manifoldregularization：A 万方数据罗四维等：基于谱图理论的流形学习算法 1179 32 33 34 35 36 37 38 39 geometricframeworkforlearningfromexamples[R]．Department ofComputerScience，UniversityofChicago，Tech．Rep．：TR一 2004．06．2004 D．Donoho，C．Grimes．HeSsianEigenmaps：Newlocallylinear embeddjngtechnjqueSforhigh．dimensionaldata[J]．Proceedings oftheNationalAcademyofSciences，2003，100(10)：5591～ 5596 R．R．Coifman，S． Lafon，A．B． Lee，以nZ．Geometric diffusionsasat00lforharHlonicanalysisandstructuredefinitionof data．PartI： Diffusionmaps[J]．ProceedingsoftheNational AcademyofSciences，2005，102(21)：7426～7431 R．R．Coifman，S． Lafon，A． B． Lee，甜口￡． Geometric diffusjonsasat00lforha珊onicanalysjsandstructuredefinitionof data．PartII： Multiscalemethods[J]．Proceedingsofthe NationalAcademyofSciences，2005，102(21)：7432～7437 B．Nadler，S．Lafon，R．R．C0jfman，甜甜．Diffusionmaps， spectralclusteringandeigenfunctionsofFokker-Planckoperators [G]．In：AdvancesinNIPS17．Cambridge，MA：MITPresS， 2004 M．Szummer，T．Jaakkola．PartiallylabeledclaSSificationwith Markovrandomwalks[G]．In： AdvancesinNIPS14． C姗bridge，MA：MITPress，2001．945～952 ZhouDengyong，sch6lkopfBemhard．LeamingfromlabeIedand unIabeleddatausingrandomwalks[G]．In：Proc．26thDAGM SymposiumPatternRecognition，LNCS3175．BerIin：Sp血【ger— Verlag，2004．237～244 HamJihun，DanielD．Lee，SebastianMika，以“．Akernelview ofthedimensionalityreductionofmanifolds[C]．ICML2004， Banff，Alberta，Canada，2004 Y．Bengio，J．Paiement，P．Vincent．0ut-of—sampleextensions f。rLLE，Isomap，MDs，Eigenrnapsandspectralclustering[G]． In：AdvancesinNIPS16．Cambridge，MA：MITPress，2003 T． Kohonen．self一0rganizingMaps[M]．Berlin：Springer— Verlag，1995 ChristopherM． Bishop，MarkusSvensen，ChristopherK． I． williams．GTM：Thegenerativetopographicmapping[J]．NeuraI Computation，1998，10(1)：215～234 ZhouZhihua，CaoCungen．Neuralnetworkanditsapplications [G]．Be巧ing：Tsinghuaunivers“yPress，2004(inchinese) (周志华，曹存根．神经网络及其应用[G]．北京：清华大学出版社，2004) FrancescoCamastra．Datadimensionalityestimationmethods：A survey[J]．PattemRecognition，2003，36(12)：2945～2954 42 43 45 M． Hein，Y． Audibert．IntrinSicdimensionalityestimationof submani“dsinRd[c]．IcML2005，Bonn，Germany，2005 ElizavetaLevina，PeterJ．Bickel．Maximumlikelihc，0destimation of intrinsicdimension[G]． In： Advancesin NIPs17． cambrjdge，MA：MITPress，2004 T．Poggio，S．Smale．Themathematicsofleaming：Dealingwith data[J]．Not．AmericanMathematicsS0ciety，2003，50(5)： 537～544 T．Poggio，R，Rifkin，S．Mukheljee，甜n￡．Generalconditions forpredictivityin1ea玎lingtheory[J]．Nature，2004，428(3)： 419～422 Carlo’romasi．Leamingtheory：Pastperfb珊anceandfuture resultS[J]，Natufe，2004，428(3)：378 K． Weinberger，L． Saul．Unsupervisedleamingof image manif01dsbysemidefiniteprogr啪ming[C]．In：Proc．CVPR 2004(2)．LosAl砌jtos：IEEEC0mputerSocietyPress，2004， 988～995 A． E19ammal，C． S． Lee．Inferring3Dbodyposefrom silhouettesusingactivitymanifoldlearning[c]．In：Pmc．cVPR 2004(2)．LosAl咖itos：IEEEC0mputerSocietyPress，2004． 681～688 LuOSiwei．bornin1943．Pro{essorandPh． D．supervisOrofBe巧ingJiaotongUniversity． Hismainresearchinterestsincludeartificial neuralnetwork，parallelcomputing， statisticaIIearningtheory，andmanifbId 1earning．罗四维，1943年生，教授，博士生导师，主要研究方向为人工神经网络、并行计算、统计学习理论、流形学习． ZhaoLianwej，bornin 19’76．Ph． D． candidateincomputingsciencefmmBe巧ing JiaotongUniversity．Hismainresearch interestsincludemanifoldleaming，statistical learningtheory，andartificialneural net、^，ork．赵连伟，1976年生，博士研究生，主要研究方向为流形学习、统计学习理论、人工神经网络． ResearchBackground 0neofthemaindifficultiesinmachineleamingishowtocopewiththeseeminglyhigh—dimensionalobservationdatasets． However，theSeobservationsoftenhaveonlyafewdegreesoffreedom．Basedontheassumptionthatthedatalieonorclosetoalow— dimensionalmanifold，therehasbeenconsiderableintereStindevelopingefficientalgorithmforreconstructinglow—dimensionaI manif01dembeddedinthehigh—dimensionalspace．SpectralgraphtheOrystudiestheeigenvectorsandeigenvaluesofmatrices associatedwithgraphsandhasbeenwidelyusedinthemanifoldleaminga190rithmrecently．Inthispaper，wereviewS0metypicaI manifoldleamingalgorithmsbasedonspectralgraphtheOry．0urworkissupportedbytheNationalNaturalScienceFoundationsof ChinaundergrantNo．60373029，theNationalResearchFoundationfortheDoctoralProgramofHigherEducationofChinaunder grantNo．20050004001andCo—ConstructionProjectofKeySubjectofBe幻ing．万方数据基于谱图理论的流形学习算法作者：罗四维，赵连伟， Luo Siwei， Zhao Lianwei 作者单位：北京交通大学,计算机与信息技术学院,北京,100044 刊名：计算机研究与发展英文刊名： JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT 年，卷(期)： 2006,43(7) 被引用次数： 47次参考文献(46条) 1.H.Sebastian Seung;Daniel D.Lee The manifold ways of perception 2000(12) 2.陈省身;陈维桓微分几何讲义 1983 3.Andrew Y.Ng;Michael I.Jordan;Yair Weiss On spectral clustering:Analysis and an algorithm 2001 4.J.Shawe-Taylor;N.Cristianini;J.Kandola On the concentration of spectral properties 2001 5.F.R.K.Chung Spectral Graph Theory 1997 6.B.Scholkopf;A.Smola;K-R.Muller Nonlinear component analysis as a kernel eigenvalue problem[外文期刊] 1998(05) 7.T.Hastie;W.Stuetzle Principal curves[外文期刊] 1989(406) 8.张军平;王珏主曲线研究综述[期刊论文]-计算机学报 2003(02) 9.张军平流形学习及应用 2003 10.T.Cox;M.Cox Multidimensional Scaling 1994 11.J.B.Tenenbaum;V.de Silva;J.C.Langford A global geometric framework for nonlinear dimensionality reduction[外文期刊] 2000(12) 12.M.Balasubramanian;E.L.Schwartz The isomap algorithm and topological stability 2002(5552) 13.D.Donoho;C.Grimes When does ISOMAP recover the natural parameterization of families of articulated images 2002 14.V.De Silva;J.B.Tenenbaum Global versus local methods in nonlinear dimensionality reduction 2002 15.S.T.Roweis;L.K.Saul Nonlinear dimensionality analysis by locally linear embedding[外文期刊] 2000(12) 16.L.K.Saul;S.T.Roweis Think globally,fit locally:Unsupervised learning of low dimensional manifolds 2003(06) 17.Zhang Changshui;Wang Jun;Zhao Nanyuan Reconstruction and analysis of multi-pose face images based on nonlinear dimensionality reduction[外文期刊] 2004(01) 18.Zhang Zhenyu

                    本文档为【基于谱图理论的流形学习算法】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

基于谱图理论的流形学习算法

你可能还喜欢