第五讲特征提取和特征选择

第五讲特征提取和特征选择《模式识别》讲义 2011版：第五讲特征提取和特征选择第 1 页自动化学院模式识别与智能系统研究所高琪 gaoqi@bit.edu.cn 第五讲特征提取和特征选择一、基本概念 1、特征选取图 1 特征选取的内容在模式识别系统中，确定分类和学习过程所使用的特征是非常重要的一个环节，获得对分类最有效的特征，同时尽最大可能减少特征维数，是特征选取的主要任务。特征选取可以分成原始特诊的采集和转换、有效特征的生成两个步骤。（1）原始特征的采...

《模式识别》讲义 2011版：第五讲特征提取和特征选择第 1 页自动化学院模式识别与智能系统研究所高琪 gaoqi@bit.edu.cn 第五讲特征提取和特征选择一、基本概念 1、特征选取图 1 特征选取的内容在模式识别系统中，确定分类和学习过程所使用的特征是非常重要的一个环节，获得对分类最有效的特征，同时尽最大可能减少特征维数，是特征选取的主要任务。特征选取可以分成原始特诊的采集和转换、有效特征的生成两个步骤。（1）原始特征的采集和转换对于一个模式识别任务，见过模式采集和预处理得到的模式信息不一定能直接用于模式分类，需要从中经过数据处理和转换得到对具体分类任务有效的特征。例如对于模式采集到的图像信息，其原始数据为像素点的颜色值矩阵，而对于不同的模式识别任务和模式识别算法，可以提取出不同类型的特征：轮廓特征：图像中物体的边缘轮廓颜色特征：图像中颜色分布和均值纹理特征：图像各个部位的主体纹理数学特征：各像素点相关性等其他物理意义不明显的数学特征（2）有效特征的生成在获得了原始特征后，需要生成有效的特征，其主要目的是大幅度降低特征维度，减少模式识别算法的计算量。如果不经过这一降维过程，可能出现“维数灾难”，无法进行有效的模式识别分类。例如：在文本分类中，如果采用原始的词频统计数据作为分类特征，则有多少个不同的词就有多少维特征，一片长文的特征维度会超过 1000维，基本无法进行计算。在降低特征维度的同时，还要提升所获得特征的有效性，因为尽管特征数量越多，用于分类的信息也越充足，但特征数量与分类有效性之间并不是线性关系。降维到同样数量时，不同的特征对分类的有效性是不同的。特征选取需要采用适当的算法，在降低特征维度的同时，最大可能地保留对分类有效的信息。《模式识别》讲义 2011版：第五讲特征提取和特征选择第 2 页自动化学院模式识别与智能系统研究所高琪 gaoqi@bit.edu.cn 特征选取的主要方法包括特征提取和特征选择。前者从高维特征空间映射得到低维特征空间，新的特征和旧的特征并不相同；而后者是从高维特征中选择一部分特征组成低维特征空间，并不改变每个特征维度本身。 2、特征提取特征提取是通过某种变换，将原始特征从高维空间映射到低维空间。 A：X→Y； A称为特征提取器，通常是某种正交变换。图 2 特征提取对于各种可能的特征提取器，需要选择最优的一种，也就是降维后分类最有效的一种，通常设定一个准则函数 J(A)，使得取到最优特征提取时，准则函数值取到最大值，即 J(A*)=max J(A)。 3、特征选择特征选择是从高维特征中挑选出一些最有效的特征，以达到降低特征空间维数的目的。 DddiSy yyyFxxxS i dD   ;,...,2,1, },......,,{:},......,,{: 2121 原始特征集合 S中包含 D个特征，目标特征集合 F中包含 d个特征。同样，对于各种可能的特征选择方案，需要选择最优的一种，也就是降维后分类最有效的一种，通常设定一个准则函数 J(F)，使得取到最优特征选择时，准则函数值取到最大值，即 J(F*)=max J(F)。 4、准则函数的选取（1）准则函数的选取原则在设定了准则函数后，求取最优的特征提取或特征选择可以看作一个泛函求极值的问题，因此，准则函数的选取是特征提取或特征选择算法的关键。分类正确率是最佳的准则函数，如果经过某种方案的特征提取或特征选择后，得到的低维特征是所有可能方案中分类正确率最高的，就是最优的特征提取《模式识别》讲义 2011版：第五讲特征提取和特征选择第 3 页自动化学院模式识别与智能系统研究所高琪 gaoqi@bit.edu.cn 或特征选择。但是分类正确率难以直接计算，因此可以用特征选取方案对类别的可分性测度作为准则函数，通常两类之间的类别可分性测度要满足以下标准：与分类正确率有单调递增关系当特征独立时具有可加性，即    d k kijdij xJxxxJ 1 21 )(),,, （具有标量测度特性：         jiij ij ij JJ jiJ jiJ 时，当时，当 0 0 对特征数量具单调性，即： ),,,,),,, 12121 ＋（（ ddijdij xxxxJxxxJ   常用的类别可分析测度有基于类内类间距离和概率距离两种。（2）类内类间距离对于一个已知的样本集，类内类间距离的数学定义为：是各类的先验概率。，中的样本数，为中的样本数，为），（：值，称为类内类间距离向量之间的距离的平均离，则各类中各特征）为这两个向量间的距，（特征向量，维类中的类及分别为，类，令设一个分类问题共有 jijjii n k n l j l i k c i ji c j jid j l i k ji j l i k PPnn xx nn PPxJ xx xx i j           1 1 )()( 1 1 )()( )()( 1 2 1 )( Dc 例：《模式识别》讲义 2011版：第五讲特征提取和特征选择第 4 页自动化学院模式识别与智能系统研究所高琪 gaoqi@bit.edu.cn                                  2 1 2 1 22 22 2 1 3 1 12 12 3 1 2 1 21 21 3 1 3 1 11 11 1 1 2 1 2 1 2121 1 11 1 22 1 2 1 32 1 2 1 23 1 2 1 33 1 2 1 1 2 1 2340602 1 2 1 k l lk k l lk k l lk k l lk n k n l j l i k i jij jid n k n l j l i k c i ji c j jid xxPP xxPP xxPP xxPP xx nn PPxJ nnPPc xx nn PPxJ i j i j ），（＋），（＋），（＋），（），（），（ )()( )()( )()( )()( )()( )()( )( ,,.,., )(       对于随机性的统计分类，如果样本集是给定的，则无论其中各类样本如何划分，类内类间距离都是相等的，也就是说，类内类间距离本身和分类错误率不相关，不能直接用于类别可分性测度。虽然类内类间距离本身不能用作类别可分性测度，但对其进行分解处理后，可以得到与类别可分性相关的测度指标。                mmmm n Pmxmx n P mmmmmxmx n PxJ mPmm xmim xxxxxx i T i c i i i n k i i k T i i k i c i i n k i T ii i k T i i k i c i id c i ii n k i knii j l i k j l i k j l i k i i i i                     111 11 1 1 1 11 1 )()( )()( )( )()(T)()()()( )( : 则总均值向量：表示所有各类样本集的用类样本集的均值向量表示第用）－（）－）＝（，（则有的距离，度量两个特征向量之间如采用均方欧氏距离来  《模式识别》讲义 2011版：第五讲特征提取和特征选择第 5 页自动化学院模式识别与智能系统研究所高琪 gaoqi@bit.edu.cn         bwbwbwd T ii c i ib n k T i i ki i k i c i iw JJStrStrSStrxJ mmmmPS mxmx n PS i        )()( )( )()( 则间离散度矩阵分别为令类内离散度矩阵和类 1 11 1 Jw称为类内平均距离，Jb称为是类间平均距离。从类别可分性的要求来看，希望 Jw尽可能小， Jb尽可能大。（3）概率距离类间的概率距离可用分布函数之间的距离来度量，例如对两类问题：当两类完全可分时，若 p(x|ω1) ≠0，则 p(x|ω2)＝0；当两类完全不可分时：对任意 x，都有 p(x|ω1) ＝ p(x|ω2)；一般情况下，两类会介于完全可分和完全不可分之间。依据以上度量方式，可定义类别可分析的概率距离准则：性的概率距离度量。则可作为两类之间可分；为、当两类完全不可分是取得最大值；、当两类完全可分时；、满足以下条件：若任何函数 0c b 0a ],),|(),|([)( 2121 p p p p J J J dxPPxpxpgJ     二、使用类内类间距离进行特征提取 1、准则函数的构造类内类间距离可表示为：Jd=Jw+Jb＝tr（Sw＋Sb) 其中 Jw是类内平均距离，Jb是类间平均距离。对于一个给定的样本集，Jd是固定不变的。而通过特征提取后，新获得的特征使得样本集可以划分为不同的类，最佳的特征提取应当是使得各类之间的可分性最好，也就是 Jb最大，Jw最小。因此，可以直接采用 Jb作为特征提取的准则函数，称为 J1准则。但直接使用准则难以得到可行的特征提取算法，考虑到类内离散度矩阵 Sw 和类间离散度矩阵 Sb 是对称矩阵，迹和行列式值在正交变换下具有不变性，常《模式识别》讲义 2011版：第五讲特征提取和特征选择第 6 页自动化学院模式识别与智能系统研究所高琪 gaoqi@bit.edu.cn 构造以下几种特征提取准则函数：   w bw w b w b bw S SS J Str Str J S S JSStrJ   5，，，－ )( )( ]ln[ 432 1 2、基于 J2准则的特征提取算法假设有 D个原始特征： TDxxxx ],,,[ 21  通过特征提取后压缩为 d个特征： Tdyyyy ],,,[ 21  其映射关系为： xWy T 令 bS 、 wS 为原始特征空间中样本集的离散度矩阵， * bS 、 * wS 为特征提取后新特征空间中样本集的离散度矩阵，则有： WSWSWSWS b T bw T w  ** , 对于 J2准则，进行特征提取后，准则函数值为：   ])[( 1*1*2 WSWWSWtrSStrJ bT-wTbw   求最优的特征提取，就是求最优的变换阵W，使得准则函数值在此变换下能取得最大值。将准则函数对 W求偏导，并令其为 0，解出的 W就是可使得准则函数 J2取得最大值的变换阵。结论为：将矩阵 bw SS 1 的特征值按大小排序： Dλλλ  ...21 则前 d个特征值对应的特征向量 d ,...,, 21 可构成变换阵W，即 ],...,,[ 21 dW  此时的准则函数值为：   d i iWJ 1 2 ）＝（基于 J2 准则的特征提取算法事实上是保留了原特征空间中方差最大的特征维度成份。例题：给定先验概率相等的两类，其均值向量分别为： ,]1,1,1[]1,3,1[ 21 TT   和＝协方差矩阵为：《模式识别》讲义 2011版：第五讲特征提取和特征选择第 7 页自动化学院模式识别与智能系统研究所高琪 gaoqi@bit.edu.cn                       100 021 012 100 041 014 21 ＝，＝试基于 J2准则求最优特征提取。解：进行特征提取前总均值向量为： T]0,1,0[)( 2 1 21   类间离散度矩阵为：                 121 242 121 ))(( 2 1 2 1i T iibS  类内离散度矩阵为：            100 031 013 )( 2 1 21wS                             8168 5105 121 8 1 , 800 031 013 8 1 11 bww SSS 因为 bw SS 1 的秩为 1，因此 bw SS 1 只有一个非 0特征值，W是 D×1维的矩阵，即向量 w。求解方程 wwSS bw 1 1  得最优特征提取变换阵为： Tw )8,5,1( 8 1  三、特征选择算法特征选择是从 D 个特征中挑选出最有效的 d 个特征的过程，常用的算法有以下几种。 1、独立算法独立算法是指分别计算 D个特征单独使用时的准则函数值，选取最优的前 d 个特征。除非各特征相互独立，准则函数满足可加性，否则独立算法所得到的特征组合均不能保证是最优的特征组合。因此除特殊情况外，独立算法并不实用。《模式识别》讲义 2011版：第五讲特征提取和特征选择第 8 页自动化学院模式识别与智能系统研究所高琪 gaoqi@bit.edu.cn 2、穷举算法特征选择是一个组合过程，因此如从 D 个特征中考查所有可能的 d 个特征组合，计算其准则函数，找到最优的一个，从而得到最佳的特征选择结果，就是穷举法的算法。穷举法可以保证得到所有解中的全局最优解，但问题是计算量太大，例如当 D＝100，d＝10，需要经过 64401731030945 !)!( ! !)!( !      1010100 100 ddD D Cq dD 次计算才能得到特征选择结果，这在有限资源下基本是无解的。 3、分支定界算法（1）算法原理分支定界算法依赖于特征选取准则函数构造时的特性，即：准则函数值对特征数量具有单调性， ),,,,),,, 12121 ＋（（ ddijdij xxxxJxxxJ   。此时如果某组合包含 k+1个特征，其准则函数值已经验证比另一种 k个特征的组合的准则函数值小，则在这 k+1个特征中继续去除特征，准则函数值只会更小，不能达到求取准则函数最大值的目的，可以不再继续计算。其具体原理为： 1）从原始的特征数 D开始依次减少特征数，直至到达所需的特征数 d； 2）将过程中所有可能的组合情况组合成一棵搜索树；特征数少的组合作为特征数多的组合的子节点； 3）按特定路线遍历整个搜索树，计算所遇到的每一个节点的准则函数，寻找最大的准则函数值，此时对应的特征组合就是最优的特征选择； 4）如遇到某个节点的准则函数值比已得到的特征数更少的节点的准则函数值还小，则放弃其下所有节点的计算。显然，分支定界法是一种穷举算法，它在准则函数 J对特征数量单调的情况下能保证取得最优解。但其搜索树的所有节点如都需要计算一遍，则计算量远大于只从 D 个特征中考查所有 d 个特征组合的穷举法；只有当计算过程中利用准则函数 J 对特征数量的单调性跳过大量节点计算时，计算量才有可能比穷举法少。（3）搜索树的构造分支定界法的搜索树可以按照以下原则构造：根节点为 0级，包含 D个特征；每一级舍弃 1个特征；下一级在上一级基础上继续舍弃特征；整个搜索树共有 D－d级，每个叶节点代表了一种所需的 d个特征组合；为避免组合重复，从左至右每个子树包含的分支依次减少，对搜索树进行简化。《模式识别》讲义 2011版：第五讲特征提取和特征选择第 9 页自动化学院模式识别与智能系统研究所高琪 gaoqi@bit.edu.cn 例：原始特征＝｛x1,x2,x3,x4｝， D=4,d=2 图 3 原始的搜索树图 4 简化的搜索树（3）搜索路由分支定界法对搜索树的遍历可以采用回溯法，也可以采用剪枝法。剪枝法是先计算少数几个叶节点的准则函数值，然后从上到下依次处理各层节点，把那些准则函数值小于已知叶节点准则函数值的节点的以下分支均剪除掉，直至获得无法剪除的所有叶节点，再从中选择准则函数值最大的一个作为最优特征选择方案。回溯法对搜索树的遍历路由是： 1）从根节点开始，沿最右边路径下行，计算每个节点的 J值，把第一个遇到的叶节点的 J值设为边界初值 B；沿原路径回溯，遇到第一个分叉点后沿新路径下行，计算遇到的每个节点的 J值； 2）如遇到某节点的 J值小于 B，则放弃其下的所有分支的计算，向上回溯； 3）如遇到下一个叶节点的 J值大于 B，则更新 B为新的叶节点的 J值。 4）遍历整个搜索树，最终得到的 B值对应的叶节点，就是最优特征组合。《模式识别》讲义 2011版：第五讲特征提取和特征选择第 10 页自动化学院模式识别与智能系统研究所高琪 gaoqi@bit.edu.cn 图 5 搜索树的回溯法遍历例题：有一个分类问题，原始特征空间包含 5个特征，试选择 2个最重要的特征来降低特征空间的维数。各特征间是相互独立的，并且都有一个独立的重要性指数，其值如下：特征 x1 x2 x3 x4 x5 重要性 0.2 0.5 0.3 0.1 0.4 解：因各特征是相互独立的，所以特征组合的准则函数值 J可由组合中各特征的准则函数值 J（xn）相加得到。得到最优特征选择为{x2,x5}，这和独立算法的结果是一致的。 x1(J=1.3) X2(J=0.8) x3 x5 x4 x4(J=1.2) x3(J=1.0) x4(J=0.9) x5(J=0.6) x5(J=0.8) x2 (J=1.0) x3(J=0.7) x4(J=0.9) x4 x5 x5(J=0.5) x4(J=1.1) x3(J=1.2) x5(J=0.7) B=0.7 B=0.8 B=0.9 开始（J=1.5）《模式识别》讲义 2011版：第五讲特征提取和特征选择第 11 页自动化学院模式识别与智能系统研究所高琪 gaoqi@bit.edu.cn 4、次优算法特征选择的穷举法虽然能获得全局最优解，但计算量太大。如采用一些次优的算法，虽然不能保证获取到全局最优解，但计算代价会显著降低。常用的次优算法有以下几种。（1）顺序前进法（SFS）从 0个特征开始，每次从未入选的特征中选择一个特征，使得它与已入选的特征组合所得到的准则函数值最大。 kiikk XxDixXJXJ  且最优单步方案满足： ,)},(max{)( * 11 顺序前进法的计算量为：1+1/2((D+1)D-d(d+1))。它的缺点是不能剔除已入选的特征。（2）顺序后退法（SBS）从 D 个特征开始，每次从已入选的特征中剔除一个特征，使得仍保留的特征组合所得到的准则函数值最大。 kiikk XxDixXJXJ  且最优单步方案满足： ,)},(max{)( * 11 顺序后退法的计算量为：D×d-d(d-1)/2。它的缺点是不能召回已剔除的特征。（3）动态顺序前进法（l-r 法）也称为前进－后退法，它按照单步最优的原则从未入选的特征中选择 l个特征，再从已入选的特征中剔除 r个特征，使得仍保留的特征组合所得到的准则函数值值最大。当 l比 r大时，总体上算法是前进的，应当从 0个特征开始；当 l比 r小时，总体上算法是后退的，应当从 D个特征开始。如果 l=d，r=0，就是穷举法；如果 l和 r能实现良好的动态调节，则其计算量比分支定界法小，而效果相当。

                    本文档为【第五讲 特征提取和特征选择】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

第五讲 特征提取和特征选择

你可能还喜欢

第五讲特征提取和特征选择