首页 Boosting算法在近红外光谱分析中的应用

Boosting算法在近红外光谱分析中的应用

举报
开通vip

Boosting算法在近红外光谱分析中的应用 控制系统 盈,。熟。T化It)。。吾,。景。。篇。。1忆CA。驾黑品爵 Boosting算法在近红 捅罄 外光谱分析中的应用 乐斌,昊铁军,方骏 浙江大学智能系统与决策研究所,浙江,杭州310027 黼-L:Boosting是一种新型的机器学习算法。其主要用于提高回归算法的性能。介绍了一种以RBF神经网络为基础学 习机的Boosting回归算法,并将此算法应用于油品辛烷值分析中,与常用的油品分析技术偏最小二乘法(PI。s),多元线性回归 中围分类号:TP274.52文献标识码:B 文章编号:10077...

Boosting算法在近红外光谱分析中的应用
控制系统 盈,。熟。T化It)。。吾,。景。。篇。。1忆CA。驾黑品爵 Boosting算法在近红 捅罄 外光谱分析中的应用 乐斌,昊铁军,方骏 浙江大学智能系统与决策研究所,浙江,杭州310027 黼-L:Boosting是一种新型的机器学习算法。其主要用于提高回归算法的性能。介绍了一种以RBF神经网络为基础学 习机的Boosting回归算法,并将此算法应用于油品辛烷值分析中,与常用的油品分析技术偏最小二乘法(PI。s),多元线性回归 中围分类号:TP274.52文献标识码:B 文章编号:10077324(2004)010031—03 AnalysisofNIRUsingBoostingAlgorithm YUEBin,WUTie-jun,FANGjon (Inst.ofIntelligentSystemsandDecisionMaking,ZhejiangUni.,Hangzhou,310027,China) Abstract:Boostingisanewmachinelearningalgorithm,whichisusuallyutilizedtoimprovetheperform— anceofanensembleofregressionalgorithms.AboostingregressionalgorithmusingRBFneuralnet— worksasabaselearnerisproposed.MeanwhilethisalgorithmisappliedinthepredictionofgasolineOC— tanenumber.Incomparisonwithothertraditionaltechniques,suchasPLSmethod,MLRmethodand singleRBFneuralnetwork,itshowsthatthismethodfeatureshighlearningspeed,goodapproximation andexcellentgeneralizationability. Keywords:boosting;machine1earning;spectrumanalysis 近红外光谱技术“1是一种间接分析技术,可以 对含氢功能团的化合物进行定量和定性分析。其 原理是对采集到的样本近红外光谱数据进行分析, 建立样本物性参数和光谱关系的相关模型。从而 获得瓶样本的物性参数。 在近红外光谱的分析过程中,光谱预处理及校 正模型的建立都需要用到多元校正的方法。Ana— lyticalChemistry一书中的化学计量学评述总结 了多元校正方法的发展和应用情况[2-33,指出多元 线性回归(MLR)、主元分析(PCA)和偏最小二乘 法(PLS)是多元校正中应用最广泛的技术。但是, M1。R和PI。s本质上均为线性回归方法,用于近红 外光谱分析有一些明显的局限性。通常样本的光 谱数据本身具有很强的非线性,以一种线性方法去 逼进非线性,其拟合精度及预测精度和样本点的分 析有很大关系。 Boosting算法是一种基于其他机器学习算法 之上的用来提高算法精度和性能的方法。当用于 回归分析时,不需要构造一个拟合精度高,预测能 力好的回归算法,只要一个效果只比随机猜测略好 的粗糙算法即可,称之为基础算法。通过不断地调 用这个基础算法就可以获得一个拟合和预测误差 都相当好的组合回归模型。Boosting算法可以应 用于任何的基础回归算法,无论是线性回归,神经 网络,还是SVM方法,都可以有效地提高精度。 因此,Boosting可以被视为一种通用的增强基础算 收稿日期:20030806;修改稿收到日期:2003IiIi 作者简介:乐斌(1978一),男,浙江宁波人,2001年毕业于浙 江大学控制系.学士学位.浙江大学信息科学与工程学院智能系统 与决策研究所2001级硕士研究生.主要研究方向:模式识别与智 能软测量; 吴铁军(1950).男,江苏南京人,1982年毕业于浙扛大学化 学工程学暴,学士学位,1988年毕业于浙江大学工业自动化专业获 博士学位,1990年12月至1992年1月在美国马里兰大学系统研 究中心从事博士后研究工作,1993年晋升为教授.批准为博士生导 师,任工业控制技术国家重点实验室副主任,现为浙江大学信息科 学与工程学院智能系统与决策研究所所长,教授.博导.主要研究 方向:智能系统控制与决策及其在微机器人控制、网络流量控制和 智能交通系统中的应用.在各类刊物上发表文章数十篇。 万方数据 石油化工自动化 法性能的回归分析算法。 本文使用RBF神经网络作为Boosting算法 的基础回归算法。为了克服敏感度参数难以确定 的问 快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题 ,任意选择一个不会产生过学习的敏感度参 数,通过Boosting算法的迭代来有效减小拟合误 差和预测误差。文中以某炼油厂的一组成品汽油 样本的近红外吸收光谱数据为基础,用归一化和相 关性分析对原始光谱数据进行预处理。建立了一 个以RBF神经网络为基础算法的Boosting预测 模型用于拟合光谱数据。与常用的油品分析技术 即PLS,MLR和单个RBF网络的拟和预测效果对 比分析结果显示,该算法具有计算速度快、预测精 度高等优点。 1 Boosting算法基本原理⋯ 给定一个样本集{(x。,Y。)。⋯,(z⋯Y)},其中 x,∈R“,Y,E-R分别为回归分析对象的输入和相应 的输出样本。Boosting回归算法⋯用RBF网络作 为基础回归算法对样本集进行T轮迭代建模,每 一轮都产生一个基础回归模型^。第t(£<丁)轮 样本{(x。,》。),⋯(x。,,。))的选取由t—l轮所产 生的组合回归模型E一,的误差残余量r。决定。 第t轮迭代产生的回归模型,。将会根据误差残余 量获得一个权值口,,第t轮的组合回归模型F。= FH+口⋯f 以上过程,可以用以下算法伪代码⋯来形式化 地表示。 算法:RBFBoosting 输入:样本集((善,,y。),⋯,(x⋯Y))及其样本 总数m;基础回归算法RBF网络;误差控制参数p。 初始化:t一1,Fl一0 fori一1tom rc—yt end whiler∽≥⋯por搓;T⋯其中r—n, ⋯,r,) fori=1tom ,,=,, end 构造样本集:s7={(x-,》,),⋯,(善。,岁。)) 计算基础回归模型:以s7为新样本集,调用 RBF网络获得基础回归模型,f。计算误差参数涵一1厂≠糍 计算基础回归模型权重:ill--黼 计算组合回归模型:E十。一E+口,,,; fori一1tom r,=Y,一F。(x。) end t—t+1 end 在上述RBF—Boosting算法伪代码中,¨^分 别为第t轮迭代后的误差残差、误差 函数 excel方差函数excelsd函数已知函数     2 f x m x mx m      2 1 4 2拉格朗日函数pdf函数公式下载 。 2基于Boosting的近红外光谱分析方法 2.1光谱数据的预处理 原始光谱数据包含很多噪声,需要对其进行预 处理,从中提取可以用来建模和预测的有用信息。 本文对光谱数据的预处理包括相关性分析和归一 化处理。相关性分析通过计算拟合样本波长和待 分析的物性参数之间的相关系数,以筛选出相关性 大的光谱波长采样数据进行分析,以减小计算量和 避免干扰信号的负面影响;在此基础上进一步对样 本的光谱采样数据进行归一化则可减小由于不同 波长数据之间的数值差异过大而造成计算时的舍 人误差。 设所有样本在第J个波长采样点处的光强透 过率表达为矢量x,=[x。,,x"⋯,“],这些样本 对应的物性参数真实值表达为矢量y一[y。,弛,⋯, ,,]。x,与Y之间的相关系数按以下算法计算: £(x。一葺)(,,--y) R,一-==兰兰===——i===== √,§‘粕一弓)2×√;三‘yi--7)2 其中可是所有样本物性参数真实值的平均值, 即 1 f y一亍,三弘 相关系数R,∈[o,1]。R,越接近1,说明所有 拟合样本在第J个波长采样点处的光强透过率和 这些样本对应的物性参数真实值的相关度越高,包 含的信息量越大。如果对某个波长采样点,相关系 数为零,则说明该采样点处的样本光强透过率与样 本的物性参数真实值完全不相关,不包含任何与物 性参数变化有关的信息。因此,为了提取样本光谱 中的有效信息,同时排除那些非有效信息对光谱回 归分析的干扰,应根据待分析对象的物理特性,选 择适当的光谱波长有效范围。 2.2 Boosting算法的参数选择 最后获得的组合函数的训I练精度取决于迭代 步数,迭代步数越多,则训练精度越好。泛化精度 则取决于组合函数的复杂程度,通常结构简单的组 万方数据 第1期 乐斌等.Boosting算法在近红外光谱分析中的应用 合函数泛化能力会更好。组合函数的复杂性取决 于基础学习器的复杂性和迭代步数。由于Boos— ting的目的就是为了将一个粗糙学习器构造成一 个精度好的学习器,因此,可以将作为基础学习器 的RBF网络的高斯函数宽度扩大,降低RBF网络 的敏感度。将复杂性由迭代步数决定。如果迭待 步数的增加使得精度的提高远大于复杂性的提高, 那么,组合算法将同时具有极好的训练精度和泛化 精度。 基础学习器RBF的高斯函数宽度b和Boos ting的最大迭代步数丁⋯采用“启发式”方法进行 搜寻。主要的思想是利用交叉检验和广域搜索的 方法,从一个较大的取值范围内找到使交叉检验所 得结果最好的一对参数b和T⋯误差控制参数p 选择为0.32,即迭代停止时拟合误差的平均值不 大于0.3个辛烷值单位。 2.3算法评估 本文采用平均误差、误差 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 差和误差绝对值 的最大值来分别衡量组合回归模型预测误差的偏 移程度、预测误差分布的离散程度和能承受的预测 误差上限。其计算公式分别为: 1 } 平均误差E⋯=÷∑lF(x.)一,,l 误差标准差 1 rr—r———————————————W title--寺√。三{[F(置’)一Y,)一E⋯nj 误差最大值E。。一maxlF(x,’)Y。l "{1,2, ,^I 其中,蕾’和Y,分别为第i个检验样本的光谱 矢量(经相关性和归一化处理)和所对应的物性参 数真实值,k值为检验样本的总数,F为RBF— Boosting算法输出的回归模型。如果这些误差性 能指标不能满足实际应用的需要,应减小迭代控制 参数p的值(即增大实际迭代步数)重新计算回归 模型。 3实验数据分析 汽油辛烷值预测是近红外光谱技术在工业领 域最成功的应用典型之一。1989年Kelly首次用 PI。s建立近红外模型用于汽油辛烷值预测,得到 了0.4~O.5个辛烷值单位的平均预测误差“]。王 宗明等人用MLR和PI。s等化学计量学方法建立 辛烷值的预测模型,得到预测均方误差小于0.6个 辛烷值单位”]。史月华等人用主成分回归残差神 经网络校正算法测定汽油辛烷值提高了预测能 力‘⋯。 为了验证本文所提算法的有效性,采用RBF Bosting算法对汽油辛烷值的近红外光谱进行了回 归分析。并用PI,S,MI。R和RBF神经网络方法对 同样的样本集进行了回归分析,用来和本文所提供 算法的性能做比较。在本文的实验中采用的实验 数据由某石化炼油厂提供,共有55个样本,采用发 动机法测出的各样本辛烷值(作为回归分析中的真 值)。随机抽取了样本集中的m一44个样本用来 建立回归分析模型,其他的11个样本用来验证模 型的预测能力。 表l列出了RBFBoosting方法和其他3种传 统的回归分析方法在平均误差,误差标准差和误差 绝对值的最大值3个误差性能指标的比较结果。 衰1 RBF—Boosting和传统算法预测结果比较 由表1的对比结果可见,作为常用的油品辛烷 值分析算法,MLR的效果要比PI,s好。RBF网络 的效果最差,这和拟合样本数量比较少以及RBF 网络的敏感度系数设得较低有关。但是以RBF网 络为基础回归算法的RBF—Boosting算法明显改进 了单个RBF网络的精度,从平均误差,误差标准 差,误差绝对值的最大值3个指标上都显示了比 MLR,PLS和RBF网络更好的预测能力。 4结论 本文给出了一种以RBF网络为基础回归算法 的Boosting算法,通过对油品辛烷值光谱的实验 分析,验证了Boosting算法能有效改善基础回归 算法的性能。由于Boosting算法能够以各种线 性,非线性算法作为基础学习算法,适用于各种类 型的数据,因此具有广泛的适用性,对于需要调整 各种参数才能达到预测最优的基础回归算法,只要 选择的参数不至于产生过学习,就可以通过选择迭 代步数达到相同或更好的预测精度,有效降低了调 式模型的难度。因此,Boosting技术可以广泛地应 用于各种软测量问题中。 参考文献: 1 McClureWF.NearIn[raredSpectroscopy:TheGiantisRun- ningStrongAnalyticalChemistry,1994,66(1).43A一53A 2 BrownSD·SunFDespagneChemometriesAnalyticalChemis try,1996.68:21R一61R. (下转第50页) 万方数据 石油化工自动化 3动态流程图画面的调试 要使流程图画面能运行并达到动态效果,首先 必须对其进行在线编译或检查,即对流程图画面中 的数据点是否在系统中已存在进行检查。由此可 见,在编译或检查流程图画面之前,所引用的数据 点在系统中必须要先建立。其次要对每个动态数 据点进行逐点测试,以确定其显示的正确性。 需要注意的是已经通过检查和测试的动态流 程图画面,当其中的动态数据点类型改变、或删除 后重新建立时,一般情况下应重新检查和测试动态 流程图画面,否则就可能不能显示或显示有错。 4动态流程图画面的例子 4.1动态流程图画面总菜单 动态流程图画面总菜单如图5所示。 4.2浆料调配动态流程图画面(略) 5结束语 图5动态流程图画面总菜单 在DCS编程组态工作中,编制、组态和调试动 态流程图画面约占一半的工作量,而且也是一项综 合性较强的工作。设计出一套操作方便、显示直 观、图面布置美观大方、颜色协调的动态流程图画 面并非一件易事,需要对系统的软件平台有较深入 的了解,熟悉控制方案以及工艺的基本操作,并需 要不断修改完善和总结提高。 (上接第33页) 3 LavineBKChemometricsAnalyticalChemistry.1998,(70): 209R228R. 4 FreundY.SehapireR E A.ShortIntroductionto Boos tingJournalofJapaneseSocietyforArtificialIntelligence, 1999,14(5):771—780 5 DuffyN,HelmboldDBoostingMethodsforRegressionMa chineI.earing,2002(47),163200. 6 KellyJJ,BarlowCHtJingu】iTM.etal PredictionofGasoline ()craneNumbersfromNear—InfraredSpectralFeaturesinthe Range6601215nm.AnalyticalChemistry,1989,(61):313320 7王宗明,华伟英,韦占凯等 近红外光谱预测汽油辛烷值和辛 烷值仪的研制.光谱学与光谱分析.1999,19/5):684—686. 8史月华,陆勇.主成分回归残差神经网络校正算法用于近红外 光谱快速测定汽油辛烷值分析化学,2001,29(1):87—91. 万方数据 Boosting算法在近红外光谱分析中的应用 作者: 乐斌, 吴铁军, 方骏 作者单位: 浙江大学,智能系统与决策研究所,浙江,杭州,310027 刊名: 石油化工自动化 英文刊名: AUTOMATION IN PETRO-CHEMICAL INDUSTRY 年,卷(期): 2004,(1) 引用次数: 3次 参考文献(8条) 1.MCCLURE W F Near-Infrared Spectroscopy:The Giant is Running Strong 1994(1) 2.Brown S D.Sun F Despagne Chemometrics 1996 3.Lavine B K Chemometrics 1998(70) 4.Freund Y.Schapire R E A Short Introduction to Boosting 1999(5) 5.Duffy N.Helmbold D Boosting Methods for Regression 2002(47) 6.Kelly J J.Barlow C H.Jinguji T M Prediction of Gasoline Octane Numbers from Near-lnfrared Spectral Features in the Range 660 1215nm 1989(61) 7.王宗明.华伟英.韦占凯.张弧弘.武惠忠 近红外光谱预测汽油辛烷值和辛烷值仪的研制[期刊 论文 政研论文下载论文大学下载论文大学下载关于长拳的论文浙大论文封面下载 ]-光谱学与光谱 分析 1999(5) 8.史月华.陆勇.徐光明.徐元植.徐铸德.蔡大雄.陆文琼.马竞涛 主成分回归残差神经网络校正算法用于近红外光谱 快速测定汽油辛烷值[期刊论文]-分析化学 2001(1) 相似文献(10条) 1.学位论文 陈飞 机器学习算法Boosting中几个问题的研究 2007 作为最经典和最成功的机器学习算法之一,Boosting自问世以来就一直被很多学者所关注。Boosting是能提高任意给定的学习算法的准确率的一类 集成算法的总称。由于Boosting所显示出的优异性能,Boosting算法被广泛的应用予数据挖掘、模式识别、信息检索、医学研究等领域。因此 Boosting算法及其应用成为目前国际机器学习界的研究热点之一。 本文对Boosting算法的理论和应用进行了研究,主要取得了以下一些研究成果; (1)提出了一个基于流形学习的半监督学习Boosting算法SEMABoost。该算法能结合流形学习和Boosting算法的优点,在训练中能够有效的利用未标 识样本,可采用多种监督学习的分类算法作为基本分类器。在UCI数据集上的实验表明SEMABoost的分类准确率优于AdaBoost算法和已有的效果较好的半 监督学习Boosting算法ASSEMBLE。 (2)在对Boosting算法结构研究和分析的基础上,提出了一种结合LDA的Boosting改进算法LDABoost和一种结合SVM的Boosting改进算法SVMBoost,采 用更有效的方法来组合各个基本分类器生成最终的集成分类器。在人脸检测和眼睛检测方面的实验表明这两个算法的分类准确率都要优于原始的 Boosting算法。 (3)分析了AdaBoost算法的性能和分类间隔、过配问题和分类间隔之间的关系,给出了Arc-Gv算法效果差予AdaBoost的一个新原因,并提出了一种基 于分类间隔分析的Boosting改进算法AMBoost。在UCI数据库上的实验和模式识别方面的应用都表明,AMBoost的分类准确率和容忍噪声能力都优于 AdaBoost。同时由于该算法结构简单、学习速度快,因此可以被广泛的应用于各种复杂的模式识别问题。 2.期刊论文 毕华.梁洪力.王珏.BI Hua.LIANG Hong-Li.WANG Jue 重采样方法与机器学习 -计算机学报2009,32(5) Boosting算法试图用弱学习器的线性组合逼近复杂的自然模型,以其优秀的可解释性和预测能力,得到了计算机界的高度关注.但Boosting只被看作是 一种特定损失下的优化问题,其统计学本质未曾得到充分的关注.作者追根溯源,提出从统计学角度看待Boosting 方法:在统计学框架下,Boosting算法仅 仅是重采样方法的一个有趣的特例.作者希望改变计算机科学家只重视算法性能忽略数据性质的现状,以期找到更适合解决"高维海量不可控数据"问题的 方法. 3.期刊论文 董乐红.耿国华.周明全.DONG Le-hong.GENG Guo-hua.ZHOU Ming-quan 文本分类中连续属性离散化方 法的研究 -小型微型计算机系统2009,30(11) 针对机器学习领域的一些分类算法不能处理连续属性的问题,提出一种基于词出现和信息增益相结合的多区间连续属性离散化方法.该算法定义了一 个离散化过程,离散化了采用传统信息检索的加权技术生成的非二值特征词空间,然后判断原特征空间中每个特征词属于或不属于某给定子区间,将问题转 换成二值表示方式,以使得这些分类算法适用于连续属性值.实验结果表明,该算法离散过程简单高效,预测精度高,可理解性强. 4.期刊论文 刁力力.胡可云.陆玉昌.石纯一 用Boosting方法组合增强Stumps进行文本分类 -软件学报2002,13(8) 为提高文本分类的精度,Schapire和Singer尝试了一个用Boosting来组合仅有一个划分的简单决策树(Stumps)的方法.其基学习器的划分是由某个特 定词项是否在待分类文档中出现决定的.这样的基学习器明显太弱,造成最后组合成的Boosting分类器精度不够理想,而且需要的迭代次数很大,因而效率 很低.针对这个问题,提出由文档中所有词项来决定基学习器划分以增强基学习器分类能力的方法.它把以VSM表示的文档与类代表向量之间的相似度和某 特定阈值的大小关系作为基学习器划分的标准.同时,为提高算法的收敛速度,在类代表向量的计算过程中动态引入Boosting分配给各学习样本的权重.实 验结果表明,这种方法提高了用Boosting组合Stump分类器进行文本分类的性能(精度和效率),而且问题规模越大,效果越明显. 5.学位论文 王笑坤 Boosting算法及其应用 2007 近十年间,学习领域中出现了一种可以通过多次学习而提升学习算法精度的方法,它采用综合选优的原则而使算法的效率明显改善,此方法被称为 Boosting方法。它可以有效地将精度较低的“弱学习算法”提升为精度较高的“强学习算法”。Boosting作为一种新的集成机器学习方法,以学习理论 为依据,在很多应用领域中都表现出了其优良特性。 本文对Boosting算法的基本思想,一些经典变形算法 (如 AdaBoost.M1,实值 AdaBoost) 进行了阐述。然后从训练误差、泛化误差、优化理论、 偏倚和方差,博弈论等几个方面对Boosting算法的一般理论基础进行了分析,并进一步分析了算法的一致性,得到了AdaBoost算法满足全局一致性的停 时策略。较为详细的对Boosting方法进行了阐述和总结。 本文将 Boosting 方法应用到了银行个人信用评估领域。随着我国市场经济的不断发展,信用评估成为商业银行业务发展的当务之急。信用评估的 准确率哪怕只提高零点几个百分点,都会带来巨大的效益。选取UCI的德国和澳大利亚信用数据集进行实验仿真,将 AdaBoost.M1、Bagging 用到J48决 策树上,实验结果显示AdaBoost.M1—J48将两个数据集的分类准确率分别提高了5.8和1.02个百分点。实验结果表明Boosting算法确实能够提高分类的 准确率,进一步验证了Boosting算法的有效性。 6.学位论文 刁力力 Boosting组合学习方法及其在文本挖掘中的应用研究 2002 目前Boosting方法己在数据挖掘的多个领域特别是在文本挖掘中得到了成功的应用.该文致力于解决在Boosting的理论和实际应用方面出现的一些问 题,以提高其分类精度和学习速度,增强其实用性.该文的主要研究工作包括:(1)对Boosting中的权值调整进行了研究.(2)提出了基于代价的Boosting模型 ,并对这种情况下Boosting的权值调整、参数选择和评估代价对Boosting影响的代价函数等各个方面的问题进行了深入研究,并证明了这个模型的收敛特 性.(3)对Boosting与一些典型的机器学习方法的结合解决文本分类问题进行了研究;(4)提出了一种基于Boosting机制,针对当前文本数据集动态计算相似 度阈值的方法. 7.期刊论文 罗俊.LUO Jun 一种新的结合Boosting技术的mFOIL算法 -计算机应用研究2009,26(10) 机器学习中的Boosting技术是给训练例赋予不同的权值,使得学习算法可以集中学习较难的训练例.另一方面,一阶规则学习中的mFOIL算法学习精度 较高,但是用于估计候选子句精度的最佳m值很难确定.为了解决这一难题,提出了将Boosting技术用于一阶规则学习的BoostmFOIL算法,使得对于任意的 m值也可以学到精度较高的规则集.此外,为了增强Boosting技术对噪声数据的鲁棒性,对噪声数据赋予相对较小的权值,使其对学习算法的精度影响甚微 .在基准的规则学习领域的实验结果表明:a)对于任意的m值, BoostmFOIL算法学习到的规则精确要度比原mFOIL算法高得多;b)即使在噪声环境下 ,BoostmFOIL算法也能学习到精确度较高的规则集.以上结果表明,将Boosting技术用于一阶规则学习的mFOIL算法中,可以提高该算法的精确度和鲁棒性. 8.学位论文 朱文球 Boosting算法研究及在人脸检测中的应用 2006 集成学习算法是通过训练多个弱学习算法并将其结合成一个强学习算法,通过这种结合方式,能显著提高学习系统的泛化能力。 Boosting方法是 一个通用的、可以提升任何弱学习算法的集成学习 方法,是目前最流行的集成学习方法之一,是集成学习算法的最主要代表,在国内外得到了广泛的 研究和应用,且已经有了多种实用形式。本文详细地分析了Boosting方法的理论实质,包括Boosting方法不会发生过学习的原因以及Boosting方法与 SVM的关系,详细地分析了算法的训练误差和系统误差,并从纯数学的角度证明了上述误差的上界。分析了原始算法在训练过程中出现的退化现象,提出 了限制权 重扩张的改进方法;针对算法易受噪声影响所表现的不稳定性,提出改进稳定性的 意见 文理分科指导河道管理范围浙江建筑工程概算定额教材专家评审意见党员教师互相批评意见 和思路。针对算法在训练过程中非常耗时的问题,提 出了将克隆选择算法结合到AdaBoost学习中,利用克隆选择算法快速收敛于全局最优的特性,加快搜索到更好的新的分类特征。 本文最后提出一种新的基于链式Boosting方法的人脸检测算法,首先用PCA方法对人脸图像进行特征参数的提取,在此基础上,利用算法中的每 一个Boosting分类器学习的历史信息,基于线性回归特征消除(RFE)策略,消除AdaBoost中的冗余,据此判别一幅图像是否为人脸图像。在ORL人脸图像 库的仿真实验结果显示,这种方法明显提高了检测性能,证明了本算法是有效的。 9.期刊论文 欧阳军林.刘建勋.曹步清.OUYANG Jun-lin.LIU Jian-xun.CAO Bu-qing 基于LBSVM机器学习的相关反 馈图像检索 -计算机工程与应用2009,45(2) 基于机器学习的相关反馈技术是基于内容的图像检索研究的热点.由于基于SVM的相关反馈技术存在样本数量少,样本正负比例不平衡,反馈准确率低 等问题,文中先对Boosting方法进行改进,提出了用先验知识的Boosting方法与SVM结合的短期机器学习相关反馈方法(BSVM);在此基础上为进一步提高系 统反馈速度与准确率,通过保存训练好的分类器和它对应的样本,提出了基于长期机器学习的相关反馈方法(LBSVM).文中提出的两种方法与其它方法进行 了比较实验,结果表明,该方法优于其它方法. 10.学位论文 王雪颖 基于机器学习的搜索引擎反作弊系统的设计与实现 2008 搜索引擎在人们生活中起着越来越重要的作用,已经成为网民获取信息的主要来源和企业营销的重要手段。在利益的驱使下,越来越多的网站为了 获得在搜索引擎中的展现机会,提高在搜索引擎中的排名,采取了不正确的作弊策略,欺骗搜索引擎,影响到正常用户快速获取有效信息。如何检测这 类作弊页面,并对其进行打击,已经成为搜索引擎系统的重要组成部分。 本文首先分析了当前互联网搜索引擎上存在的作弊类型以及每种作弊类型能够提升在搜索引擎中排名的原因,接着介绍了当前搜索引擎反作弊现状 及存在的程序可维护性低、可扩展性不高、策略收益小的问题。针对这些问题,本文提出将反作弊问题转化成文本二分类问题,利用机器学习的方法来 取代人工“打补丁”的方法。 其次,分析了反作弊问题的非对称性,在机器学习算法中引入级联、回溯和非对称加权的思想,对Boosting机器算法进行改进,提出 FloatCascade机器学习算法,并将其运用在反作弊系统中。 再次,分析了作弊问题的多样性,摒弃了文本分类中常用的基于词的特征构造方法,采用多样化的网页特征提取方法,并利用决策树组织现有特征 ,提高特征的质量,扩大特征数量,以满足Boosting算法对特征多样性的要求。 最后,讨论了基于FloatCascade机器学习算法的反作弊系统的设计与实现,并将本系统的结果和线上系统的结果进行了对比分析,评估了系统的性 能。同时,在本系统基础上,将FloatCascade算法的结果和AdaBoost、SVM、NaiveBayes等机器学习算法的结果进行对比,评估了算法的性能。 归纳起来,本文的主要内容是设计并实现了基于FloatCascade机器学习算法的搜索引擎反作弊系统;针对反作弊问题的非对称,将级联、回溯和非 对称加权的思想运用到机器学习算法中,提出了FloatCascde机器学习算法;采用多样化的特征提取方法和决策树来组织特征,解决反作弊类型多样化的 问题。 引证文献(3条) 1.姚志湘.杨锦瑜.张倩.刘雪颖.陈晓伟 Boosting算法及其在化学数据挖掘中的应用[期刊论文]-广西工学院学报 2006(04) 2.褚小立.袁洪福.陆婉珍 近年来我国近红外光谱分析技术的研究与应用进展[期刊论文]-分析仪器 2006(02) 3.沈掌泉 神经网络集成技术及其在土壤学中应用的研究[学位论文]博士 2005 本文链接:http://d.g.wanfangdata.com.cn/Periodical_syhgzdh200401010.aspx 下载时间:2010年5月13日
本文档为【Boosting算法在近红外光谱分析中的应用】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_159592
暂无简介~
格式:pdf
大小:411KB
软件:PDF阅读器
页数:6
分类:
上传时间:2010-05-13
浏览量:45