机器学习与深度学习

机器学习与深度学习机器学习与深度学习**目录机器学习的基础神经元网络深层神经元网络延伸和应用深层学习实现架构未来和思考**小学生解方程a3+b=10a8+b=30a=?b=?**高中，大学---矩阵，矢量**线性回归及分类机器学习背景Y是一个N维向量XT是一转置矩阵N*(p+1)β是一个p+1的向量线性回归:，给定X,和Y,计算β以最佳匹配X,Y的关系。N>>p+1。β即为线性回归模型的参数。βk表明对应的维度，Xk的重要性什么为最佳匹配？*参数估计方法一：最小...

机器学习与深度学习**目录机器学习的基础神经元网络深层神经元网络延伸和应用深层学习实现架构未来和思考** 小学生解方程a3+b=10a8+b=30a=?b=?** 高中，大学---矩阵，矢量**线性回归及分类机器学习背景Y是一个N维向量XT是一转置矩阵N*(p+1)β是一个p+1的向量线性回归:，给定X,和Y,计算β以最佳匹配X,Y的关系。N>>p+1。β即为线性回归模型的参数。βk 表明对应的维度，Xk的重要性什么为最佳匹配？*参数估计方法一：最小化误差平方和机器学习背景*正则化L2(Ridge)Regularization限制参数的大小，以避免过拟合*正则化L1Regularization(Lasso)限制参数的大小，以避免过拟合Noclosedformforβ*逻辑回归jG*逻辑回归-参数训练jG训练目标函数：最大似然对数概率牛顿迭代：**目录机器学习的基础神经元网络深层神经元网络延伸和应用深层学习实现架构未来和思考**神经元网络单层前向网络两阶段回归或分类 K-Class分类最底层为数据层最上层为输出层中间层为隐含层这种简单的NN称为Perceptron*神经元网络---输入层到隐含层中间层为输入层线性组合的某函数其中δ为激活函数:sigmoid*神经元网络-激活函数 δ为激活（Activation)函数(红线） 0<δ<1δ(10v)δ(0.5v) δ(sv),s控制0点的激活强度当s0,δ-->线性函数*神经元网络，隐含层到输出层输出层为中间层的线性组合回归问题 K-Class分类问题，softmax函数*训练神经元网络：参数集合及维度神经元网络参数集合θ*训练神经元网络优化参数求导最小化目标函数：最小误差平方和及求导*训练神经元网络--BackPropagation 梯度下降迭代算法输出层误差：δki隐含层误差：smi*BP算法初始化参数θ 两阶段算法：Two-Pass 前向Forward-Pass：给定参数，计算输出值后向Backward-Pass:计算输出层误差，计算隐含层误差，更新参数BP算法图示（1985~）inputvectorhiddenlayersoutputsBack-propagateerrorsignaltogetderivativesforlearningCompareoutputswithcorrectanswertogeterrorsignal**神经元网络小结*目录机器学习的基础神经元网络深层神经元网络延伸和应用深层学习实现架构未来和思考***BP算法在深层神经元网络中的问题依赖于标注的训练数据目前大量数据为非标注数据训练时间长，很难规模化多层神经元网络训练很慢会停驻在性能较差的本地优化点浅层网络，该问题不明显深层网络，问题显著*支持向量基（SVM)一个特殊的神经元网络StillPerceptron一个特殊的单隐含层网络每个训练案例用于构造一个特征，该特征用于测量改训练案例和测试案例的距离SVM训练选择自由特征集以及特征的权重1990-2010很多让放弃NN,选择SVMnon-adaptivehand-codedfeaturesoutputunitse.g.classlabelsinputunitse.g.pixelsSketchofatypicalperceptronfromthe1960’sBombToy9/9，3:20pmyufei王会霞,1pm,9/129:00am9/20wuxiaoyan*深层信任网络（DeepBeliefNet，DBN)是部分解决了以上问题的神经元网络****谁重新激活了神经元网络？ GeoffreyHinton出生于：1947专业：学士，心理学，1970，博士，人工智能，1978多伦多大学教授Google研究中心1986：神经元网络BP算法发明人之一深度学习主要贡献人IGETVERYEXCITEDWHENWEDISCOVERAWAYOFMAKINGNEURALNETWORKSBETTER—ANDWHENTHAT’SCLOSELYRELATEDTOHOWTHEBRAINWORKS.’*谁重新激活了神经元网络？ NCAP:神经计算和自适应感知项目2004NCAPResearchers YoshuaBengio YannLecun(FaceBook) AndrewNg(Baidu) 20~OthersCoreTeamNeuralComputation&AdaptivePerceptionNIFAR**深度学习的 2006年，GeofferyHintonScience发表DBN文章。 2012年，Hinton,ImageNet,26%-15%。 2012年，AndrewNg和分布式系统顶级专家JeffDean，GoogleBrain项目，16000个CPU核的并行,>10亿个神经元的深度神经网络 2012年，微软首席研究官RickRashid在21世纪的计算大会上演示了一套自动同声传译系统 2013年，Hinton->>Google;YannLeCun->>Facebook;用户图片信息提取2013年，百度成立了百度研究院及下属的深度学习研究所（IDL）， 2014年，AndrewNg->>Badidu***可信任网络BeliefNets（BN）一个BN是一个由随机变量组成的有向非循环图一部分变量为可观察已知变量如何由已知变量推断出非观察变量的状态调整变量之间连接的参数优化：最大可能重新生成观察变量stochastichiddencausevisibleeffectWewillusenetscomposedoflayersofstochasticbinaryvariableswithweightedconnections.Later,wewillgeneralizetoothertypesofvariable.可信任，信任什么？随机的二元单元(Bernoullivariables) 隐含层的神经元的状态为0或1 该神经元激活的概率为输入层加权和的sigmoid函数001**RestrictedBoltzmannMachines（RBM) 限制神经元之间的链接以简化参数学习. 只包含一个隐含层. 多隐含层后期引入隐含层单元之间无链接. 给定输入可观察矢量，隐含层单元之间独立隐含层和输入层之间为无向链接hiddenijvisible**RBM训练ijijijijt=0t=1t=2t=infinity从可观察训练矢量开始，交替更新隐含层和可观察矢量层单元afantasy*小结一个基础的DBN网络决定DBN的隐含层数以及隐含层的神经元数每两层之间依据RBM单独依次训练参数训练完的两层网络简单叠加起来成为深层网络利用BP算法对叠加后的网络连接参数进一步优化RBMPseudo代码Fort=0ton:Vt-Ht基于sigmoid函数和Gibbs采样Ht-Vt+1基于sigmoid函数和Gibbs采样Vt+1-Ht+1基于sigmoid函数和Gibbs采样更新参数W:　RBMCode *目录机器学习的基础神经元网络深层神经元网络延伸和应用深层学习实现架构未来和思考**深度学习目前常用的架构深度神经元全连网络DNN(DeepNeuralNets),Tensor-DNN 卷积神经元网络CNN(ConvolutionalNeuralNets) 深度叠拼神经元网络DSN(DeepStackingNets);Kernel-DSN,Tensor-DSN 循环神经元网络RNNs(RecurrentandrecursiveNeuralNets)*DNN在语音识别中的应用*DNN在语音识别中的应用*语音识别中的BottleNeck特征*图像识别中的神经元网络应用卷积神经元网络ConvolutionNeuralNetwork(CNN)输入层可以使多元的，也可以是一元的*图像识别中的神经元网络应用：卷积层输入：维度的矩阵X 输出：维度的矩阵连接输入和输出的参数：维度的矩阵W**图像识别中的神经元网络应用：Pooling层输入：　　region，矩阵输出：Asinglevalue，连接输入输出层参数：无最大值pooling均值pooling**图像识别中的神经元网络应用：全连层同DNN**卷积神经元网络的架构**ImageNet2012年竞赛*ImageNet2013年竞赛目前图像中物体识别性能*语音识别中CNN的使用（2013，Sainath@IEEE)*循环神经元网络RNN*RNN同DNN的比较*BackPropagationThroughTime(BPTT) 三类参数训练方式可等同于前向网络在时域的组合**双向RNN实现训练算法： RBM初始化每个时间点t的网络BPTT,BP算法的扩展优化参数训练*神经元网络在自然语言处理中的应用语言模型信息分类信息聚类信息提取搜索翻译词向量语义表示*一批关键的文章 YoshuaBengio,RejeanDucharme,PascalVincent,andChristianJauvin. Aneuralprobabilisticlanguagemodel.JournalofMachineLearningResearch(JMLR),3:1137–1155,2003.[PDF] RonanCollobert,JasonWeston,LéonBottou,MichaelKarlen,KorayKavukcuogluandPavelKuksa.NaturalLanguageProcessing(Almost)fromScratch.JournalofMachineLearningResearch(JMLR),12:2493-2537,2011.[PDF] AndriyMnih&GeoffreyHinton. Threenewgraphicalmodelsforstatisticallanguagemodelling.InternationalConferenceonMachineLearning(ICML).2007.[PDF]AndriyMnih&GeoffreyHinton. Ascalablehierarchicaldistributedlanguagemodel.TheConferenceonNeuralInformationProcessingSystems(NIPS)(pp.1081–1088).2008.[PDF] MikolovTomáš. StatisticalLanguageModelsbasedonNeuralNetworks.PhDthesis,BrnoUniversityofTechnology.2012.[PDF] TurianJoseph,LevRatinov,andYoshuaBengio. Wordrepresentations:asimpleandgeneralmethodforsemi-supervisedlearning.Proceedingsofthe48thAnnualMeetingoftheAssociationforComputationalLinguistics(ACL).2010.[PDF] EricHuang,RichardSocher,ChristopherManningandAndrewNg. Improvingwordrepresentationsviaglobalcontextandmultiplewordprototypes.Proceedingsofthe50thAnnualMeetingoftheAssociationforComputationalLinguistics:LongPapers-Volume1.2012.[PDF] Mikolov,Tomas,Wen-tauYih,andGeoffreyZweig. Linguisticregularitiesincontinuousspacewordrepresentations.ProceedingsofNAACL-HLT.2013.[PDF]*DNN语言模型**RNN语言模型没有必要定义上下文长度没有投影层（NoWordEmbedding) 前一层的隐含链接下一个词的隐含层**其他的深度学习架构：DeepStackingNetwork(DSN)特点线性和非线性层交替训练更容易并行优化目标凸函数（convex)**目录机器学习的基础神经元网络深层神经元网络延伸和应用深层学习实现架构未来和思考**深度学习实现的物理架构挑战：训练数据规模庞大计算开销大训练过程收敛难训练用时久解决方案：GPU计算资源并行CPU集群几万神经元，几千万参数h**工业界深度学习平台架构百度 Facebook Google 腾讯平台名称 Paddle N/A Disblief Cots Mariana 应用模型&数据 CPU/GPU GPU GPU CPU GPU GPU&CPU 硬件规模 1.6W 3台GPU服务器参数规模 DownpourSGD和L-BFGS 10亿主要应用人脸识别和提取语音识别图形语音识别，图像粗粒**深度学习开源软件 Kaldi Cuda-Covnet Caffe Theano Torch7 OverFeat 领域语音识别图像分类 Matlab免费版图像识别及特征提取 GPU/CPU GPU GPU GPU GPU/CPU GPU 算法 SGD SGD 设计者 UniJohnHopkins UivofToronto 纽约大学功能 GPU GPU CPU GPU&CPU GPU 实现语言 C++Cuda C++Cuda Python*腾讯深度学习平台Mariana DNN的GPU数据并行框架 CNN的GPU数据并行和模型并行框架 DNNCPU集群框架GPU服务器为主4-6NvidiaTeslaGPUCards(系列高端科学计算用)>2000流处理器/GPUcard并行计算*深度学习并行策略模型并行将训练数据划分为多份，每份数据有一个模型实例进行训练，再将多个模型实例产生的梯度合并后更新模型数据并行模型并行指将模型划分为多个分片，每个分片在一台服务器，全部分片协同对一份训练数据进行训练流式控制*DNNGPU的并行架构 DNN的数据并行框架通过同步随机梯度下降进行训练。每个GPU卡各自训练，并各自产生一份梯度值，然后进行参数交换。自适应学习率算法，使得支持自适应学习率所需交换的数据量降低了一个数量级。参数交换的成本**CNN-GPU并行架构---腾讯　模型拆分　数据拆分　流式控制 GPU卡分组组内两个GPU卡做模型并行，组间做数据并行**CNN-GPU并行架构---腾讯　模型拆分　数据拆分　流式控制 GPU卡分组组内两个GPU卡做模型并行，组间做数据并行**DNNCPU并行架构*目录机器学习的基础神经元网络深层神经元网络延伸和应用深层学习实现架构未来和思考**IBMSynapse自适应塑料可伸缩电子神经形态系统SyNAPSE isa DARPA-fundedprogramtodevelopelectronic neuromorphic machinetechnologythatscalestobiologicallevels.Moresimplystated,itisanattempttobuildanewkindofcomputerwithsimilarformandfunctiontothe mammalianbrain.Suchartificialbrainswouldbeusedtobuildrobotswhoseintelligencematchesthatofmiceandcats.SyNAPSEisa backronym standingforSystemsofNeuromorphicAdaptivePlasticScalableElectronics.Itstartedin2008andasofJanuary2013hasreceived$102.6millioninfunding.Itisscheduledtorununtilaround2016.Theprojectisprimarilycontractedto IBM and HRL whointurnsubcontractpartsoftheresearchtovariousUSuniversities.**IBMSynapse自适应塑料可伸缩电子神经形态系统 2007 Apr - ToddHylton joinsDARPAtofoundtheproject 2008 Apr -DARPApublishesa solicitation forapplications May -Duedateforinitialproposals Oct -Winningcontractorsannounced Nov -Phase0start 2009 Sep -Phase1start Nov -Announcementofcat-scalebrainsimulation 2010 2011 Aug -Announcementofneuromorphicchipimplementation Sep -Phase2start Dec -Announcementoffirst memristorchip 2012 Feb -ToddHyltonleavesDARPA,GillPratttakesoverasprogrammanager May -Neuromorphic architecture designpublished Nov - TrueNorth/Compasssimulation of530billionneuronsannounced 2013 Feb -Expectedannouncementofmulti-coreneurosynapticchips(~1millionneuronsperchip) Mar -Phase3tobegin(estimateddate) 2014 Oct -Phase4tobegin(estimateddate) 2015 2016 Programend**猫脑机2009IBM Dawn-theBlueGene/Psupercomputer 150KCPU,144TMemory 模拟猫脑 Corticalsimulationswith109 neurons,1013 synapses ，16亿神经元，8.9万亿链接Criticismofthecatbrainsimulationclaim**BrainWallSyNAPSE（SystemsofNeuromorphicAdaptivePlasticScalableElectronics)TheBrainWall:ANeuralNetworkVisualizationToolbyIBMSyNAPSEResearchers**数字神经元芯片,CMOS,Memristor**Synapse的合作者DARPA -programmanagedby GillPrattIBMResearch -CognitiveComputinggroupledby DharmendraModhaColumbiaUniversityMedicalCenter -Theoreticalneuroscienceresearch,developmentofneuralnetworkmodels,ledby StefanoFusiCornellUniversity -AsynchronousVLSIcircuitdesign,the neurosynapticcore,ledby RajitManoharUniversityofCalifornia,Merced -environmentresearch,ledby ChristopherKelloUniversityofWisconsin-Madison -Simulation,theoryofconsciousness,computermodels,ledby GiulioTononiHRLLaboratories -Memristor-basedprocessordevelopmentledby NarayanSrinivasaBostonUniversity: StephenGrossberg, GailCarpenter,YongqiangCao,PraveenPillyGeorgeMasonUniversity: GiorgioAscoli,AlexeiSamsonovichPortlandStateUniversity: ChristofTeuscherSetCorporation: ChrisLongStanfordUniversity: MarkSchnitzerTheNeurosciencesInstitute:GeraldEdelman,EinarGall, JasonFleischerUniversityofCalifornia-Irvine: JeffKrichmarUniversityofMichigan: WeiLu**Synapse投入经费102MillionDollars IBM&collaborators HRL&collaborators Total(IBM+HRL) November2008(phase0) $4,879,333 $5.9million $10.8million August2009(phase1) $16.1million $10.7million $26.8million August2011(phase2) ~$21million $17.9million $38.9million Total $42million $34.5million $76.5million*WhyDBN为什么我们应该探索深度学习？*WhyDBN在多个领域中取得更好的准确率*WhyDBN跟其他机器学习的训练方法比需要人工投入少?*WhyDBN天然特征的层次结构*WhyDBN符合仿生学结构*WhyDBN并行计算能力支撑*WhyDBN大数据支撑你还不累，我累了！**********9/9，3:20pmyufei王会霞,1pm,9/129:00am9/20wuxiaoyan***NeuralComputation&AdaptivePerceptionNIFAR**************h*************

                    本文档为【机器学习与深度学习】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：￥18.0 已有0 人下载

立即下载

机器学习与深度学习

你可能还喜欢