分布式数据分析与人工智能平台及算法实践

分布式数据分析与人工智能平台及算法实践分布式数据分析与人工智能平台及算法实践涂丹丹金鑫tudandan@huawei.comjinxin11@huawei.com业界分析：深度学习平台演进趋势Caffe:模块化，支持单机多卡，不支持异构平台，主要用于图像分类、识别。Torch:可读性好，其中网络的基本组成为module，方便实现任意网络的构建Theano:实现符号微分，DAG表达深度网络、符号计算的开拓者，效率较低，主要用于NLP等任务，不适合大规模的深度学习模型训练。百度PADDLE：基于MPI实现分布式深度学习，已经开源了OCR、人脸识别A...

分布式数据分析与人工智能平台及算法实践涂丹丹金鑫tudandan@huawei.comjinxin11@huawei.com业界分析：深度学习平台演进趋势Caffe:模块化，支持单机多卡，不支持异构平台，主要用于图像分类、识别。Torch:可读性好，其中网络的基本组成为module，方便实现任意网络的构建Theano:实现符号微分，DAG 表达深度网络、符号计算的开拓者，效率较低，主要用于NLP等任务，不适合大规模的深度学习模型训练。百度PADDLE：基于MPI实现分布式深度学习，已经开源了OCR、人脸识别API主要是学术界深度学习科研人员开发，用于新算法探索研究。大部分还不支持模型并行机制、不支持异构平台。腾讯Marina:目前公开的是单机多卡的平台，主要用于语音识别，采用线性拓扑结构通讯，支持模型并行和数据并行机制，还没开放API。GoogleDistBelief:支持数据并行模型并行机制，支持上千节点，主要用于Google内部Gmail，搜索等业务。闭源不利于很好使用生态圈，Google策略有闭源、开源，或二者结合。MXNet:混合符号编程和命令式编程，支持数据并行，不支持模型并行；CNTK:支持数据并行和模型并行，对SGD算法做了优化，并行机制并未开源；TensorFlow:支持数据并行、模型并行，开源的分布式能力逐步增强Spark+Caffe:在深度学习使用Caffe，Spark在大规模参数计算没有优势；Poseidon：结合PetuumSSP能力，但深度学习方面仍依赖于Caffe。主要是Google,微软等大公司推动，目前业界开源较多，在平台并行机制、集群管理、调度、支持算法丰富度等方面还很不成熟。123深度学习平台的演进趋势：从单机到多机，计算能力提升；平台化，可视化，易用性提升；开源+闭研结合，依赖生态圈，构建关键竞争力。开源单机深度学习平台企业闭源深度学习平台开源分布式深度学习平台传统的机器学习研究并不把海量数据作为处理对象，很多算法是为处理中小规模数据设计的，直接把这些算法用于海量数据，效果可能很差，甚至可能用不起来。业界分析：大数据分析与人工智能算法技术发展趋势新的数据种类不断涌现，对大数据集、高维数据的学习，算法关注点转移到分布式可扩展、有效利用非标记数据解决训练数据质量问题（半监督学习）、提高学习结果泛化能力（集成学习）、不同领域进行知识迁移（迁移学习）、特征自动学习（深度学习）等大数据+复杂算法（增强智能性，关注特征自动学习、模型自动选择、知识迁移、算法持续学习能力）1950-1980+1990-2000+50s：基于神经网络的连接主义学习（Perception等）60s：以决策理论为基础的统计学习和强化学习(ID3、VC熵、VC维等)70s：基于逻辑或图结构表示的符号学习80s：从例子中学习，如回归、聚类小数据+复杂算法（关注推理、知识表示准确性）大数据+简单算法（关注算法可扩展性、泛化能力）90s：神经网络学习算法（BP等）、统计机器学习（支持向量机SVM成熟）、关联规则（Apriori、FP-Growth等）00s：可扩展机器学习（分布式LR等）、集成学习（Boosting、Bagging等）、强化学习（Q-learning等）、概率图模型（Markovrandomfields等）深度学习：DBN(DeepBeliefNetwork)、CNN（ConvolutionalNeuralNetworks）、DBM(DeepBoltzmannMachine)、RNN等迁移学习：CoCC、SCL、TrAdaBoost等终身学习：ELLA等中小数据时代大数据时代2010-Page4智能运维（根因分析，问题定界，故障预测，…）最优调度（基于SLA的应用网络调度，在线防护，全网洞察，…）最佳体验（用户体验保障，分片网络，…）分布式数据分析与人工智能平台使能ICT基础设施智能化KeyMessage：1.自学习反馈，持续个性化成长2.多个深度网络联合推理及根因分析3.大规模网络状态分析及最优决策4.360度分析，提供个性化业务定制5.专家融合知识库深度洞察（个性化营销、Cross-sell，up-sell，…）大数据分析与挖掘平台ICT知识库以及海量数据案例库问题单产品资料FAQ……整合深度学习、增强学习和专家知识Page5管理平台运行环境/操作系统/硬件平台知识管理算法APIsService/TaskAPIs知识库预置模型推荐、问答、对话、预测、识别、决策…学习策略集成学习、强化学习、迁移学习数据处理存储、数据预处理、批处理、流处理基本算子分布式框架算子APIs数据切分、通信优化、异构资源调度、模型及参数并行迭代计算、矩阵计算、张量计算基础ML算法、深度学习、图计算、最优化、知识推理智能服务算法框架分布处理平台分布式数据分析与人工智能平台面向ICT领域构建高效分布式大数据分析与人工智能平台，支撑电信、IT、金融、大视频等场景离线大数据分析平台支持UseCase的快速开发。解决UseCase大规模发布与部署问题统一的特征集合管理(基于UseCase沉淀)，一次开发多UseCase共用，减少模型前期数据处理的开发工作量。交互式的数据分析能力，多语言交互式探索能力，提高UseCase数据分析的效率。提高UseCase开发与定制效率UseCase开发完成后，通过Pipeline打包、发布。UseCasePackage发布后，现网快速的导入安装即可运行，整个安装过程实现自动化流程管理。插件式的UseCase管理按需发布统一的统计学/机器学习/数据挖掘算法的管理与开放式算法注入，提高建模的效率。业务模型算法的沉淀，实现模型的代码重用性，减少重复开发。组件式的业务/数学算法沉淀提高模型重用率HadoopRDBSpark,SQLNotebook(R,SQL)其他I层组件PythonLibRLib(DDF)SQLLib算子库管理Pipeline特征工程管理模型管理打包翻译ScheduleAdapterDM/MLStudio(R、SQL)ModelDM/ML生产环境探索环境调度/部署随机抽样算法特征库特征UseCase管理UseCaseAPP化、敏捷开发平台离线批处理计算平台实时流计算平台原始数据采样特征构造模型训练模型部署预测预测结果模型评估采样特征构造模型训练模型部署模型评估预测预测利用离线数据挖掘上的特征构造、模型选择、训练评估，将最终的预测模型发布到流计算平台上。离线训练模型同时可以发布给流计算平台进行实时增量更新流挖掘算子具有模型实时评估能力，可据对模型进行实时更新，应对实时的业务变化。流预测算子可实时加载分布式实时流挖掘平台分布式深度学习平台架构Page8平台算子库通信通道加速）通信通信拓扑优化参数Filter参数压缩模型动态裁剪多线程异步通信静态图切分调度资源调度DAGCPU/GPU异构调度全局参数存储ParameterServer一致性模型传参策略CPU/GPU协同训练平台模型转换云侧和端侧模型管理多源数据管理（原始数据、标注）模型压缩内存优化CPU/GPU并行加速推理平台FasterRCNNCNNRNNDNNLSTMRBMSparseEncoderCRFLR应用算法对象检测图像分割遮挡分离图像/视频源语言编码目标语言解码文本（机器翻译）音频特征提取声谱图解码语言模型语音（语音识别）特征提取排序推荐中文分词CTCBeamSearchGiBRUAttention词嵌入word2vecAvgPool卷积池化AvgPoolGradBiasAddBiasAddGradConv2DConv2DBackpropInputConv2DBackpropFilter矩阵操作DenseMatMulSparseMatMulMatSumL2LossLossSoftmaxCrossEntropyWithLogitsSparseSoftmaxCrossEntropyWithLogitsCTCLossUniformCandidateSampler采样LogUniformCandidateSamplerLearnedUnigramCandidateSamplerGradientDecent优化方法 AdagradAdadeltaAdamRMSPropMomentumFtrlTensor操作ReshapeExpandDimSqueezeRelu激励函数Relu6EluSoftplusSoftsignSoftmaxLogSoftmaxSqrtExpLogTanhSigmoid任务切分背景分离部件分割特征提取高维索引对象跟踪快速查询算法库人工智能算法框架并行AI算法库深度学习并行逻辑推理并行启发式算法并行图计算并行最优化概率统计线性代数积分变换图论机器学习并行高性能数学库业界现状：1.ML算法已成熟，随平台硬件演进持续并行加速2.DL算法理论待突破，训练和预测性能待进一步提升3.图计算、逻辑推理、启发式算法待分布式并行加速支撑大规模数据故障检测工程勘测、质量验收智能助理、应用推荐、智能相册大规模路由优化路径装箱预估、清关单据识别行业+通信+娱乐视频、智能调度应用算法库路径计算多伦对话搜索推荐视频图像OCR语义分析分布式并行数据分析和人工智能算法框架：高性能、低功耗、弹性可扩展构建端云协同并行AI算法库和高性能数学库：向下和硬件结合提升底层基础数学库并行性能、降低功耗；向上和智能应用结合提升复杂场景AI算法性能、自适应能力。高性能分布式并行数学库：面向大数据分析与人工智能场景，实现最佳性能构建高性能CloudBLAS数学库，兼容业界通用芯片，端侧在并行化低功耗自适应上发力，云侧在自适应弹性扩展分布式上发力BLAS是核心控制层，向上对接语言和支撑应用，向下对接硬件分布式计算框架基础数学库CloudBLAS并行算子算法库Spark（网规网优、社交关系分析）Caffe（视频分析）MxNet（视频分析）TensorFlow（自然语言处理、推荐）最优化概率统计图论线性代数机器学习(矩阵加减乘、矩阵分解)深度学习(稠密小矩阵计算)图计算(大规模稀疏矩阵计算)启发式算法(简单、复杂矩阵计算)Hadoop（用户画像）积分变换硬件ARMGPUX86FPGANPUTPU......基础数学库的挑战：1.并行化2.低功耗3.自适应4.弹性扩展以矩阵计算为例:1.大规模稀疏矩阵计算（矩阵切分、分布式计算和通信协同）2.海量稠密张量计算（多核并行、指令级并行）3.复杂矩阵计算分布式（计算强依赖，节点间存在大量的通信开销）大数据分析及人工智能算法分布式并行化挑战已有算法+新分布式并行框架已有算法+新分布式并行框架–诉求：大规模多域网络（20域2k节点）、生存性分析最大8kw次路由计算，计算时间需控制在半小时。新分布式算法+新分布式并行框架新分布式算法+新分布式框架诉求：IP大规模（1万节点，256k业务）单域网络，1分钟内完成全网调优计算。已有算法+已有分布式并行框架已有算法+已有分布式框架诉求：统计计算、机器学习、深度学习数据并行：求和满足交换率和结合律任务并行：任务间局部或者全局计算无依赖对问题进行近似求解，使计算可支持数据并行或任务并行以tag搜图系统和算法：华为手机相册搜索搜索系统由文本提取、索引、搜索提示以及检索等模块组成搜索终端图库时将利用本地Trie树实现搜索提示并给出搜索关键词，调用本地检索模块从本地索引库中搜索图片搜索云端图库时将利用保存在终端的云端Trie树实现搜索提示并给出搜索关键词，发送到云端调用Lucenesearch模块从云端索引库中搜索图片终端搜索系统云端搜索系统端云协同图片搜索算法，端侧降低搜索算法内存使用和功耗，云端提升搜索算法索引更新效率基于Spark对Apriori和FPGrowth算法分布式并行实现大数据频繁项挖掘大数据频繁项挖掘的背景与挑战•公安同行车辆检测，计算1年连续通过多个(>1)卡口的车辆(百亿级)，帮助预判可能的集体策划行为或犯罪行为。同时常见应用包括商场购物篮分析、Web应用关联度计算等。•挖掘频繁项集需爆炸式组合计算，当事务DB(GB)越大、项越多(万以上)、步长(项集长度)越大(>5)，会生成大量的数据集和需要很长的计算时间，对节点的内存开销和运算效率都望待改进与提升。。关键技术•Apriori分布式化：Master将事务DB均分到多个Worker节点，各Worker节点多次扫描部分DB、多次MR计算频繁项，最终汇总到Master节点。•FPGrowth分布式化：阶段1，Master将事务DB均分到多个Worker节点，两次扫描事务DB生成只含频繁项的FPTree；阶段2，将FPTree分散到多个Worker节点进行一次MR计算频繁项，最终汇总到Master节点。•二者都使用先验假设原理，并基于Spark框架采用MR技术对算法进行分布式化。但FPG基于FPTree，扫描DB、MR次数少，因此在数据搜索、节点存储和网络开销上更少，性能更优。测试结果•分布式Spark-fpg性能提升10+倍。•增加计算节点，计算时间趋于减半。FPGrowth分布式过程示意图测试数据：Web关联分析webdocs，1692082条，5267656items，1.6G。测试环境：硬件SUSE3、150G内存、32CPU，软件Spark1.0、Hadoop2.4、JDK1.7、scala2.1；分别在单机、双机集群：1M+2W测试Spark-Apriori、Spark-fpg、Mahout-fpg的性能。基于实时流挖掘进行潜在投诉用户预测Page14基于序列频繁模式挖掘算法自动构造特征，利用流挖掘算法实时预测潜在投诉用户1.基于CloSpan和PrefixSpan算法挖掘频繁项，利用FPHAT流挖掘算法基于序列数据构造132维特征，结合人工经验构造的110维特征，总共242维特征对投诉和非投诉用户进行刻画。2.利用adaptivebagging组合分类算法建模（包括投诉用户和非投诉用户），模型可增量更新3.利用建立好的模型，对新的数据进行预测（预测内容为此用户是否为潜在投诉用户）利用实时流挖掘算法进行用户投诉预测背景•目前开源社区MLlibK-means聚类算法需要指定聚类簇个数，且只能发现“类圆形簇”•DBSCAN是基于密度的聚类方法，不需要指定聚类簇个数，可发现任意形状的簇。可应用于家/工作地聚类、路径分析等场景挑战•DBSCAN对于集合中任意一点p计算eps邻域，需要计算数据集中每个点到p的距离，DBSCAN时间复杂度是O(n2)，随数据量增长，串行算法运行时间会迅速增长。如何对数据按空间切分及加快临界点的计算是分布式并行最大的挑战分布式并行思路•数据分块：对数据按空间区域分层划分(每次选择取值范围最大的维度进行划分),控制数据块最短边(>2eps)、点的数量(>5000)、最大分层(<10),均衡各节点计算任务•Map：对每个数据块中的非边界点判定是否是核心点，读取数据块近邻块中所有点判定边界点是否是核心点，对距离小于eps的密度可达点进行局部聚类•Reduce：一个簇跨越多个数据块，合并结果：边界点的近邻可能位于其他块中，对邻接块边界点重新分块，如果两个点属于两个相邻的块，并且它们的距离小于eps，并且其中至少一个点是核心点，那么这两个簇合并测试结果：3个benchmark数据集上分布式DBSCAN准确率比R中DBSCAN算法略高，2台机器集群上在40万个2维数据点上性能比R快78倍，4台服务器上测试1400万数据算法线性加速大于0.7，且数据量越大算法线性加速比越高集群：1Master+3Slave（Memory：20G,CPU：6cores）测试数据集：2维数据集D-DBSCA线性加速比数据分块处理DBSCAN:提升算法可扩展性/准确率DBSCAN准确率RandomForest:提升模型准确率、泛化能力背景•随机森林基本思想是多棵CART树组合投票决定最后的结果，利用行随机有放回抽样（Bootstrapping）和列随机无放回抽样生成特征。•RF相比单棵树，具有准确度高、泛化能力强等优点，可用于分类和回归业务场景，如离网预测测试结果：模型准确率F1比开源RF提升17%集群：1Master+3Slave（Memory：20G+CPU：6cores）测试数据集：100W用户，300维特征00.20.40.6mlib优化前SPSSmlib优化后F1指标:mlib优化前SPSSmlib优化后精确率和召回率的调和均值：F1=2PR/(P+R)开源MLlibRF算法的问题•对非均衡数据分类准确率比商用SPSS低10个百分点。•列采样采用全局随机采样会导致小样本丢失或者严重失衡。•不支持OOB袋外估计，对特征按重要性排序（提升算法泛化能力）社交圈分析：分布式图挖掘PageRank算法Page17基于用户间通话记录，利用PageRank算法计算用户影响力，分布式PageRank算法性能比Graphx快2-3倍。基于GIM-VLI行列分块提升矩阵乘算法性能。GIM-VLI优点：内存占用少，计算速度快，网络传输小，适用于大规模的图计算。用户分群：分布式KernelSVM分类算法Page18简介：通过位置、XDR数据，结合百度POI数据，获取用户在美容院、运动场所、夜店机场等特定场所的驻留时长、上网使用时尚APP流量等信息，构造年轻时尚女性、出租司机、体育运动爱好者的特征；利用KernelSVM进行用户分群，算法准确性比LinearSVM算法提高10%

                    本文档为【分布式数据分析与人工智能平台及算法实践】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：￥17.6 已有0 人下载

立即下载

分布式数据分析与人工智能平台及算法实践

你可能还喜欢