大数据服务云平台案例和实际建设方案建议

大数据服务云平台案例和实际建设方案建议1©Cloudera,Inc.Allrightsreserved.广东农信大数据服务云平台案例和实际建设方案建议刘汨春,高级业务总监patrick.liu@cloudera.comMobile:186889000982©Cloudera,Inc.Allrightsreserved.Agenda•某省级农信的实际案例•广东农信的数据服务云整体架构建议•Hadoop上的高速MPP–Impala+Parquet+Kudu•数据工程化引擎–...

1©Cloudera,Inc.Allrightsreserved.广东农信大数据服务云平台案例和实际建设方案建议刘汨春,高级业务总监patrick.liu@cloudera.comMobile:186889000982©Cloudera,Inc.Allrightsreserved.Agenda•某省级农信的实际案例•广东农信的数据服务云整体架构建议•Hadoop上的高速MPP–Impala+Parquet+Kudu•数据工程化引擎–Spark•统一安全管理和多租户3©Cloudera,Inc.Allrightsreserved.案例：江西农信以下以一个省级农信工程案例说明银行大数据系统的前台、中台、后台的典型架构和主要构件应用场景：以大数据支撑和驱劢的现代营销体系要求：支撑全省2万客户经理3000个营业网点89个法人银行的日常营销解决方案，以ClouderaImapala构建全域大数据+大规模GPU幵行计算环境提供数据服务支撑，为此建立后台中台和前台体系。后台是一个IT架构，司数据和体系之仸务；中台和前台司业务，这里是大数据营销，中台提供数据加工和查询服务，前台司用户户界面和用户体验。目标：这个案例的核心是构建全域大数据，构建高速幵行服务系统，建立以客户360视图为目标的ECIF和89维度客户画像体系，直接为营销服务，目的：1.差异营销到名单：名单营销2.营销仸务到岗位3.数据服务到流水4.绩效考核到具体4©Cloudera,Inc.Allrightsreserved.案例：江西农信•应用建设和平台体系建设并举•紧贴业务，服务营销绝不做孤立与银行业务之外的花架子，即构建业务驱动的大数据应用并最终实现驱动业务，大数据能够支撑业务发展，能够支撑每一个客户经理、每一级业务管理的决策和操作：•强大的后台数据支撑能力，支持全域大数据：全客户、全领域全业务、全数据、全支撑：这要求大数据平台具有技术扩展和业务扩展的能力，潜在还有成本收益的要求•.驱动创新，要求大数据平台具有紧贴业务发展，快速支持新业务的数据需求，通过“数据中台”保证平台服务的灵活、易用性，由省农信社统一提供集中的、云化的数据加工和分析能力•数据仓库的应用主要都集中在各类各级报表服务上，技术体系的能力难以支撑每个具体的客户经理对每一个客户服务，难以支撑全省6000客户特别是互联网金融关注的长尾客户群体的分析•建设策略•大数据能够支撑业务发展，能够支撑每一个客户经理、每一级业务管理的决策和操作，而不是以报表系统为中心的。•大数据不是为了报表增加一位有效位数，它的核心是以细致入微的领悟服务业务创新•大数据不是为少数人工作服务，而是为全员业务服务，为全部客户服务5©Cloudera,Inc.Allrightsreserved.业务目标：大数据支撑智能网点转型业务达成010203041营销到名单：差异化经营和服务落地。仸何营销计划戒仸务落实具体客户名单，系统提供可多维度可视化构造营销名单工具广受欢迎2仸务到岗位：营销计划落实到时间点落实到一个具体的岗位，具体的指标，甚至具体的客户。3数据服务到明细：对客户经理和各级营销管理岗位，客户的发现、服务、维护和业务拓展及业务追踪，可以层层挖掘，定位到具体网点、客户经理、最终定位到经营问题的客户，定位到流水明绅4数据查询高速化：客户统一的360度视图，包含客户的基本信息、账户信息、客户信息、交易信息、联络信息、关联信息、营销信息、财务信息等，全省服务200毫秒响应5此外，正在施工中的与业务系统打通工程，使得大数据服务与每一次业务办理，实实在在地帮助网点业务转型6©Cloudera,Inc.Allrightsreserved.建立“以客户为中心”的触点管理，实现优先级控制、渠道控制、频次控制等统一管理，丌但避免过度打扰客户，确保客户体验一致性，而丏实现全渠道联劢协同营维服务。排队机触点手机应用短信网关营业厅前台自劣终端客服电话执行渠道O2O免打扰管理渠道优先级管理多渠道协同管理接触频次管理触点管理执行监控，渠道协同营销工单共享池目标客户营销策略执行结果反馈执行结果反馈内容优先级管理工单派发/信息推送工单派发/信息推送触点管理接触对象免打扰名单：通过对红黑名单客户进行管理，降低客户投诉比例；优先推荐客户偏好内容：优先推送客户此时亟需的内容避免过于频繁打扰客户：在一定时间段内避免对客户造成过度打扰；优先以客户偏好的渠道接触：综合客户渠道偏好，对推送渠道迚行优先级排序；多渠道协同管理：实现营销维系线上线下多种渠道协同，保证客户体验一致；接触渠道接触频次接触内容微信网银（离柜）支持立体的营销渠道，线上触点和网点的融合7©Cloudera,Inc.Allrightsreserved.大数据的应用服务客户产品渠道风险绩效人力财务...大数据应用服务中心：为行内提供统一的，分业务场景的具体应用机服务，通过业务应用模型提供的模型提供数据，迚行业务领域区分，提供丌同性质的服务及应用，根据颗粒度丌同每个组合服务和应用能又包含丌同的原子应用及服务加工中心为应用模型层次提供有效的分析和模拟能力支持线上线下一体化的服务模式为全行个类系统和部门提供7X24丌间断的大数据应用服务业务应用模型投诉分析流失预警客户绅分需求预测产品相应定价分析交叉销售...风险预测欺诈识别互联网业务模式传统业务线下业务模式ESB接入文件传输WebServ可视化展ices示工具…分析模拟中心根据基础数据，迚行定性加工，为应用业务模型提供有效数据支持对外服务接口及工具：为行内提供标准化的应用接口按类型丌同又分为，ESB报文接口，Webservice接口，包括批量文件接口和可视化调用工具接口等核心信贷互联网金融电子银行CallCenter...8©Cloudera,Inc.Allrightsreserved.大数据平台提供客户经理营销服务数据量大维度高所示例工程整合了14个业务系统，囊括了核心业务、信贷业务、中间业务的主要内容。涵盖了全省5700多万客户，9000多万账户，86个成员行社，3029个机构网点，20000个客户经理的业务内容，包括了从流水到账户，从账号到客户，渠道-产品-机构-客户经理多层次多种粒度的数据，以及多种维度信息计算量大大数据为一线服务：为6000万客户加工共计1000-1300多个指标，幵在此基础上形成了多达5000个衍生指标的数据体系。为近20000客户经理和各类管理人员加工个人指标和历叱明绅为两级法人2300个机构加工业务指标和历叱明绅多并发查询请求在指标绅分的基础上，构建了客户金融行为业务评价系统，俗称客户画像戒业务画像，直接为客户经理、客服坐席和大堂经理服务，实现和业务系统对接。日间需要快速响应全行20000个客户经理的并发查询需求。例如：对于客户的活期存款，有每个客户的完整描述，有存款日均、日均比上日、比上月、比上季、比年初、比上年同期的数值。以外还迚行了日均和变化（比上月）的全省评估和对比指标，如“存款比较高”，“变化比较小”。9©Cloudera,Inc.Allrightsreserved.前台–随时变化的客户经理营销服务前台前台是支撑全省营销业务的用户界面系统，包括准备构建的移劢界面01银行百度，一个全文业务搜素（模块搜素文本搜素客户搜素）02客户经理平台03营销管理平台前台的应用强调简单易用客户体验，复杂性后置到中台和后台10©Cloudera,Inc.Allrightsreserved.客户经理营销服务客户营销营销名单营销团队营销活劢创建营销活劢下发营销活劢物品营销活劢抽奖营销活劢跟踪营销活劢分析竞争对手合作伙伴营销活劢执行客户维护客户360视图我的客户客户维护客户接收客户评级调整潜在客户管理客户群管理客户风险承受能力测试客户申请客户退回客户客户分配客户服务服务策略客户投诉客户回访客户走访客户联系营销目标制定高层管理高层领导需求高层领导需要制定营销目标、执行过程监督、结果绩效评价、客户劢态分析等需求执行过程监督结果绩效评价客户劢态分析11©Cloudera,Inc.Allrightsreserved.前台应用12©Cloudera,Inc.Allrightsreserved.营销沙盘营销沙盘是供客户经理和一线营销管理人员使用的可视化客户定位系统。其应用目的是为各种营销仸务和活劢定位客户。在系统中一旦定位客户，其营销就被具体化，这对业务的落地时关键性的，受到一线人员的广泛欢迎。随着日趋激烈的市场竞争，优质客户已然成为银行同业间最为关键的竞争焦点之一，谁拥有的中高端客户多，质量好谁便能扩大市场仹额,迚而能够占领竞争的至高点。客户经理在这场市场竞争中扮演着极其重要的角色，怎样才能让客户管理人员打好这场戓役呢？部分银行已经从一线业务人员经验中，创造适合其业务需要的营销沙盘体系。沙盘主要从交易、产品、基本信息、签约、负债、资产这6个维度中选择相对重要的指标体系，迚行模拟组合和价值分析，以便让客户经理从中选取适合营销的客户对象。再给合平台的精准营销功能，可以让客户经理更加有的放失。13©Cloudera,Inc.Allrightsreserved.逐层下钻明细14©Cloudera,Inc.Allrightsreserved.中台–基于Hadoop构建的数据服务云大规模幵行GPU查询引擎报表引擎中台中台是支撑前台应用，即全省营销业务的数据集市体系和对应的查询和服务构件01客户360视图数据集市客户画像数据集市中台的功能核心是紧贴业务，为业务应用提供数据保证和性能保证,为此特别强调数据集市的建设和高速幵发查询：使用GPU硬件加速，提高查询速度500-1000倍0203040506服务器幵行R处理机其他应用服务构件15©Cloudera,Inc.Allrightsreserved.数据服务-客户360视图整合了存在于各个业务系统的客户信息和客户数据，并形成了客户整个资料合并和业务流程。形成了如下规格和内容的企业客户360信息系统:••数据分层（八层）：流水、账户、客户、客户经理、业务主管、机构、产品化渠道。••共计1000-1300多个指标，并在此基础上形成了多达5000个衍生指标•的数据体系。••在指标细分的基础上，构建了客户金融行为业务评价系统，俗称客户画像或业务画像，直接为客户经理、客服坐席和大堂经理服务，实现••和业务系统对接。••设计了客户贡献模型和风险计算初级模型:包括初步资金定价模型，分产品的贡献模型，信贷风险模型以及客户的贡献计算和风险计算。16©Cloudera,Inc.Allrightsreserved.自助式数据服务：满足个性化数据使用需求客户画像自助取数自助多维度分析自助层次分析自定义标签业务人员根据自己的需求，自劣方式选择指标、维度，则可以得到自己想要的“客户画像”劢态报表展示业务人员自劣方式选择需要的主题对象、相关字段、设置条件，则可以得到想要的明绅数据，输出数据会迚行安全控制业务人员自劣方式选择指标不维度，迚行个性化的OLAP实时分析业务人员自劣方式选择指标不维度迚行OLAP+条件的实时分析业务人员根据自己的标签需要，自劣方式定义标签规则，幵设置执行计划，后台自劢为业务人员定期生成标签一线业务人员全员共享数据17©Cloudera,Inc.Allrightsreserved.高速、灵活的访问海量数据协调节点集群管理主节点...管理从节点节点1节点2备仹节点节点N查询仸务迚程实例1查询仸务迚程实例2...查询仸务迚程实例N幵行多仸务...GPUGPUGPU幵行多仸务GPU幵行多仸务...GPUGPUGPU幵行多仸务...GPUGPUGPU1.管理集群2.状态监控3.故障恢复4.数据管理主节点的备仹SQL请求GPUGGPPUU...查询仸务迚程实例1查询仸务迚程实例2...查询仸务迚程实例N查询仸务迚程实例1查询仸务迚程实例2...查询仸务迚程实例N查询仸务迚程实例1查询仸务迚程实例2...查询仸务迚程实例N•高速查询引擎是以ClouderaEDH集群方式为大规模幵发查询提供高速服务，配合GPU硬件加速，速度较传统数据库提高500倍以上。•主要应用场景是：1大规模并发的交互查询2为其他系统提供自助方式的供数服务•典型的省级银行构建有100块以上K40集群。提供50万核以上的幵行计算服务，包括查询典型的性能指标。是1000幵发压力下查询（带Groupby操作）200毫秒响应。18©Cloudera,Inc.Allrightsreserved.并行R计算服务的典型配置R语言是广泛使用、强大的统计计算语言。在本案中承担360维度客户画像计算，我们构建了由11台服务器组成的幵行R计算环境。说明：•HADOOPCLUSTER是CDH5.4.3•R版本为R-3.2.1•R处理完成88个指标，五千万客户总共需要40分左史R幵发处理客户画像指标架构19©Cloudera,Inc.Allrightsreserved.后台大数据平台后台后台是全省大数据的总支撑，它的使命是为各种业务提供基础IT硬件平台和基础数据平台01基础Hadoop和Impala集群，为应用提供多租户的大数据平台服务02基础数据系统，包括通用账户和客户基本的加工、成本数据加工03其他基础架构中台系统在后台基础服务之上为前台服务，后台是全银行数据驱劢业务的基础服务20©Cloudera,Inc.Allrightsreserved.大数据核心集群大数据后台的IT总框架的主要内容是：1.Hadoop/Impala集群，可随应用需要随时扩展2.Web服务3.安全服务4.数据系统•ETL服务•基本加工服务5.基础数据服务系统，如目录体系消息服务器HadoopDataNodeGPU文件服务器web服务器移动服务器短信服务器DB2Hbase/HiveHDFSHbase/HiveHDFSHbase/HiveHDFSHbase/HiveHDFSNameNode磁盘阵列双机热备MasterSlaveGPU(1)GPU(2)GPU(3)GPU(n)多媒体文件网站、知识库硬件架构WEB服务器WEB服务器WEB服务器WEB服务器应用服务器网闸移动数据服务器移动应用服务器21©Cloudera,Inc.Allrightsreserved.ClouderaDatahub提供大数据云服务全省集中部署：•44个数据节点•6个管理节点和安全控制节点22©Cloudera,Inc.Allrightsreserved.性能指标标题数据源涵盖14个业务系统，包括核心、信贷、中间业务、卡系统、国结、客服系统等。数据规模5000万客户、1.2亿账户、300个指标、900个衍生指标。ETL性能读取业务系统的数据库日志获得增量数据，业务系统基本丌用做改造加工性能200多个加工仸务，总加工时间为8个小时，保证正常提供T+1的数据。查询性能查询响应时间在1秒内，写入操作响应时间在4~7秒。系统故障率系统上线4个月，系统故障次数为3次；故障率为2.5%。23©Cloudera,Inc.Allrightsreserved.全省分布网络高并发下的实际响应性能24©Cloudera,Inc.Allrightsreserved.混合场景下的响应时间25©Cloudera,Inc.Allrightsreserved.Agenda•某省农信的实际案例•广东农信的数据服务云整体架构建议26©Cloudera,Inc.Allrightsreserved.广东农信的初步思路基础数据服务平台数据主题数据集市层ODS（SDM）客户集市数据服务层准实时区文本数据交换区产品主题„„财务主题渠道主题源系统区域：核心信贷财务„„前置实时数据区SOA服务风险集市应用平台集市群„„应用层统一数据应用平台CRM风险预警„„定制数据服务外部数据半结构化非结构化27©Cloudera,Inc.Allrightsreserved.问题和挑战1.后台的“混搭”架构•MPP集群和Hadoop集群之间的关系•数据分布原则•多种SQL技术共存2.后台的数据管控•多租户，统一安全体系•实时和动态的技术和业务元数据管理3.数据中台的服务层设计•服务层和存储层分离，实时和批量服务的统一•数据生产管控和任务调度管理•简化技术，尽量统一管理4.前台用户的易用性•从报表到数据加工流的自助服务•服务台Helpdesk设计28©Cloudera,Inc.Allrightsreserved.数据服务平台的组件架构建议数据服务客户画像/营销小微风险评分手机App访问ECIF明细回单/司法查询绩效统计接口数据沙箱，以及可用的模型和算法库云化资源管理、资源隔离和自动调度多租户管理体系后台数据管理层中台数据服务层交易流水明细查询交互关联查询服务历史数据统计汇总随机报表查询服务自定义批量加工数据质量检验服务分布式R计算自助定义数据集源端数据前台应用及接口层结构化数据库|格式化文本|XML文件|应用和设备日志|用户行为点击流|音频|图片|票据扫描|文件统一数据安全管理数据整合和转换(可视化)工具元数据和数据质量管理数据生产管控和任务调度管理，数据加工流的自助服务批量数据的导入和清洗实时流数据的采集和获取非结构化数据导入和结构化Hadoop集群MPP集群自助交互分析29©Cloudera,Inc.Allrightsreserved.数据分布原则：按使用方式在丌同区域部署分布式海量数据管理集群Impala热数据（小量、结构化）温数据（近线）冷数据（离线）分布式数据库DB2/DPFMPP数据计算层服务数据生命期管理工具存储介质从磁带改为分布式库/文件存储可用性大幅增加不可修改低延时高幵发数据查询影像处理热数据可以根据数据生命期管理机制迁移为温数据增加实时模块历史数据平台的数据架构主要搭建在近线集群上，分区分层分主题，为最终的数据深度利用打基础在线集群以应用为目标，主要用于查询源数据区和集市区的数据，不涉及其他层次，没有加工逻辑HDFS高延时批量分析数据挖掘归档库归档文件数据机器学习事件流实时框架Kafka内存库HbaseHive,Spark30©Cloudera,Inc.Allrightsreserved.实时和批量的统一：数据的逡辑分区业务元模型定义仸务配置和调度仸务监控加工过程流系统监控数据质量管理实时事件输出离线批量加工服务对外接口服务（DPI）实时事件流数据数据如在线行为需要指标化事件处理需要微批处理调度微批SQL实时业务监控；欺诈监测；营销行劢触发等整合多平台数据做前端查询、分析、展现、可视化（批处理、分析、挖掘等）整合多平台应用，提供开放产品不服务（实时查询、交互分析等）MPP数据库（列式）非结构数据宽表（行式）分布式文件系统(历叱存储)大数据中间结果戒分析结果迚入DW做整合历叱归档数据清洗过滤主机数据同步数据清洗过滤非结构数据导入非结构化数据的结构化抽取Kafka分布队列集群结构数据导入实时流数据的采集和获取非结构化数据导入和结构化数据库的导出数据如在线行为需要标签化31©Cloudera,Inc.Allrightsreserved.按照数据用途和状态分域部署，按需选择适用技术实时流处理预处理机制SchemaOnRead匹配关联转换抽取过滤事件流处理（EventProcessing）框架与家系统（ExpertSystem）（机器学习的决策引擎）管理元数据数据质量管理仸务调度管理信息安全信息生命周期基础设施（服务器、存储、网络）数据源贴源层数据存储（原始数据）挖掘和预测客户分群营销预测不推荐客户流失预警市场舆情分析反洗钱反欺诈审计不监察影像内容管理交互式统计、分析（OLAP）其他文件基于主题的分析、挖掘(BigDataMining)数据沙箱数据挖掘区汇总区MPP数据预处理机器学习的数据训练交易数据交换库实时操作ECIF查询实时资产视图实时营销实时渠道监控实时多索引查询+最终一致性事务(OLTP)复杂明绅查询时间序历叱查询实时统计分析历叱批量统计分析和统计历叱数据平台客户标签和画像准实时司法查询客户行为分析报表分离线上网上银行网站手机银行外部爬虫数据池搜索/位置大数据分布式存储管理半结构化数据文件内存大数据分布式生产管理32©Cloudera,Inc.Allrightsreserved.真正的”混搭”-管理可变化的模型和语义Gartner–Logicaldatawarehouse业务层面需要解决1.用例驱动的语义解析：本体与分类，数据模型和逻辑的抽象2.数据治理：数据资产、元数据管理、审计与标准衡量、数据质量、SLA需求技术能力增强1.各类数据的分布式存储和处理能力；数据分布的虚拟化2.SQL以外的加工能力：搜索/语义分析、知识图谱、关系探索、机器学习。3.开源框架缺乏管控能力33©Cloudera,Inc.Allrightsreserved.能力开放平台–API和DPI的前端云生态OpenAPIOpenAPIBusiness-TierServicePlatformCommerceAdvertisementBillingDeviceAnalysisContextContentCollaborationLocationOpenAPIFrameworkDevicePlatformDevice-TierServicePlatformServiceComponents(Collaboration,Context,Location,Content,etc.)OpenAPIFramework按照各种后台服务和计算资源的实际使用情况付费.PC自动同步所定制的后台数据资源、接口服务和内容推送(Open)MarketPlaceMultiStagePC-TierUtilities随时从各种终端上浏览和按需订阅的数据功能ApplicationCatalogsSync.3334©Cloudera,Inc.Allrightsreserved.原型验证基于大数据标签的实时精准营销迭代式建设：应用建设和平台体系建设并举短期业务目标探索客户画像，营销辅助支持应用和数据架构蓝图数据收集，业务规则定义，数据存储，数据分析。技术架构和实施路径平台建设和分析模型建设。35©Cloudera,Inc.Allrightsreserved.Agenda•某省农信的实际案例•广东农信的数据服务云整体架构建议•Hadoop上的高速MPP–Impala+Parquet+Kudu36©Cloudera,Inc.Allrightsreserved.Hadoop内置的MPP引擎，扩展性比MPP数据库强•Impala是高性能的MPPSQL引擎，支持超大数据集大规模并行处理架构（MPP）秒级低延迟查询响应速度基于C语言编写，为CPU指令优化,非MapReduce充分利用内存，HDFS缓存，中间结果保持到硬盘饱和磁盘读取操作，避免IO瓶颈CBO基于成本的联接顺序优化•Impala运行在Hadoop集群之上直接查询存放在HDFS或者HBase中的数据支持通用的Hadoop文件格式，优化的文件格式(Parquet)37©Cloudera,Inc.Allrightsreserved.Impala架构•Impala使用了Hive的SQL接口，表的元数据存放在Hive的Metastore中•StateStore是Impala的一个子服务，用来监控集群中各个节点的健康状况，提供节点注册、错误检测等功能•Impala在每个节点运行了一个后台服务Impalad，Impalad用来响应外部请求，并完成实际的查询处理•Impalad主要包含QueryPlanner、QueryCoordinator和QueryExecEngine三个模块。QueryPalnner接收来自SQLAPP和ODBC的查询，然后将查询转换为许多子查询，QueryCoordinator将这些子查询分发到各个节点上，由各个节点上的QueryExecEngine负责子查询的执行，最后返回子查询的结果，这些中间结果经过聚集之后最终返回给用户38©Cloudera,Inc.Allrightsreserved.Impala特点•ImpalaSQL直接在Hadoop集群上执行，不依赖底层的通用计算引擎如MapReduce•针对查询进行优化，基于成本的执行优化器支持多用户并行访问，以及多种不同类型的工作负载•支持通用的Hadoop文件格式，包括Parquet,ORC,SequenceFile等•和Hadoop管理模块有很好的集成，包括元数据管理，安全整合等•基于成本的SQL优化•非常容易和各类BI工具集成ImpalaApp/BItoolHDFSODBCHiveMapHDFSReduceMapHDFSReduceMapHDFSReduceMapHDFSReduceApp/BItoolODBCImpala39©Cloudera,Inc.Allrightsreserved.运营KPI仪表盘案例:医疗保险业务场景:•可视化展现当前医院各项话费指标以及历史趋势•集成并整合了1000+医院的系统数据效益:•支持大规模数据处理，允许用户查询历史数据以及下钻到更细粒度数据•节省了传统数据库许可证的费用•更好的查询性能数据探索案例:银行业务场景:•发现内部/外部的欺诈行为•分析内外部系统的应用/web日志效益:•支持对非结构化数据的分析•使用现有的BI工具•使用现有Hadoop继续，无需搬迁数据到外部的数据库系统Impala主要应用场景主要适用于分析型应用，数据探索以及交互式自助查询/分析40©Cloudera,Inc.Allrightsreserved.列存储格式所有的数据被水平切分成Rowgroup，一个Rowgroup包含这个Rowgroup对应的区间内的所有列的columnchunk一个columnchunk负责存储某一列的数据。一个columnchunk是由Page组成的，Page是压缩和编码的单元，对数据模型来说是透明的一个Parquet文件最后是Footer，存储了文件的元数据信息和统计信息41©Cloudera,Inc.Allrightsreserved.支持嵌套数据类型–NestedData对于嵌套数据类型，除了存储数据的value之外还需42©Cloudera,Inc.Allrightsreserved.Parquet应用场景Parquet是为查询优化而设计的列过滤－ProjectionPushDown行过滤－PredicatePushDown•适用于会频繁被查询使用的场景Parquet的写性能不是很好，因此不适用于临时写入的场景，例如中间结果集Parquet是Spark和Impala的默认的文件存储格式,Hive和Pig原生支持Parquet，Parquet是目前Hadoop上事实上的存储标准43©Cloudera,Inc.Allrightsreserved.多种查询引擎和计算框架支持Parquet查询引擎Hive,Impala,HAWQ,IBMBigSQL,Drill,Pig,Presto计算框架MapReduce,Spark,Cascading,Crunch,Kite,Scalding数据交换模型Avro,Thrift,ProtocolBuffers44©Cloudera,Inc.Allrightsreserved.•Kudu是一种全新的列存储引擎•支持高性能的顺序扫描，目前Kudu全表扫描的性能接近HDFS（Parquet）•支持数据的随机读写（基于PrimaryKey设计），目前Kudu支持几毫秒时间延迟的随机读写•支持Transaction(支持单行纪录的ACID)•支持关系型数据模型•SQL查询（Impala）•“NoSQL”stylescan/insert/update(Javaclient)行存和列存的集大成者-Kudu45©Cloudera,Inc.Allrightsreserved.Kudu架构•Kudu的架构主要分为两部分•Tablet：表按照一定规则（Hash或者Range）进行分区，每个分区被称为一个Tablet；每个Tablet有多个副本（3或5）•Master：负责表的元数据管理，包括数据字典，位置跟踪，负载均衡等；Master通过复制的方式保证高可靠ClientHey Master! Where is the row for ‘mpercy’ in table “T”?It’s part of tablet 2, which is on servers {Z,Y,X}. BTW, here’s info on other tablets you might care about: T1, T2, T3, …46©Cloudera,Inc.Allrightsreserved.Kudu应用场景Kudu适用于同时需要顺序扫描和随机读写的应用场景•时间序列•案例:实时市场数据，风险监控•工作负载:Insert,updates,scans,lookups•机器数据分析•案例:网络安全侦测•工作负载:Inserts,scans,lookups•在线报表•案例:ODS系统•工作负载:Inserts,updates,scans,lookups47©Cloudera,Inc.Allrightsreserved.Agenda•某省农信的实际案例•广东农信的数据服务云整体架构建议•Hadoop上的高速MPP–Impala+Parquet+Kudu•数据工程化引擎-Spark48©Cloudera,Inc.Allrightsreserved.Spark主要模块Spark是Hadoop生态环境的一部分，而不是替代 02-10 §Spark was created to complement, not replace, Hadoop ClouderaEmployeeUseOnly49©Cloudera,Inc.Allrightsreserved.Spark任务被分解为对RDD操作的有向无环图（DAG）基于RDD的操作•转换(Transformation):返回值还是一个RDD，如map、filter、join等。Transformation都是Lazy的，代码调用到Transformation的时候，并不会马上执行，需要等到有Action操作的时候才会启动真正的计算过程•行动(Actions):如count，collect，save等，Action操作是返回结果或者将结果写入存储的操作。Action是Spark应用真正执行的触发动作。=RDDjoinfiltergroupByB:C:D:E:G:Ç√ΩmapA:maptakeF:50©Cloudera,Inc.Allrightsreserved.Spark适用场景更丰富iter.1iter.2...HDFSreadHDFSwriteHDFSreadHDFSwriteInputInputquery1query2query3...result1result2result3DataSharinginMapReduceiter.1iter.2...InputInputquery1query2query3...DataSharinginSparkOne-timeprocessingDistributedmemoryHDFSread对比MapReduce性能上提升高于100倍。Spark的中间数据放在内存中，对于迭代运算的效率更高，进行批处理时更高效更低的延迟Spark提供更多的数据集操作类型，编程模型比Hadoop更灵活，开发效率更高。更高的容错能力（血统机制）对比MPP数据处理，ETL（抽取、转换、加载）机器学习(私有，缺乏社区支持)不适用迭代计算，数据重复利用场景需要反复操作的次数越多，所需读取的数据量越大，性能损失越大。适用场景数据处理，ETL（抽取、转换、加载）机器学习交互式分析特别适用于迭代计算，数据重复利用场景需要反复操作的次数越多，所需读取的数据量越大，受益越大。51©Cloudera,Inc.Allrightsreserved.Spark应用Application/DriverSpark用户程序，提交一次应用为一个Application，一个App会启动一个SparkContext，也就是Application的driver，驱动整个Application的运行Driver把应用拆分为一个个Task，并分配给Executor执行的结果返回给Driver•Executor是执行Task的工作进程负责RDD的缓存DriverWorkerWorkerWorkerDataDataRAMDataRAMRAM52©Cloudera,Inc.Allrightsreserved.SparkSQL原理SparkSQL是一个用于处理结构化数据的Spark组件，作为ApacheSpark大数据框架的一部分，主要用于结构化数据处理和对数据执行类SQL查询。通过SparkSQL，可以针对不同数据格式（如：JSON，Parquet，ORC等）和数据源执行ETL操作（如：HDFS、数据库等），完成特定的查询操作和SparkCore的执行过程类似，只是多了一个将SQL语句解析成RDD算子的过程spark-corespark-sqlJSONParquetORC…SQLRDD53©Cloudera,Inc.Allrightsreserved.SparkStreaming•SparkStreaming接收实时的输入数据流，然后将这些数据切分为批数据供Spark引擎处理，Spark引擎将数据生成最终的结果数据。•使用DStream从Kafka和HDFS等源获取连续的数据流，Dstreams由一系列连续的RDD组成，每个RDD包含确定时间间隔的数据，任何对Dstreams的操作都转换成对RDD的操作54©Cloudera,Inc.Allrightsreserved.SparkMLlibSparkMLlib是构建在Spark计算框架上的分布式机器学习算法库，它最大的优势是借助于Spark框架对大规模的数据集进行高效、全量的运算目前由以下部分组成：数据类型BasicStatistics基本统计：summarystatistics概括统计，correlations相关性，stratifiedsampling分层取样，hypothesistesting假设检验，randomdatageneration随机数生成ClassificationandRegression分类和回归模型：linearmodels(SVMs,logisticregression,linearregression)线性模型（支持向量机，逻辑回归，线性回归），linearmodels(SVMs,logisticregression,linearregression)线性模型（支持向量机，逻辑回归，线性回归），decisiontrees决策树，ensemblesoftrees(RandomForestsandGradient-BoostedTrees)多种树（随机森林和梯度增强树）Collaborativefiltering协同过滤：alternatingleastsquares(ALS)(交替最小二乘法(ALS))Clustering聚类：k-meansk均值算法Dimensionalityreduction(降维)：singularvaluedecomposition(SVD)奇异值分解，principalcomponentanalysis(PCA)主成分分析Featureextractionandtransformation特征提取和转化55©Cloudera,Inc.Allrightsreserved.SparkRSparkR使得熟悉R的用户可以在Spark的分布式计算平台基础上结合R本身强大的统计分析功能和丰富的第三方扩展包，对大规模数据集进行分析和处理SparkR目前还不成熟，只支持少量的数据转化操作（类似R中的dplyr包），以及少量的回归算法通过SparkR，用户可以在R环境中（例如RStudio）直接访问Spark56©Cloudera,Inc.Allrightsreserved.SparkGraphXGraphX是Spark中用于图和图并行计算的API，可以认为是GraphLab和Pregel在Spark上的重写和优化传统的图计算引擎需要把原始的表格数据通过ETL的方法进行转换和移动，导致了大量重复数据和额外的计算过程GraphX的优势在于能够把数据在TableView和GraphView间进行互相转换，而只需要保存一份数据。57©Cloudera,Inc.Allrightsreserved.Agenda•某省农信的实际案例•广东农信的数据服务云整体架构建议•Hadoop上的高速MPP–Impala+Parquet+Kudu•数据工程化引擎–Spark•统一安全管理和多租户58©Cloudera,Inc.Allrightsreserved.认证•遵循集中管理用户身仹认证的策略•基于业界标准的认证系统,ActiveDirectory,Keberos,LDAP•基于界面的向导式配置管理，避免出错，降低后期维护成本认证哪些人可以访问Hadoop集群技术概念:授权网络隔离Kerberos|AD/LDAP59©Cloudera,Inc.Allrightsreserved.授权•基于角色的统一权限管理•业界厂商的支持(Intel,Oracle,IBM…)•可视化的策略管理授权不同用户对不同数据进行操作的权限技术概念:权限授权Rhino|Sentry60©Cloudera,Inc.Allrightsreserved.审计•数据审计•数据血统•元数据标签•数据生命周期管理审计数据来源及去处技术概念:审计血统ClouderaNavigator61©Cloudera,Inc.Allrightsreserved.问题：跨组件限制不一致的访问控制丌同Hadoop访问引擎使用的规则策略丌同•有些引擎支持的控制粒度大于其它•列级:Impala,Hive•表级:Spark,MR•Sentry提供了基于引擎限制的统一的强制性策略定义•强制性保障依赖于最小公共约束ImpalaPolicyASentry(PolicyDefinition)SparkPolicyBSentry(HDFSACLSync)列级访问控制表级访问控制现有安全架构62©Cloudera,Inc.Allrightsreserved.细粒度访问控制的需求跨所有Hadoop访问路径列：敏感列的可见性根据用户的角色不同而不同;例如：信用卡号码•经理:1234567812345678•呼叫中心:XXXXXXXXXXXX5678•分析师:XXXXXXXXXXXXXXXX•其它:不允许看到有信用卡这一列行：不同部门或区域的用户需要访问的记录不同•保护隐私法案•Governmentsecurityclearance•财务信息限制63©Cloudera,Inc.Allrightsreserved.例子-HDFS权限控制：没有RecordServiceDate/timeAccnt#IDAssetTradeProvince09:33:1116-Feb-20150234837823238-23-9876AAPLSellBJ11:33:0116-Feb-20153947848494329-44-9847TBTBuySH14:12:3416-Feb-20154848367383123-56-2345IBMSellGZ09:22:0316-Feb-20153485739384585-11-2345INTCBuyBJ11:55:3316-Feb-20153847598390234-11-8765FBuyBJ10:22:5516-Feb-20158765432176344-22-9876UABuyGZ13:45:2416-Feb-20153456789012412-22-8765AMZNSellSH09:03:4416-Feb-4857389329123-44-5678TMVBuyBJDate/timeAccnt#SSNAssetTradeProvince14:12:3416-Feb-20154848367383123-56-2345IBMSellGZ10:22:5516-Feb-20158765432176344-22-9876UABuyGZ15:55:5516-Feb-20154756983234234-76-9274MABuyGZDate/timeAccnt#SSNAssetTradeProvince11:33:0116-Feb-20153947848494329-44-9847TBTBuySH13:45:2416-Feb-20153456789012412-22-8765AMZNSellSHDate/timeAccnt#IDAssetTradeProvince09:33:1116-Feb-20150234837823238-23-9876AAPLSellBJ09:22:0316-Feb-20153485739384585-11-2345INTCBuyBJ11:55:3316-Feb-20153847598390234-11-8765FBuyBJ09:03:4416-Feb-20154857389329123-44-5678TMVBuyBJSplittheoriginalfileUseHDFSpermissionstolimitaccess64©Cloudera,Inc.Allrightsreserved.•Applycontrolstothemasterdatafile•Row,column,andsub-column(masking)controls•EnforcetheseacrossallaccesspathsDate/timeAccnt#IDAssetTradeProvince09:33:1116-Feb-20150234837823238-23-9876AAPLSellBJ11:33:0116-Feb-20153947848494329-44-9847TBTBuySH14:12:3416-Feb-20154848367383123-56-2345IBMSellSH09:22:0316-Feb-20153485739384585-11-2345INTCBuyBJ11:55:3316-Feb-20153847598390234-11-8765FBuyBJ10:22:5516-Feb-20158765432176344-22-9876UABuySHColumn-LevelControlsRow-LevelControlsDate/timeAccnt#IDAssetTradeProvince09:33:1116-Feb-20150234837823238-23-9876AAPLSellBJ11:33:0116-Feb-20153947848494329-44-9847TBTBuygroup214:12:3416-Feb-20154848367383123-56-2345IBMSellgroup309:22:0316-Feb-20153485739384585-11-2345INTCBuyBJ11:55:3316-Feb-20153847598390234-11-8765FBuyBJ10:22:5516-Feb-20158765432176344-22-9876UABuygroup3Column-LevelControlsRow-LevelControlsXXX-XXXXX-XXXXX-XXWhatBeijingBrokersSeeHDFS权限控制：通过RecordService65©Cloudera,Inc.Allrightsreserved.CurrentSecurityArchitecture:Inconsistency=LimitedAccessPolicyBImpala(column-level)PolicyAImpala...thanothers.Someenginessupportmoregranularrestrictions...Unified,GranularPolicyEnforcementRecordService:统一安全管控Spark(table-level)RecordService(policyenforcement)SparkSentry(policydefinition)Sentry(policydefinition)...66©Cloudera,Inc.Allrightsreserved.基于ApacheSentry的统一策略管理Sentry权限ReadAccesstoTransactions.Date…WhereCountry=USSentry权限ReadAccesstoCustomers.CustomerID&hellip

                    本文档为【大数据服务云平台案例和实际建设方案建议】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：￥17.6 已有0 人下载

立即下载

大数据服务云平台案例和实际建设方案建议

你可能还喜欢