首页 DataWorks大数据平台介绍

DataWorks大数据平台介绍

举报
开通vip

DataWorks大数据平台介绍DataWorks大数据平台介绍技术创新,变革未来2009立项DataWorks在阿里集团立项,Hadoop集群规模达1000台2013登月计划阿里集团启动登月计划,全面从Hadoop转向MaxCompute,集群规模达5K台数加平台发布阿里云数加品牌建立,DataWorks全新启航版本2016国际化DataWorks完成全球12+Region部署,走向国际化,开始服务全球客户2017发布V2.0DataWorksV2.0全新发布,形成数据集成-数据开发-数据服务-应用开发的一站式大数据智能云研发平台2018ORA...

DataWorks大数据平台介绍
DataWorks大数据平台介绍技术创新,变革未来2009立项DataWorks在阿里集团立项,Hadoop集群规模达1000台2013登月 计划 项目进度计划表范例计划下载计划下载计划下载课程教学计划下载 阿里集团启动登月计划,全面从Hadoop转向MaxCompute,集群规模达5K台数加平台发布阿里云数加品牌建立,DataWorks全新启航版本2016国际化DataWorks完成全球12+Region部署,走向国际化,开始服务全球客户2017发布V2.0DataWorksV2.0全新发布,形成数据集成-数据开发-数据服务-应用开发的一站式大数据智能云研发平台2018ORACLERAC Greenplum(MPP)2011年前2009-2013年Hadoop+DataWorks数据量爆炸增长的情况下,计算能力面临瓶颈•安全、易用性无法满足业务需要•数据管理、数据治理能力弱DataWorks发展历程十年再出发2013年之后自研MaxCompute+DataWorks登月提供了完整的数据中台能力,持续满足业务发展统一了数据存储、数据平台对外发布DataWorks进入公共云和专有云市场,开始服务政企客户2015DataWorks-一站式大数据研发+治理平台存储计算引擎(MC、Flink、PAI)统一任务调度 统一元数据中心DataOS统一权限管理 统一智能运维 统一API管控数据地图数据编目影响分析数据血缘热度分析数据质量离线数据流式数据动态阈值智能推荐数据治理智能监控基线管理主链路分析监控报警智能预测数据保护伞风险预警敏感数据分析风险审计数据脱敏安全卫士权限申请权限审批权限审计流程管理数据研发数据集成DataIntegration数据服务DataService数据应用构建AppStudio支持任意类型、任务网络环境的数据源上云离线计算 实时计算DataStudio StreamStudio机器学习PAIStudio数据源On-premOff-prem可视化、一站式构建混编流批一体计算引擎任务流零代码快速构建数据API快速搭建数据应用DataWorks商业化收费模型[基础版]数据研发:快速构建数据仓库[ 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 版]数据研发:复杂、专业化流程开发能力实时数据体系快速构建数据治理:安全审计体系快速落地保障数据准时产出其他功能增强[专业版]数据研发:可拓展数据服务API数据治理:安全能力增强[企业版]数据开发:数据服务API编排满足各类“存、通、用”问题数据治理:数据安全知识输出定制能力:二次定制开发[基础版]快速构建数据仓库数据接入数据开发调度生产数据服务API构建表权限管理研发全流程支持多团队协作开发基础版:覆盖大数据研发全生命周期数据应用开发复杂、异构数据源同步可视化运维全可视化运维可视化开发依赖配置生产开发隔离定时调度权限申请、审批机制数据质量监控预设、自定义检查规则0代码生成APIWeb端API开发01[基础版][标准版]数据研发:复杂、专业化流程开发能力实时数据体系快速构建数据治理:安全审计体系快速落地保障数据准时产出其他功能增强每月最后一日(29日/30日/31日)需要运行特定任务产出月报数据。需以标准方式构建复杂业务流程。场景2月29日3月31日4月30日02[标准版]线性依赖SQLSQLPythonSQL简单场景02[标准版]判断节点IF-ELSE循环起始节点循环判断节点DO-WHILEShellSQLSQLShellSQLSQLSQLPython配置遍历数据遍历起始节点遍历判断节点FOREACH复杂场景循环节点遍历节点赋值节点归并节点分支节点02[标准版]分支节点实现特定时间执行任务场景描述:实现每月最后一日(29日/30日/31日)运行特定代码。解决 方案 气瓶 现场处置方案 .pdf气瓶 现场处置方案 .doc见习基地管理方案.doc关于群访事件的化解方案建筑工地扬尘治理专项方案下载 :赋值节点与分支节点搭配,实现复杂逻辑判断。赋值节点负责将最后一条SELECT结果或最后一行标准输出流作为赋值节点的传参供下游引用。分支节点负责接收到上游传参后,判断参数值命中自身哪一个条件,并触发所命中条件对应的下游任务。“是”=1“不是”=01运行左分支0运行右分支02[标准版]SQL代码块需要给他人重复利用,复制粘贴效率太低且容易误操作。需解决SQL代码复用的问题。场景02[标准版]SQL组件代码重用,同一代码块无需编辑多次;支持变量传参、多业务流程同时引用。02[标准版]业务快速发展、流计算专业技术人员紧缺的情况下,企业需快速构建:*实时报表*实时风控 *实时……场景 *实时数仓*实时推荐./bin/flinkFlinkServer调参本地开发人肉运维run./examples/batch/WordCount.jar./bin/flinkrun-p16./examples/batch/WordCount.jar--inputfile:///home/xiaosi/a.txt--outputfile:///home/xiaosi/result.txt运行任务上传02[标准版]DAG开发、SQL/DAG互转0代码开发流计算任务与依赖关系本地调试(专业版)调试结果实时可见02[标准版]任务工作流庞大,维护每个任务监控规则非常痛苦!需要简单快捷的方式来代替人肉进行有效监控。场景工作量庞大,人肉维护不现实!02[标准版]智能监控监控报警的痛点监控数量监控所有任务是不现实的配置难度为每个任务配置监控规则极为繁琐报警时间每个任务所需报警的时间都不同智能监控核心功能智能识别关键路径,合理设定报警阈值任务异常产生事件,自动评估事件影响范围, 通知 关于发布提成方案的通知关于xx通知关于成立公司筹建组的通知关于红头文件的使用公开通知关于计发全勤奖的通知 相应人员灵活报警方式配置,支持钉钉群机器人ABEDFGHCIJKL8:306:306:306:006:005:005:004:308:30120min30min60min30min50min30min9:00AB10minE45minDF20minG60minH120minCIJLK智能基线监控02[标准版]基线预警事件报警自定义报警人为:定义单个任务时间基准AI:打通全链路智能预警基线任务报警更自由的报警方式变慢出错中间任务预测是否Delay02[标准版]02[标准版]某交易数据字段今日产出异常值,需找脏数据的源头。需要简单快捷的方式来代替人肉进行有效监控。场景02[标准版]User_countOrder_countOrder_amountbizdate564124212348762019081056711201164965201908115781235200020190812表血缘字段血缘数据从哪来?到哪去?02[标准版]企业数据管理者需建立最基本的[数据审计机制],至少实现:*数据敏感级别分级、分类*可视化(图形化)展示敏感数据*审计内部人员对敏感数据的访问行为*敏感数据可用不可见场景02[标准版]敏感数据分级与发现识别数仓中的敏感数据02[标准版]敏感数据访问行为审计谁?在什么时间点?以什么方式访问了敏感数据?02[标准版]数据脱敏数据可用不可见。HASH脱敏生成随机值替换真实值假名脱敏相同特征值替换掩盖脱敏*号掩盖02[标准版][专业版]数据研发:可拓展数据服务API数据治理:安全能力增强*通过API对接具有不同数据结构要求的报表系统、可视化展现系统。需实现API灵活适配不同协议、不同数据结构要求。场景03[专业版]要求返回结果的格式:{[{"x":"y":},{"x":"y":},{"x":"y":}]}API返回结果的格式:过滤器/函数对API数据进行二次加工并返回,灵活应对不同场景。某银行年度对公放贷同比增长柱状图要求:*维度(x):体现公司信息(开立账户+公司名称+年同比增长率)*指标(y):体现公司今年放贷金额???xy某可视化工具模板xyxxxyxxxyxx最终呈现结果处理后返回结果的格式:{[{"x":"firm_1@hotmail.com|上海xx互娱有限公司|50%","y":"6000000"},{"x":"firm_2@hotmail.com|深圳xx安全有限公司|70%","y":"8000000"},{"x":"firm_3@hotmail.com|杭州xx游戏有限公司|30%","y":"8000000"}]}符合要求03[专业版]*流计算任务故障定位难,不仅浪费时间且结果不准确。需实现快速、精准的故障定位。场景Checkpoint算子subtaskTaskManager详细日志JobManager延时信息数据倾斜?机器负载、网络问题?03[专业版]智能运维让流计算问题排查变得简单!数据源是否正常获取数据数据产出流处理结果是否正常产出延迟处理数据的进度情况脏数据数据源格式与用户定义不匹配Watermark统计迟到数据量和迟到的时间checkpointcheckpoint操作正常/异常failover是否近期出现频繁failover操作03[专业版]企业特有(非通用)敏感数据需纳入敏感数据进行审计。需识别不具有普遍性的敏感数据。场景03[专业版]nameOrder_idProduct_idProduct_desc(非通用敏感数据)Bankcard_id(模板可识别敏感数据)Order_dateJack2343523412441235私人用品-xxx62220203020345678972019-07-11Rose8767754645464313运动用品-篮球62220203020345678972019-08-12自定义内容扫描特定场景下才能才视为敏感信息的数据识别。03[专业版]找到拥有较高数据权限人员的风险行为。需识别预期外的敏感数据访问行为。场景半夜查看手机号类字段03[专业版]风险行为识别发现非预期数据访问行为。03[专业版][企业版]数据开发:数据服务API编排满足各类“存、通、用”问题数据治理:数据安全知识输出定制能力:二次定制开发场景JOINSelectfromtb1wheredt=20190814aSelect=bfromtb2whereorder_idaSelect=cfromtb3wherelast_login_timebSelectdfromtb4wherepay_amount=cJOINSelectfromtb1Selectfromtb1ab对比*企业审计人员随机、不定时地抽取复杂数据进行对比。*风控系统需从多张表中取得相互依赖的数据供下游应用进行业务决策。机遇与挑战并存:如何有效地满足来自员工、商家、合作伙伴各种各样、纷繁复杂的需求,提升对数据使用的满意度。04[企业版]数据服务DataWorks数据云上托管服务中心—数据服务:支持弹性伸缩的,高稳定QPS的,多数据源多协议的,Serverless服务编排的,云上数据托管API服务平台。包括:可视化生成API,自定义SQL生成API,函数计算,服务编排等,致力于数据服务化、数据共享和开放。丰富的数据源DRDSSQLServerPostgreSQL TableStoreAnalyticDBOracleHBaseLightning(MaxCompute)MonogoDBRDSMySQL零代码快速构建API生成数据API可视化向导生成API自定义SQL生成API搭建通用服务API上传Jar包部署API注册API集成算法预测API无缝集成PAI在线预测服务高效的服务编排多个API、函数按业务逻辑编排成工作流,形成新的含有复杂逻辑的复合服务服务编排的优势:API串联、并行、条件调用,无需编写任何代码,可视化编排,简单易用API之间的调用变为内部调用,减少网络开销,提升服务性能Switch查订单查实例开始获取用户ID获取组织ID结束订单实例04[企业版]Selectfromtb1wheredt=20190814aSelect=bfromtb2whereorder_idaSelect=cfromtb3wherelast_login_timebSelectdfromtb4wherepay_amount=c04[企业版]JOINJOINSelectfromtb1Selectfromtb1ab对比04[企业版]常见PII敏感数据的识别模型通过内置扫描模型识别敏感数据。场景04[企业版]迅速识别特定的风险行为通过内置风险识别模型识别非预期访问行为。场景04[企业版]识别自定义枚举类型的敏感数据通过数据样本库模式识别敏感数据。场景04[企业版]DataWorks深度企业用户需定制化开发属于自己的DataWorks模块。场景04[企业版]数据资产管理模板数据地图API二次开发阿里内部业务沉淀一键部署应用小白化04[企业版][基础版]数据研发:快速构建数据仓库[标准版]数据研发:复杂、专业化流程开发能力实时数据体系快速构建数据治理:安全审计体系快速落地保障数据准时产出其他功能增强[专业版]数据研发:可拓展数据服务API数据治理:安全能力增强[企业版]数据开发:数据服务API编排满足各类“存、通、用”问题数据治理:数据安全知识输出定制能力:二次定制开发购买建议数据需求紧迫专业人员缺口最低成本POC数据体系快速发展任务体量规模增加安全、治理诉求凸显构建成熟数据(服务)体系数据风险识别业务方诉求形式多变定义自身所需的能力谢谢聆听!
本文档为【DataWorks大数据平台介绍】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
个人认证用户
IT人
暂无简介~
格式:ppt
大小:4MB
软件:PowerPoint
页数:0
分类:互联网
上传时间:2019-11-16
浏览量:78