首页 阿里云数据集成服务-Console参考-D

阿里云数据集成服务-Console参考-D

举报
开通vip

阿里云数据集成服务-Console参考-D数据集成Console参考手册Console参考手册一、简介CDP-Console(以下简称Console)是数据集成提供的,基于命令行交互方式的操作CDP管理工具。本文介绍了Console的安装、使用方式。本部分面向读者是Console相关的开发测试人员、使用人员。另外访问CDP服务需要AK信息即AccessKeyID和AccessKeySecret。文中的ID指的是AccessKeyID,KEY指的是AccessKeySecret,每个使用者具体可以生成多个AK,也可修改AK的使用状态(是否启用)。二、设计原则...

阿里云数据集成服务-Console参考-D
数据集成Console参考手册Console参考手册一、简介CDP-Console(以下简称Console)是数据集成提供的,基于命令行交互方式的操作CDP管理工具。本文介绍了Console的安装、使用方式。本部分面向读者是Console相关的开发测试人员、使用人员。另外访问CDP服务需要AK信息即AccessKeyID和AccessKeySecret。文中的ID指的是AccessKeyID,KEY指的是AccessKeySecret,每个使用者具体可以生成多个AK,也可修改AK的使用状态(是否启用)。二、设计原则·Console的设计沿用UNIXShell程序约定俗称的原则,包括成功退出值为0、错误非0,使用一次性输入参数,一次做且仅做一个任务。·Console区分标准输出和标准错误,对于错误输出需提供trace-id,HTTP错误码,错误信息等。标准输出尽可能精简(除用户需要verbose调试方式之外),对于无返回操作(比如删除Pipeline)执行成功不打印任何信息,仅提供进程退出值0作为判断。·考虑到外部系统集成(例如ADC、孔明灯、DFS等),我们只考虑提供基于命令行的一次性输入方式,即单独命令完成单项或者多项的任务内容,Console不提供互动的交互式输入方式。·对于ApacheSqoop产品,其对于创建作业等操作提供了交互式输入命令行,但是CDPConsole摒弃这类使用方法。带来的好处是方便其他系统集成,缺点是用户需要在命令行编写JSON参数,相对复杂。·考虑到用户在命令行输入JSON参数比较难以操作,对于交互式的用户,我们提供-f参数,指定用户可以在文本在编写好JSON,将文件名作为参数提供给Console。·考虑到Console存在大量和CDP交互的网络过程,提供-verbose方式追踪所有调用细节,方便Console高级用户跟踪和调试。一、环境准备·Bash等类NIXShell命令行(zsh,ksh,csh等),一般Linux、Mac系列操作系统都有带,Windows系列推荐使用Cygwin模拟NIXShell环境·Console内部基于CDPJavaSDK实现,外部使用BashShell封装,因此需要Bash(或其他*NIXShell)运行环境·JRE1.6及以上,Console内核使用CDPJavaSDK与CDPService进行交互,因此需要本地安装JRE,并数据集成/Console参考手册1要求JRE版本必须为1.6及以上版本。Console启动时会自动检测JAVA的环境变量是否设置,请使用如下命令设置您的JAVA环境变量(对于政企输出机器的标准配置):exportJAVA_HOME=/opt/taobao/java二、安装与配置·如果您获取到的是CDPConsole的rpm安装包,请执行:sudorpm-Uvht_dp_cdp_console-1.0.1-224427.noarch.rpm进行安装(根据具体的rpm版本选择);·如果您获取到的是CDPConsole的gzip等压缩包,直接解压到指定目录即可(确保运行用户有可执行权限)。2.1安装后目录结构cdp-console/|--README|--bin|`--cdp|--conf|`--cdp.properties|--lib||--cdp-console-1.1.0-SNAPSHOT.jar||--cdp-sdk-java-1.1.0-20150123.024540-90.jar||--…`--template|--odps2rds_job.json|--pipeline.json|--rds2odps_job.json`--stream2stream_job.json安装完成后CDPConsole的目录文件树如下所示:其中:/bin目录下存放Console执行启动命令;/conf目录下存放Console配置信息;/lib目录下存放Console执行需要的jar包;/template目录下存放Console提供的样例配置.2.2配置文件Console配置文件会存放CDPConsole相关的配置信息。Console在启动前会根据CDP_HOME寻找相关的配置文件,并自动加载使用该配置。配置文件路径在:${CDP_HOME}/conf/cdp.properties配置文件以#CDPconsole版本client.version=201511111111#CDP服务访问点.properties 格式 pdf格式笔记格式下载页码格式下载公文格式下载简报格式下载 提供,具体说明如下:DDoS高防IP/最佳实践service.url=http://cdp.aliyun.com/api#connection超时设置,可选,默认5000service.timeout.connection=5000#socket超时设置,可选,默认120000service.timeout.socket=120000#用户的AK信息auth.security.id=auth.security.key=#默认的pipelineuser.pipeline=#是否为verbose打印,取值[false|true],默认为falseclient.verbose=false#输出格式设置,取值[text|json],默认为textclient.output=text#客户端连接服务器重试次数和重试间隔client.retry.time=5client.retry.interval=1000${CDP_HOME}/bin/cdp在Bash命令行执行:当出现如下类似帮助字样,表示安装和启动成功:Console提供两种输入方式方便用户进行CDP的认证和鉴权,包括使用cdp.properties的配置文件,或者直接在命令启动作为参数传入。命令行参数优先级高于配置,即两者同时存在情况下,优先选择命令行参数。cdppipeline-list默认情况下,用户不需要指定AUTH信息,此时Console使用了配置文件中的auth.security.id和auth.security.key值作为鉴权参数,这两个参数需要分别为合法的AccessKeyID和AccessKeySecret。例如执行命令:由于没有指定AUTH信息,Console默认使用cdp.properties中的配置作为访问CDP服务的鉴权配置。而在一些情况下,一个CDPConsole可能被多个客户使用,以完成数据同步功能。因此一套id+key的cdp.properties配置无法满足需求,需要将鉴权信息作为命令行参数传入,具体由命令行的调用者给出,具体格式为:cdp<CATEGORY><COMMAND>-securityid:key其中-security参数后需要跟阿里云账号的id和key,中间使用冒号分割,具体id和key的值和上面大数据处理服务MaxCompute/Datahub服务cdp.properties一致。当用户指定security参数时,Console默认直接使用用户命令行指定鉴权信息。即同样的参数命令行传递优先级高于cdp.properties配置文件。公共是指一部分可在多个命令参数搭配使用的参数,例如指定命令行输出格式等。公共参数大部分在客户端配置文件中也可配置,当两者同时提供时,以命令行参数指定值为准。另一般可被多个用户共享使用的参数,多为配置文件配置。鉴权参数实际上也属于公共参数一部分,但是由于内容重要,上面单独作为一章节讲解。-security:阿里云账号的id和key,中间使用冒号分割。具体可参看上面认证和鉴权部分小节。-output[json|text]:指定输出格式,包括提供给机器(程序)用户的json格式和提供给人类用户的普通文本流text格式。普通文本模式是Console默认的输出格式,但是如果用户需要编写程序读取输出流,必须选择json格式。我们不承诺text输出不改变格式,可能由于产品调整会修改text的输出格式,如果您依赖了Console输出格式需要注意可能的变化。cdp.properties配置项client.output和此命令行功能一致。该参数适配Console所有命令。-verbose:指定输出级别,使用verbose模式输出时,Console会提供大量的交互细节暴露给用户用以程序异常时诊断。包括每次请求客户端提交的HTTPURI和HTTPBody,以及服务端返回该参数多用于系统调试。cdp.properties配置项client.verbose和此命令行功能一致。该参数适配Console所有命令。-async:指定该命令使用异步模式。例如,对于离线作业,异步(asynchronized)启动的命令指Console将作业提交给CDP后即可返回,而不必等该作业运行完毕。同步(synchronized)启动命令指Console将作业提交给CDP后,须等待该作业运行结束,并且等待运行结束过程中Console会输出所有的作业运行状态。该参数主要适配运行周期较长的命令,包括:cdpjob-start使用-async后,作业提交即可返回,如果提交失败会有相应地异常信息打印;cdpjob-stop使用-async后,作业stop即可返回(不保证stop及时完成)-url:指定CDP服务访问点,对于公有云环境值为http://cdp.aliyun.com/apicdp.properties配置项service.url和此命令行功能一致,一般情况下仅连接一套CDP服务,此配置项在配置文件中设置即可。该参数适配Console所有命令。cdpjob-start-p${pipeline}-p:指定操作作业对象属于的管道pipeline。对于离线作业Job的增删改查需要在一个管道Pipeline内完成,此参数设置了作业对应管道。cdp.properties配置项user.pipeline和此命令行功能一致具体如在指定的管道启动一个离线同步作业:Pipeline管理CDPConsole针对管道Pipeline提供了create(创建)、query(查找)、close(关闭)、open(打开)、list(检索)等操作。CDPConsole执行Pipeline类目命令的示例如下图所示:消息服务/控制台使用帮助查询Pipelinecdppipeline-query${pipeline}根据用户指定的Pipelinename,查询具体的Pipeline信息:浏览Pipeline支持检索条件criteria,检索条件使用json格式描述。目前针对Pipeline的搜索只提供了pageIndex(页码索引cdppipeline-list-c'{"pageIndex":3,"pageSize":4}')以及pageSize(页码大小),具体如:创建Pipelinecdppipeline-create<name>-f<file>cdppipeline-create<name>-j<json>使用本地或者命令行提供的JSON信息进行创建,支持本地文件-f以及命令行-j给出pipeline的描述信息。由于LinuxShell存在字符转义的潜 规则 编码规则下载淘宝规则下载天猫规则下载麻将竞赛规则pdf麻将竞赛规则pdf ,CDP更期望您使用-f从本地读取JSON文件,而不推荐您使用-j从命令行读取JSON,可能会存在大量JSON和Shell转义字符冲突的情况。创建示例:其中,name指的是要创建的Pipeline名字,-ffile示例可见模版文件${CDP_HOME}/template/pipeline.json{"description":"thisisyourpipelinedescription"}-jjson示例为:修改Pipelinecdppipeline-update<name>-f<file>cdppipeline-update<name>-j<json>使用本地或者命令行提供的JSON对Pipeline信息进行修改,使用方式类似创建Pipeline,具体示例:关闭Pipelinecdppipeline-close<name>关闭后该Pipeline不允许提交新Job,但是不会影响当前管道正在运行的同步作业。该功能必有由Pipeline的创建者进行调用,具体示例:开启Pipelinecdppipeline-open<name>同关闭Pipeline语义相对,将Pipeline置为正常状态。该功能必有由Pipeline的创建者进行调用,具体示例:作业管理CDPConsole针对作业提供了start(启动)、query(查找)、list(检索)、log(日志)、stop(停止)、status(状态)等操作。此类目命令需要给出作业编号id以及管道名字pipeline,作业编号在启动一个作业时由CDPServer返回给的客户端。用户可以选择在命令行终端通过-p指定Pipeline,或者通过cdp.properties配置文件指定,优先级为命令行>配置文件。CDPConsole执行Job类目命令的示例如下图所示:查询作业高性能计算HPC/优化工具可以查询作业的整体信息,包括用户输入信息和Job运行时信息,具体示例:cdpjob-query<id>[-p<pipeline>]查看作业状态cdpjob-status<id>[-p<pipeline>][-ts]查询作业的广义运行状态信息。-t参数是该命令启动后,轮询获取该Job状态的时间间隔(单位为秒),默认为10s,此query命令直至Job结束命令行结束。具体示例:浏览Jobcdpjob-list-p<pipeline>[-c<criteria>]根据指定的搜索条件在指定的Pipeline下搜索符合条件Job清单,具体示例:其中criteria可以为:·traceId=XXX根据traceId进行模糊(like)查询·state=XXX根据state状态查询job,支持多状态并集查询,使用,(英文逗号)作为分隔符·submitUser=XXX根据submitUser进行精确(is)查询·submitIp=XXX根据submitIp进行精确(is)查询·endUser=XXX根据endUser进行精确(is)查询·submitTime=startTime,endTime根据submitTime进行范围(between)查询,时间请使用类似2014-12-1200:00:00,2014-12-1300:00:00格式填写。注意,该特性和JavaSDK的不一致,JavaSDK要求用户填写Unix时间戳。设计上考虑到Console面向人工操作,JavaSDK面向编写Java代码,更适合使用Unix时间戳。·startTime=startTime,endTime根据startTime进行范围(between)查询,时间请使用类似2014-12-1200:00:00,2014-12-1300:00:00格式填写。·endTime=startTime,endTime根据endTime进行范围(between)查询,时间请使用类似2014-12-1200:00:00,2014-12-1300:00:00格式填写。·具体示例:cdpjob-list-c'{"pageIndex":3,"pageSize":4,"traceId":"basecdpsyncjob"}'-ppipelineName查询作业日志cdpjob-log<id>[-p<pipeline>]查询Job底层运行日志,用于排错或者调试使用,此日志为底层同步引擎DataX的日志。具体示例:终止作业cdpjob-stop<id>[-async]类似查询Job,该功能将轮询调用Job的终止接口,直至该Job结束或者终止。具体示例:启动作业在指定的pipeline下启动Job,Job的配置信息由-f指定的本地JSON文件或者由-j指定的JSON命令行参数指定cdpjob-start[-p<pipeline>]-f<file>[-v<variable>][-async]variable是为配置文件做运行时变量替换使用,格式同样是json,例如:cdpjob-start-fconfig-file-path-v'{"bizdate":"20140601"}',同样为避免JSON和Shell转义字符冲突,CDP不推荐-j的使用。命令格式为:用户提交的config-file-path,内容如下。特别关注下odps写入端,partition实际上引用了上述的变量{"type":"job","traceId":"basecdpjob","version":"1.0","configuration":{"reader":{"plugin":"mysql","parameter":{}},"writer":{"plugin":"odps","parameter":{"partition":"pt=${bizdate}"}}}{"bizdate":"20140601"},Console自动会将上述的变量替换为20140601。具体的JSON示例为:}特别需要用户注意的是:·CDPJob配置中,为保证Job配置的兼容性,用户必须指定当前Job的版本号为1.0,即"version":"1.0"·CDPJob目前只进行数据同步,不进行元数据同步。用户使用前必须在目的数据源创建数据表,否则将CDPJob会报错,错误通知用户目的表不存在。
本文档为【阿里云数据集成服务-Console参考-D】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
个人认证用户
IT人
暂无简介~
格式:doc
大小:458KB
软件:Word
页数:10
分类:互联网
上传时间:2019-10-06
浏览量:27