首页 2020年江西省职业院校技能大赛高职组“大数据技术与应用”赛项试题样卷赛题说明

2020年江西省职业院校技能大赛高职组“大数据技术与应用”赛项试题样卷赛题说明

举报
开通vip

2020年江西省职业院校技能大赛高职组“大数据技术与应用”赛项试题样卷赛题说明2020年江西省职业院校技能大赛高职组“大数据技术与应用”赛项试题(样卷)赛题说明一、竞赛内容分布任务一:Hadoop平台及组件的部署管理15%任务二:数据采集20%任务三:数据清洗与分析25%任务四:数据可视化20%任务五:综合分析15%团队分工明确合理、操作规范、文明竞赛5%二、竞赛时长竞赛时长为4个小时。三、竞赛注意事项1.竞赛所需的硬件、软件和辅助工具由组委会统一布置,选手不得私自携带任何软件、移动存储、辅助工具、移动通信等进入赛场;2.请根据大赛所提供的比赛环境,检查所列的软件及工具组件清单是否齐全,计算...

2020年江西省职业院校技能大赛高职组“大数据技术与应用”赛项试题样卷赛题说明
2020年江西省职业院校技能大赛高职组“大数据技术与应用”赛项试题(样卷)赛题说明一、竞赛内容分布任务一:Hadoop平台及组件的部署管理15%任务二:数据采集20%任务三:数据清洗与分析25%任务四:数据可视化20%任务五:综合分析15%团队分工明确合理、操作 规范 编程规范下载gsp规范下载钢格栅规范下载警徽规范下载建设厅规范下载 、文明竞赛5%二、竞赛时长竞赛时长为4个小时。三、竞赛注意事项1.竞赛所需的硬件、软件和辅助工具由组委会统一布置,选手不得私自携带任何软件、移动存储、辅助工具、移动通信等进入赛场;2.请根据大赛所提供的比赛环境,检查所列的软件及工具组件 清单 安全隐患排查清单下载最新工程量清单计量规则下载程序清单下载家私清单下载送货清单下载 是否齐全,计算机设备是否能正常使用;3.比赛完成后,比赛设备、软件和赛题请保留在座位上,禁止将比赛所用的所有物品(包括试卷和草纸)带离赛场;4.裁判以各参赛队提交的竞赛结果文档为主要评分依据。所有提交的文档必须按照赛题所规定的命名规则命名,不得以任何形式体现参赛院校、赛位号等信息;5.本次比赛采用统一网络环境比赛,请不要随意更改客户端的网络地址信息,对于更改客户端信息造成的问题,由参赛选手自行承担比赛损失;6.请不要恶意破坏竞赛环境,对于恶意破坏竞赛环境的参赛者,组委会根据其行为予以处罚直至取消比赛资格;7.比赛中出现各种问题及时向监考裁判举手示意,不要影响其他参赛队比赛。四、竞赛结果文件的提交按照题目要求,提交符合 模板 个人简介word模板免费下载关于员工迟到处罚通告模板康奈尔office模板下载康奈尔 笔记本 模板 下载软件方案模板免费下载 的WORD文件以及对应的PDF文件(利用OfficeWord另存为pdf文件方式生成pdf文件)和代码文件。五、任务说明近年来随着IT产业的加速发展,全国各地对IT类的人才需求也越来越多“ABC公司”为了明确今后IT产业人才培养方向,在多地进行IT公司岗位情况调研分析。你所在的小组将承担模拟调研分析的任务,通过在招聘网站进行招聘信息的爬取,获取到公司名称、工作地点、岗位名称、招聘要求、招聘人数等信息,并通过对数据的清洗和分析,得出各地域招聘人数,“大数据”相关职位招聘数量,以绘制雷达图展示各地平均薪资情况。为完成该项任务,你所在的小组计划选用在业界广泛应用的“Python和JAVA”语言,作为整个项目的基础语言,并综合利用requests模块、MapReduce、MySQL、Flask开源框架、Jinja2模板引擎和ECharts组件提高开发效率并实现项目要求,由于本次为模拟任务,总数据量不会过大,项目组计划使用分布式节点Hadoop模式,本次项目环境搭建采用服务器集群方式,配置了小规模的技术演示环境,通过在招聘网站上爬取到的相关信息,使用requests模块、Hive、Python、JAVA等手段对数据进行爬取、清洗、整理、计算、表达、分析,力求实现对IT人才就业信息拥有更清晰的掌握。请按照下面步骤完成本次技术展示任务,并提交技术 报告 软件系统测试报告下载sgs报告如何下载关于路面塌陷情况报告535n,sgs报告怎么下载竣工报告下载 。任务一:Hadoop相关组件安装部署(15分)当前环境中已安装Hadoop运行环境和MySQL数据库,相关安装信息如下表所示,请在此环境基础上按照相关操作步骤安装Hive组件。考试环境信息表编端口号名称账号密码号路径1Hadooprootpasswd/usr/local/src/hadoop2MySQLrootpasswd3306/usr/local/src/mysqlHive安装3包/opt/software/MysqlJDBC4驱动/opt/software/注意:以下操作必须使用绝对路径。环境变量只对当前root用户生效。1.将指定路径下的Hive安装包解压并更名;2.设置Hive环境变量;3.编辑Hive相关配置文件;4.初始化Hive元数据;5.启动并保存输出结果。任务二:数据采集与数据预处理(20分)1.从指定招聘网站中抓取数据,提取有效数据项,并保存为json格式文件;2.设置post请求参数并将信息返回给变量response;3.将提取数据转化成json格式,并赋值变量;4.用with函数创建json文件,通过json方法,写入json数据;5.爬取的数据需要导入hadoop平台进行数据清洗与分析,在HDFS文件系统中创建文件夹,并将json文件上传到该文件夹下。任务三:数据清洗与分析(25分)1.为便于数据分析与可视化,需要对爬取出的数据进行清洗,使用Java语言编写数据清洗的MapReduce程序;2.将清洗程序上传至hadoop,并对HDFS的原始数据进行清洗;3.将清洗后的数据加载到Hive数据仓库中;4.通过运行HQL命令完成数据分析统计;5.在hive中执行sql脚本,并查看表中大数据核心技能的出现次数。任务四:数据可视化(20分)为更好的将数据分析结果表达出来,需要对数据分析的结束进行可视化呈现,可视化呈现,本次数据可视化需要呈现三部分内容:1.按要求使用柱状图展示各城市招聘人数,并在前端显示。要求:主标题:各地域招聘人数副标题:(--招聘人数变化趋势)横坐标:城市信息,纵坐标:招聘人数输出柱状图2.按要求使用折线图展示“大数据”相关职位招聘数量差异,并在前端显示。要求:主标题:大数据相关职位分析副标题:(--招聘数量变化趋势)横坐标:岗位名称,纵坐标:岗位数量输出折线图3.通过雷达图展示各地平均薪资的情况。要求:主标题:各地平均薪资输出雷达图任务五:完成分析报告(15分)请结合数据分析结果回答以下问题:1.根据分析结果说明大数据岗位所需要的主要技能包含哪些,为什么(4分)2.根据分析结果说明各地大数据产业发展情况(4分)3.根据市场需求分析,大数据行业的人才培养方向有哪些,为什么(4分)4.请简述,今后大数据产业地域发展方向在哪里(3分)六、竞赛结果提交要求(一)提交方式任务成果需拷贝至提供的U盘中。在U盘中以XX赛位号建一个文件夹(例如01),将所有任务成果文档保存至该文件夹中。(二)文档要求竞赛提交的所有文档中不能出现参赛队信息和参赛选手信息,竞赛文档需要填写参赛队信息时以赛位号代替(XX代表赛位号)。
本文档为【2020年江西省职业院校技能大赛高职组“大数据技术与应用”赛项试题样卷赛题说明】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
个人认证用户
丁文惠
热爱运动,跆拳道。
格式:pdf
大小:247KB
软件:PDF阅读器
页数:6
分类:
上传时间:2023-03-17
浏览量:5