《Python爬虫程序设计》课程标准

《Python爬虫程序设计》课程标准深圳信息职业技术学院软件学院1《Python爬虫程序设计》课程标准课程名称：Python爬虫程序设计适用专业：软件技术课程编码：参考学时：56一、课程概述随着互联网技术的飞速发展，以及国家产业信息化进程的大力推进下，在大数据时代背景下，产生了对基于Web网站的数据的大量需求。快速、稳定、健壮、分布式的爬虫程序呼之欲出，业界对于爬虫程序的开发人员需求很大，而此类人才在目前的人才市场上比较稀缺，造成爬虫程序工程师等职位的需求缺口较大。本门课程旨在通过学习与实践培养学生的爬虫程序开发能力，为社会输送急需人才；课程对应的网...

深圳信息职业技术学院软件学院1《Python爬虫程序设计》课程标准课程名称：Python爬虫程序设计适用专业：软件技术课程编码：参考学时：56一、课程概述随着互联网技术的飞速发展，以及国家产业信息化进程的大力推进下，在大数据时代背景下，产生了对基于Web网站的数据的大量需求。快速、稳定、健壮、分布式的爬虫程序呼之欲出，业界对于爬虫程序的开发人员需求很大，而此类人才在目前的人才市场上比较稀缺，造成爬虫程序工程师等职位的需求缺口较大。本门课程旨在通过学习与实践培养学生的爬虫程序开发能力，为社会输送急需人才；课程对应的网页爬虫开发工程师岗位有着相对较高的薪酬水平和较为广阔的发展前景，可以为参加学习的学生提供良好职业预期发展。本课程主要面向岗位为网页爬虫开发工程师，能力辐射岗位有：Web开发工程师、数据分析师、测试工程师、文档工程师、售前/售后工程师等。1.课程性质本课程注重对学生职业能力和创新精神、实践能力的培养。本课程旨在对学生的程序设计思想和技能进行，培养学生利用主流scrapy框架进行爬虫项目的设计与开发。《Python爬虫程序设计》课程是软件技术专业Python方向的专业核心课程，是融理论与实践一体化，教、学、做一体化的专业课程，是基于设计的工作过程系统化学习领域课程，是工学结合课程。本课程的前续课程安排为：“Python程序设计基础”、“HTML5基础”、“数据库技术”；与本课程可以平行开展的课程为web后台技术类课程如:“PHP开发基础”、“Web应用开发技术”等相关课程；本课程的后续课程为“Python数据分析技术”。深圳信息职业技术学院软件学院22设计思路课程开发遵循的基于工作过程导向的现代职业教育指导思想，课程的目标是网页爬虫程序开发职业能力培养。课程教学内容的取舍和内容排序遵循以工作需求为目标原则，务求反映当前网页爬虫开发的主流技术和主流开发工具，同时重视软件工程的标准规范，重视业内工作过程中的即成约定，努力使学生的学习内容与目标工作岗位能力要求无缝对接。本课程采用了“项目引领，任务驱动”的教学模式。在充分分析深圳市行业发展的特点与方向的基础上，分别选取了“QuotestoScrapy”网站、“京东商城”等网站具有发展前景的行业中的知名互联网系统，在由浅入深、循序渐进的过程中要求学生设计实现目标项目，并将目前爬虫程序必备功能组件如用网页数据下载、数据分析、数据存储、网页递归爬取等技术作为项目中的系列任务。课程章节的演进则按照爬虫程序技术知识点的难易程度和之间的关联关系进行组织。在授课过程中，项目的主要开发阶段模块化，特定的功能任务化，学生在完成各个“任务”的同时，学习并掌握项目开发过程中所需的技能和应遵守的业内规范，为学生职业能力发展奠定良好的基础等。课程设计的总体原则是“基于课程对应的就业岗位工作过程”，基于此原则课程组进行了充分的调研，过程如下：第一步：岗位需求调研；第二步：确定课程对应的岗位能力需求；第三步：根据岗位能力需求确定教学目标；第四步：明确课程的学习任务；第五步：并根据任务设计学习活动二、课程目标本课程内容涵盖了对学生在“基本理论”、“基本技能”和“职业素质”三个层次的培养。以网页爬虫开发岗位必备的开发技能为重点并具备相应的理论基础的同HTML5基础Python程序基础数据库技术Python爬虫程序技术PHP开发基础Web应用开发技术Python数据分析技术深圳信息职业技术学院软件学院3时，注重综合职业素质的养成，课程采用启发诱导式教学，鼓励学生“勤于思考，勤于动手”。1)基本理论要求：掌握爬虫程序设计理念；掌握数据提取与存储思想掌握scrapy爬虫框架设计思想。2)基本技能要求：熟练掌握ullib网页下载方法；熟练掌握正则表达式选取数据的规则；熟练掌握BeautifulSoup工具选择数据的方法；熟练掌握xpath、css选择数据的方法；熟练掌握scrapy网页爬取的工作流程；熟练掌握scrapy中Item、Pipeline数据的序列化输出方法；熟练掌握scrapy中Spider的网页递归爬取技术；熟练掌握scrapy中中间件的使用方法；3)职业素质要求：能够完成真实业务逻辑向代码的转化；能够独立分析解决技术问题；自学能力强，能够快速准确地查找参考资料；能够按照规范编写技术文档；沟通能力强，能够与小组其他成员通力合作。本门着重培养学生独立完成交互式爬虫程序项目的设计、开发以及测试等能力。课程对学生专业能力的培养及要求学生达到的水平目标如下表所示：编号能力目标知识水平目标1使用ullib实现网页下载能够通过ullib网页下载函数方法下载网页能够实现编码的转换2使用正则表达式获取网页数据能够根据功能组件的不同实现需求，使用正则表达式匹配并提取网页中的数据3使用BeautifulSoup工具选择数据能够使用BeautifulSoup工具选择数据掌握find_all等常用方法4使用xpath、css选择数据能够xpath、css选择复杂的数据5使用scrapy编写网页爬能够使用scrapy网页爬取的工作流程爬取单个网页的某几个特深圳信息职业技术学院软件学院4虫程序征数据6使用Item、Pipeline实现数据序列化与存储能够使用scrapy中Pipeline进行数据提取与数据存储。7使用scrapy实现网页递归爬取能够使用scrapy中Spider的网页递归爬取循环，能实现数据的提取与存储8网站爬虫程序综合开发能够使用scrapy框架开发爬虫程序，爬取QuotesScrapy网站的作者信息三、能力解析表能力目标使用ullib实现网页下载编号1具体描述能够通过ullib网页下载函数方法下载网页，实现编码的转换步骤1.搭建前端开发环境2.搭建后端静态网页3.例用urllib下载后端网页4.编写程序实现编码（GBK,UTF-8)的自动识别与转换5.存储网页到文件或者数据库工具与设备1.PC2.Python开发工具、PyCharm等主流IDE3.Web后台服务器，例如IIS,Tomcat等4.互联网环境知识基础1.html标准2.GBK、UTF8编码规则3.Python程序基础4.数据文件或者数据库基础态度、素质1.负责任的态度2.有进取心3.遵守标签书写规范4.自学能力强考核标准1.熟记HTML常用标签2.GBK、UTF8识别与转换知识与技能3.Web网站的访问与网页数据下载知识与技能4.网页文件的存储知识与技能5.urllib库的使用方法积件素材网站、教案、教学PPT、经典案例、案例源代码、电子书、网络技术社区支持、图片深圳信息职业技术学院软件学院5能力目标使用正则表达式获取网页数据编号2具体描述能够根据功能组件的不同实现需求，使用正则表达式匹配并提取网页中的数据步骤1.搭建前端开发环境2.搭建Web后台静态网页3.使用urllib函数方法下载网页4.使用正则表达式匹配并提取网页的数据工具与设备1.PC2.Python开发工具、PyCharm等主流IDE3.Web后台服务器，例如IIS,Tomcat等4.互联网环境知识基础1.html标准2.正则表达式匹配符号3.匹配字符串的提取4.匹配字符串的存储态度、素质1.负责任的态度2.有进取心3.良好的代码习惯4.自学能力强考核标准1.熟记正则表达式基本语法2.熟记正则表达式匹配函数的使用L3.能够独立完成数据的匹配与提取4.能够独立完成功能测试，并能够根据测试结果改进程序设计积件素材网站、教案、教学PPT、经典案例、案例源代码、电子书、网络技术社区支持、图片能力目标使用BeautifulSoup工具选择数据编号3具体描述能够使用BeautifulSoup工具选择数据，掌握find_all等常用方法步骤1.搭建前端开发环境2.搭建Web后台静态网页3.使用urllib函数方法下载网页4.使用BeautifulSoup提取网页的数据深圳信息职业技术学院软件学院65.存储提取的数据工具与设备1.PC2.Python开发工具、PyCharm等主流IDE3.Web后台服务器，例如IIS,Tomcat等4.互联网环境知识基础1.Select选择器的使用2.DOM树的构建3.BeautifulSoup常用函数态度、素质1.负责任的态度2.有进取心3.良好的代码习惯4.自学能力强考核标准1.掌握DOM树的构建方法2.能够独立完成BeautifulSoup插件的下载与配置，使得插件在网页中正常运行。3.能熟练使用BeautifulSoup常用函数提取网页数据积件素材网站、教案、教学PPT、经典案例、案例源代码、电子书、网络技术社区支持、图片能力目标使用xpath、css选择数据编号4具体描述能够xpath、css选择复杂的数据。步骤1.搭建前端开发环境2.搭建Web后台静态网页3.使用urllib函数方法下载网页4.使用BeautifulSoup提取网页的数据5.存储提取的数据工具与设备1.PC2.Python开发工具、PyCharm等主流IDE3.Web后台服务器，例如IIS,Tomcat等4.互联网环境知识基础1.DOM树结构2.xpath选择器选择数据的规则3.css选择器选择数据的规则深圳信息职业技术学院软件学院7态度、素质1.负责任的态度2.有进取心3.良好的代码习惯4.自学能力强考核标准1.DOM树结构2.xpath选择数据的规则3.css选择器选择数据的规则积件素材网站、教案、教学PPT、经典案例、案例源代码、电子书、网络技术社区支持、图片能力目标使用scrapy编写网页爬虫程序编号5具体描述能够使用scrapy网页爬取的工作流程爬取单个网页的某几个特征数据步骤1.搭建scrapy开发环境2.搭建Web后台网页3.使用scrapy爬取网页文件4.使用xpath,css获取特征数据工具与设备1.PC2.Python开发工具、PyCharm等主流IDE3.Web后台服务器，例如IIS,Tomcat等4.互联网环境知识基础1.scrapy框架知识与工作流程2.spider程序编写3.xpath,css数据提取4.Python的生成器态度、素质1.负责任的态度2.有进取心3.良好的代码习惯4.自学能力强考核标准1.scrapy框架知识与工作流程2.spider程序编写3.xpath,css数据提取4.Python的生成器的使用深圳信息职业技术学院软件学院8积件素材网站、教案、教学PPT、经典案例、案例源代码、电子书、网络技术社区支持、图片能力目标使用Item、Pipeline实现数据序列化与存储编号6具体描述能够使用scrapy中Pipeline进行数据提取与数据存储。步骤1.搭建scrapy开发环境2.搭建Web后台网页3.使用scrapy爬取网页文件4.使用Item、Pipeline提取与存储数据工具与设备1.Python开发工具、PyCharm等主流IDE2.Web后台服务器，例如IIS,Tomcat等3.互联网环境知识基础1.Item字段定义规则2.Pipeline数据管道原理态度、素质1.负责任的态度2.有进取心3.良好的代码习惯4.自学能力强考核标准1.Item字段定义规则2.Pipeline数据管道原理3.能够使用scrapy爬取网页数据并把数据序列化成XML、JSON格式进行存储积件素材教案、教学PPT、经典案例、案例源代码、电子书、网络技术社区支持、图片能力目标使用scrapy实现网页递归爬取编号7具体描述能够使用scrapy中Spider的网页递归爬取循环，能实现数据的提取与存储步骤1.搭建scrapy开发环境2.搭建Web后台众多关联网页3.使用scrapy爬取多层嵌套与关联的网页文件4.使用Item、Pipeline提取与存储数据工具与设备1.Python开发工具、PyCharm等主流IDE2.Web后台服务器，例如IIS,Tomcat等3.互联网环境深圳信息职业技术学院软件学院9知识基础1.程序递归2.scrapy的Request调度机制3.分布式程序知识4.scrapy爬取深度的控制方法态度、素质1.负责任的态度2.有进取心3.良好的代码习惯4.自学能力强考核标准1.程序递归2.scrapy的Request调度机制3.使用scrapy设计分布式程序爬取众多关联网页的数据积件素材网站、教案、教学PPT、经典案例、案例源代码、电子书、网络技术社区支持、图片能力目标网站爬虫程序综合开发编号8具体描述能够使用scrapy框架开发爬虫程序，爬取QuotesScrapy网站的作者信息步骤1.搭建scrapy开发环境2.获取QuotesScrapy网站网页代码3.阅读与分析网站代码的数据特征4.编写Item与Pipeline处理程序5.编写spider程序实现递归爬取网页6、编程数据库程序存储数据工具与设备1.PC2.Python开发工具、PyCharm等主流IDE3.Web后台服务器，例如IIS,Tomcat等4.互联网环境知识基础1.HTML代码特征提取2.Item,Pipeline3.Spider递归爬虫4.数据的序列化与存储态度、素质1.负责任的态度2.有进取心深圳信息职业技术学院软件学院103.良好的代码习惯4.自学能力强考核标准1.HTML代码特征提取2.Item,Pipeline3.Spider递归爬虫4.数据的序列化与存储积件素材网站、教案、教学PPT、经典案例、案例源代码、电子书、网络技术社区支持、图片四、课程内容1.基本框架序号学习任务学习活动教学方法参考学时1使用ullib实现网页下载前端开发环境搭建现场操作2实战训练技能训练：完成网页的下载实战项目案例：下载学校、百度、京东等网页现场操作案例教学2示例教学：urlib.request下载网页现场操作案例教学22使用正则表达式获取网页数据实战训练技能训练：正则表达式语法训练实战项目案例：获取学校网站的所有图片文件名称现场操作案例教学4示例教学：HTML网页特征数据正则表达式匹配规则匹配字符串提取现场操作案例教学23使用BeautifulSoup工具选择数据实战训练技能训练：BeautifulSoup插件安装BeautifuSoup文档阅读(English版本）BesutifuSoup常用函数实战项目案例：获取学校网站的所有图片文件名称现场操作案例教学4示例教学：DOM树的构建BeautifulSoupfind_all函数使用BeautifulSoupSelect函数使用现场操作案例教学2深圳信息职业技术学院软件学院114使用xpath、css选择数据实战训练技能训练：xpath选择数据css选择数据实战项目案例：获取学校网站的所有图片文件名称现场操作案例教学4示例教学：xpath选择数据的规则css选择数据的规则现场操作案例教学25使用scrapy编写网页爬虫程序实战训练技能训练：安装scrapy阅读scrapy文档(English版本）编写spider程序实战项目案例：编写spider爬取学校网站的所有图片并下载这些图片现场操作案例教学4示例教学：scrapy程序流程scrapy程序的spider编写现场操作案例教学46使用Item、Pipeline实现数据序列化与存储实战训练技能训练：Item编写Pipeline编写settings设置实战项目案例：爬取学校网站所有链接现场操作案例教学4示例教学：Item类编写Pipeline了编写settings的设置现场操作案例教学47使用scrapy实现网页递归爬取实战训练技能训练：scrapy递归程序编写爬取网站图片实战项目案例：爬取学校网站的所有图片与关联网站的图片现场操作案例教学4示例教学：递归程序scrapy调度机制scrapy递归爬取程序现场操作案例教学48网站爬虫程序综合开发实战训练技能训练：爬虫程序综合训练实战项目案例：爬取QuotesScrapy网站作者信息，并格式化数据实现数据存储现场操作案例教学6深圳信息职业技术学院软件学院12示例教学：QuotesScrapy网站数据特征现场操作案例教学2合计：56注：上述表格学习活动中“实战项目案例”为开展教学活动建议，任课教师可根据知识点和技能训练要点自行开发教学案例2.主要内容与要求1)学习内容：使用ullib实现网页下载学习成果要求：HTML常用标签GBK、UTF8识别与转换知识与技能Web网站的访问与网页数据下载知识与技能网页文件的存储知识与技能urllib库的使用方法2)学习内容：使用正则表达式获取网页数据学习成果要求：能使用正则表达式基本语法能使用正则表达式匹配函数的使用能够独立完成数据的匹配与提取能够独立完成功能测试，并能够根据测试结果改进程序设计3)学习内容：使用BeautifulSoup工具选择数据学习成果要求：能使用DOM树能够独立完成BeautifulSoup插件的下载与配置，使得插件在网页中正常运行。能熟练使用BeautifulSoup常用函数提取网页数据4)学习内容：使用xpath、css选择数据学习成果要求：能使用DOM树能使用xpath选择数据能使用css选择数据5)学习内容：使用scrapy编写网页爬虫程序学习成果要求：scrapy框架知识与工作流程深圳信息职业技术学院软件学院13spider程序编写xpath,css数据提取Python的生成器的使用6)学习内容：使用Item、Pipeline实现数据序列化与存储学习成果要求：能使用Item字段定义能使用Pipeline数据管道能够使用scrapy爬取网页数据并把数据序列化成XML、JSON格式进行存储7)学习内容：使用scrapy实现网页递归爬取学习成果要求：能使用程序递归能使用scrapy的Request调度机制能使用scrapy设计分布式程序爬取众多关联网页的数据8)学习内容：网站爬虫程序综合开发学习成果要求：能综合应用爬虫程序知识、数据提取知识、程序分布式知识编写综合爬虫程序；五、考核方案为了多方位地培养学生的职业技能和素养，在加强学生自律意识、强化实战能力以及深刻理解课程涉及的概念原理等多个方面都起到敦促与评定的目的，本门课程的总评成绩由三个部分组成，按照其重要程度占不同的权重，计算方法如下：总评成绩=出勤（20%）+平时成绩（40%）+笔试成绩（40%）下面表格中的考核标准是指平时成绩的判断标准。笔试由深圳信息职业技术学院教务处统一组织，在第16教学周集中考试。序号课程目标（编号）考核标准考核方式证据材料11实现ullib网页下载项目制作项目演示22实现正则表达式提取网页数据项目制作项目演示33实现BeautifulSoup选择数据项目制作项目演示44实现xpath、css选择数据项目制作项目演示55实现scrapy网页爬虫程序项目制作项目演示66实现Item、Pipeline数据序列化与存储项目制作项目演示深圳信息职业技术学院软件学院1477实现scrapy网页递归爬取项目制作项目演示88实现综合网站爬虫程序现场操作项目演示六、教学文件开发意见1．教材选用/讲义编写意见教材原则上应为近3年出版或者再版的高职高专教材，或者自编讲义。内容与Python爬虫技术的需求同步；教材的编写应体现项目引导，任务驱动、实践导向的设计思想；内容组织方式应适合学生理解和操作。2．项目任务书、案例教学方案、实训指导书、课堂活动方案等教学文件的开发思路与意见教学文件的编写，应组织有丰富专业技能和教学经验组成课程小组，经过集体讨论，将前期行业、企业调研的结果形成可落实到课堂教学行为和学生学习行为的教学文件。教学文件应严格按照相关文档规范组织内容。教学文件内容应紧扣当前岗位需求技能，并适合学生的理解和操作。3．学习指南、学习包、课件等的开发思路与意见学习指南、学习包、课件等课程学习资源的开发，应适合学生独立学习，对学生的学习路径应有明确的指引，内容在覆盖本课程教学标准技能知识点的基础上可进行知识扩展。七、教学资源使用建议1．教学设施资源使用建议说明：课程应在校内实训基地具备如下条件的实训室中完成:硬件：PC操作系统：windows操作系统软件：Python3.x,BeautifulSoup，Scrapy、Web项目后台运行环境（Web服务器、数据库以及后台集成开发环境)由学生根据本人专业方向课程设计中的相关Web后台开发技术（Asp.Bet/JavaWeb/python/php）自行安装。鼓励学生使用图书馆、互联网查找课程、行业相关资料，并指导学生使用学院的教学案例资源库平台及企业工作室等公共资源进行课程学习与能力的提高。2．教学文件资源使用建议说明：本门课程配套相应的网络课程，为学生提供丰富的电子课件、课程录像、参考案例等教学资源。建议在授课课程中同步使用。本门课程配套有独立27学时的课程实训《Python爬虫程序设计课程实训》，建议在课程实训中同步使用《实训指导书》，指导学生完成实训并撰写实训报告。深圳信息职业技术学院软件学院15八、课程教学方法建议项目引领，任务驱动首先教师给出项目目标的设计与实现，使学生对即将展开的学习有大致的目标性了解。课程采用“任务驱动”的教学单元设计，新的技能知识蕴含于新的任务中，任务的发布通常以贴近学生生活的“导入思考”的形式给出，来激发学生的学生兴趣。学完课程规定内容后，学生将通过自己的努力实现了功能较为完整Python爬虫程序，在获得了对网页爬虫开发的整体流程经验的同时，也会因为项目的完成获得“成就感”等良好的情感体验。教学做一体化课程中技能的讲授尽量避免艰涩的理论说教，采用“stepbystep”实操图示向导指引和源代码示例，引导学生完成各个“任务”，教师“边做边教”，学生“在做中学”，便可完成“任务”，同时也习得了新技能。注重自主学习、合作学习，兼顾学生的个性发展授课过程中应注重学生“终身学习能力”的培养和锻炼，项目中某些功能模块，其实现技术与小节中任务的实现技术相似，以“课后练习”的形式给出，并有实现提示，要求学生根据已习得的知识和技能，并自行查找参考资料来完成，在巩固课堂知识的同时，也锻炼了学生自学能力和自主解决问题的能力。通过网络课程延展教学空间与时间本门课程建设有网络课程，内容包括授课视频、电子课件的自动播放、可视化项目引导等多种多媒体呈现形式，方便学生在课余时间重温课堂；网络课程中还设置有延展阅读、案例参考、学生优秀项目库等多种资源，是课堂教学内容的优质补充；网络课程中还有设置有试题库、自我测试等板块，学生可以及时进行自我评估。建议在授课过程中充分发挥网络课程的优势。

                    本文档为【《Python爬虫程序设计》课程标准】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：￥11.9 已有0 人下载

立即下载

《Python爬虫程序设计》课程标准

你可能还喜欢