农业知识图谱项目汇报

农业知识图谱项目汇报****农业农村大数据魔方农业知识图谱项目介绍目录2项目展示2系统架构3背景介绍1知识图谱（KnowledgeGraph）3知识图谱是大规模的语义网络(semanticnetwork)，由概念实体和语义关系构成学科发展历程4诞生背景5搜索核心诉求：让搜索通往答案传统知识系统的问题：无法理解关键字无法精确回答根本原因：缺乏大规模背景知识传统知识表达难以满足需求技术发展6应用场景：通用vs领域/行业应用从搜索延伸至推荐、问答等复杂任务从简单关系发现到深层关系推理从回答what问题到回答why问题从关键词交互到更自然的人...

****农业农村大数据魔方农业知识图谱项目介绍目录2项目展示2系统架构3背景介绍1知识图谱（KnowledgeGraph）3知识图谱是大规模的语义网络(semanticnetwork)，由概念实体和语义关系构成学科发展历程4诞生背景5搜索核心诉求：让搜索通往答案传统知识系统的问题：无法理解关键字无法精确回答根本原因：缺乏大规模背景知识传统知识表达难以满足需求技术发展6应用场景：通用vs领域/行业应用从搜索延伸至推荐、问答等复杂任务从简单关系发现到深层关系推理从回答what问题到回答why问题从关键词交互到更自然的人机对话式交互技术生态：机器学习深度学习自然语言处理数据挖掘知识图谱从通用到领域/行业应用7GoogleKGBaidu知识图谱Sogou知立方农业知识图谱金融知识图谱医学知识图谱电信知识图谱军事知识图谱电商知识图谱代码知识图谱航天知识图谱教育知识图谱农业知识图谱8农业知识图谱是融合了农业地域性，季节性，多样性等特征后，利用农业领域的实体概念与关系，挖掘出农业潜在价值的智能系统天气数据库自然灾害数据库蔬菜实体库水果实体库种子实体库畜牧实体库家禽实体库水产实体库“6月份崇明县适合种植何种蔬菜？”“家猪吃什么饲料性价比高？”目录9项目展示2系统架构3背景介绍1农业实体识别10自动识别出非结构化文本中的农业实体及其农业类型农业实体百科11展示实体的基本信息，相关概念，农业类型，等农业知识概览12对农业知识进行归类，采用了农业百科的形式进行罗列农业实体分类树13将农业实体类别组织成树形结构关系查询14输入实体，查询与其直连的实体与关系信息农业知识编辑15采用众包的方式，收集带标注的训练集数据农业知识编辑16可以查看训练集的分布，防止训练集不平衡Github开源项目17Github搜索“knowledgegraph”，搜索结果位于首页目录18项目展示2系统架构3背景介绍1系统架构图19语料库大小：50GB+实体数量：33W+关系数量：45W+关键问题：-如何获取大规模语料库？-如何训练大规模的算法模型？-如何存储大量的实体和关系？我们的解决方案：-采用分布式爬虫框架-采用支持GPU加速的框架-采用分布式图数据库Scrapy---分布式爬虫框架20若采用基础爬虫（例如urllib2）进行爬取，大约2秒钟能够爬取一个web页面（约20KB）。对于一个50GB的语料库爬取任务，大约需要26W秒，换算成天数的话大约需要30天左右才能完成。如果发生意外情况（例如断电，断网），爬取任务就会意外中断，甚至导致之前爬取的内容丢失。因此我们采用Scrapy框架，我们克服了上述缺点。Scrapy---分布式爬虫框架21Scrapy运行流程：1.引擎从调度器中取出一个链接(URL)用于接下来的抓取2.引擎把URL封装成一个请求(Request)传给下载器3.下载器把资源下载下来，并封装成应答包(Response)4.爬虫解析Response5.解析出实体（Item）,则交给实体管道进行进一步的处理6.解析出的是链接（URL）,则把URL交给调度器等待抓取Scrapy---分布式爬虫框架22支持多线程爬虫，充分利用cpu资源性能稳定，支持爬虫的断点保存支持分布式爬虫，能够在服务器集群上多机并行爬取在4台服务器上分布式爬取，每台服务器开启10个线程，爬取50GB的语料库，大约只需要18个小时Keras---深度学习框架23在本项目中，我们训练了一系列基于深度学习的神经网络模型（word2vec模型，end2end模型等）。在传统框架下，实现这些模型需要耗费大量的精力，且很难保证模型的正确性。此外，传统框架下只能使用CPU进行模型训练，训练时间太长。因此我们在服务器上部署了Keras深度学习框架，使得模型的开发效率和训练速度显著提升Keras---深度学习框架24简易和快速的原型设计高度模块化，极简，和可扩充特性支持CNN和RNN，或二者的结合无缝CPU和GPU切换Keras---深度学习框架253台GPU服务器，每台装有2块NvidiaTeslak80显卡利用Keras框架和优质的GPU资源，我们将神经网络的训练速度提升了约20倍Neo4j---大规模图存储26对于大规模的结点和边的存储和运算，传统关系型数据库（例如mysql）往往效率低下；而Neo4j则很好的支持高效的图运算。此外，传统的图运算都是在内存中进行的，然而内存容量较小，往往无法加载整个知识图谱；因此采用Neo4j，服务器就能够在磁盘中进行图运算。identity1水稻2玉米……330000氮肥idid1325……325973286902实体表关系表查询某个实体的某个关系，mysql需要对关系表全表扫描水稻籼稻粳稻糯稻邻接表Neo4j只需要扫描很小的邻接表Neo4j---大规模图存储27Neo4j使用的查询语言为Cypher，Cypher是一个描述性的图形查询语言，语法简单，功能强大。MATCH(n1{title:“小麦"})-[]->(n2)RETURNn1,n2Neo4j---大规模图存储28MATCH(n1{title:“小麦"})-[*1..2]->(n2)RETURNn1,n2Neo4j---大规模图存储29MATCH(p1:HudongItem{title:"小麦"}),(p2:HudongItem{title:"水稻"}),p=shortestpath((p1)-[*..]-(p2))RETURNpNeo4j---大规模图存储30在结点和关系数量庞大的图中，有更快的数据库操作速度支持分布式存取，能够利用集群来扩展内存和磁盘容量支持分布式高可用性，可以支持大规模的数据增长数据安全可靠，支持数据的实时备份通过Cypher语句，使得图数据的操作与展示更加直观总结31我们的工作重点主要是知识图谱的构建和领域应用目前从数据的爬取，到实体和关系的识别与存储，基本已经实现自动化如何在农业领域更好地发挥知识图谱的价值，是我们当前正在研究和实践的工作

                    本文档为【农业知识图谱项目汇报】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

农业知识图谱项目汇报

你可能还喜欢