首页 I2B2总结

I2B2总结

举报
开通vip

I2B2总结I2B2总结 摘要:2010 i2b2/VA关于自然语言处理挑战临床记录的研讨会提出了三个任务:一个概念提取任务,从病人报告中提取医学概念;一个断言分类任务,对医学概念分别归类;一个关系分类任务,分配在医疗问题,测试和治疗之间的关系类型。本文先简要介绍三个任务的描述,然后在概念提取、断言分类和关系分类的一般的研究方法上,介绍三个任务对应的主要研究方法。 0 介绍 2010 年 i2b2与盐湖城卫生保健局组织标注了一系列机构的电子病历数据,并且在此基础之上组织了电子病历领域的信息抽取的评测(2010 i2b2/VA...

I2B2总结
I2B2 总结 初级经济法重点总结下载党员个人总结TXt高中句型全总结.doc高中句型全总结.doc理论力学知识点总结pdf 摘要:2010 i2b2/VA关于自然语言处理挑战临床记录的研讨会提出了三个任务:一个概念提取任务,从病人 报告 软件系统测试报告下载sgs报告如何下载关于路面塌陷情况报告535n,sgs报告怎么下载竣工报告下载 中提取医学概念;一个断言分类任务,对医学概念分别归类;一个关系分类任务,分配在医疗问 快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题 ,测试和治疗之间的关系类型。本文先简要介绍三个任务的描述,然后在概念提取、断言分类和关系分类的一般的研究方法上,介绍三个任务对应的主要研究方法。 0 介绍 2010 年 i2b2与盐湖城卫生保健局组织标注了一系列机构的电子病历数据,并且在此基础之上组织了电子病历领域的信息抽取的评测(2010 i2b2/VA  challenge)[28].概念抽取被 设计 领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计 为一个信息抽取任务,识别并提取与患者医疗问题(problem)、治疗(treament)和测试(test)相对应的文本。 断言分类,它的目标是把医学概念(模拟为疾病)归类到病人当前患有该疾病(present),没有该疾病(absent),可能患有该疾病(possible),病人只在某些情况下才会有该疾病(Conditional),患者可能会发展到该疾病(Hypothetical),该疾病与病人无关(Not associated with the patient)。 关系分类,旨在从一个句子中按照给定参考 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 概念对关系分类,分类标准如下: 1.医疗问题与治疗的关系: ? TrIP:治疗改善了医疗问题 ? TrWP:治疗恶化的医疗问题 ? TrCP: 治疗导致医疗问题 ? TrAP: 治疗管理医疗问题 ? TrNAP: 治疗因医疗问题而不被管理 2.医疗问题与测试的关系: ? TeRP:测试显示医疗问题 ? TeCP: 测试进行以调查医疗问题 3.医疗问题与医疗问题的关系: ? PIP:医疗问题表明医疗问题 1 注释格式 1.1  概念抽取格式 输入一段病人报告文本,每个概念抽取输出的结果格式如下: c = “概念文本”偏移 ||t = “概念类型”  其中c表示一个概念的提及。概念文本将替换为报表中的实际文本;偏移量表示跨越概念文本的开始和结束行和单词编号。t表示所提到的概念的语义类型。概念类型被problem、treament或test替换。 例如,c=”chest x‐ray” 6:12 6:13||t=”test” 1.2  概念修饰的格式 每个断言分类的输出,与概念抽取格式相同, 并添加一个断言值, 如下所示: c = "概念文本" 偏移 ||t = "概念类型" ||a = "断言值" 其中c,t同概念抽取,a表示修饰值,断言值被替换为present、absent、possible、Conditional、Hypothetical或associated with someone else|。 例如,c=”diabetes” 2:14 2:14||t=”problem”||a=”absent 1.3  关系分类格式 每个关系分类将在单独的一行上输出,格式如下: c = "概念文本" 偏移 | |r = "关系类型" | |c = "概念文本" 偏移 其中,c同概念抽取,r表示关系类型,关系类型被替换成TrIP、TrWP、TrCP、TrAP、TrNAP、TeRP、TeCP、PIP。 例如,c=”discomfort” 3:4 3:4||r=”PIP”||c=”acute MI” 3:8 3:9。图1显示了患者报告中概念抽取、断言分类和关系分类的参考标准。 图 1 2 评价标准 采用精确率(Precision)、召回率(Recall)以及F1-Measure作为评价指标。真实信息TP、错误信息FP。 3 主要研究方法 最有效的概念抽取方法是使用条件随机场(CRFs)。最有效的断言分类方法和关系分类方法是使用支持向量机(SVM)。 Kirk Roberts2在2010年i2b2 / VA挑战概念提取方法的结果,排在第九位。使用两个机器学习分类器进行概念提取:用于边界检测的条件随机场(CRF)和用于三维分类概念类型的支持向量机(SVM),并结合自动特征选择方法(贪婪向前特征选择GF、浮动前向/后向选择GFB和遗传算法GA)来找到最好的特征.。由于功能集是自动选择的,所以该方法称为灵活的架构。给定一个新的任务,或者只是新的数据,只要新任务在相同类型的输入上运行,我们就可以自动确定一组新功能。 针对概念提取,Kirk Roberts2等使用正则表达式来识别支持概念提取的九种实体类型,然后用简单的启发式将每个句子分类为散文或非散文;然后,我们使用两个CRF分类器来检测概念边界(开始和结束标记):一个CRF用于散文句子,另一个CRF用于非散文句子;检测到概念边界后,每个概念分类为问题、治疗或测试。在概念提取之后,预处理排出概要,然后将文档分成不同的部分,并将每个部分与标题相关联,使用不同的特征选择方法进行断言分类。由于词汇特征为分类器创造了一个高维问题,Kirk Roberts2等开发了统计特征选择,使用点互信息(PMI)和Fisher精确检验。两种方法都基于训练数据中与特定断言类型的问题共同出现的频率,为单词和短语提供评分方法。 Manabu Torii3使用机器学习对来自多个数据源的临床文档进行概念提取,采用BioTagger-GM来训练机器学习标签,继而用2010 i2b2 / VA提供的训练预料进行评估。BioTagger-GM利用基于字典查找功能的机器学习标记器。它利用两大术语资源UMLS和BioThesaurus,使用一组手工编码的规则来纠正机器学习标签的普遍错误。除此之外,BioTagger-GM使用CRF作为基线标记实现MALLET。句子被标记并且用在其上下文中表征标记和标记出现的特征来指定。BioCreative II GM的任务是一个目标类型的基因/蛋白质的概念提取,因此系统被设计为分配一组三个标签{B,I,O}。如上所述,除了广泛使用的用于概念提取的特征(例如,在窗口大小内的附近词语和词性标签),BioTagger-GM还包含字典查找结果。 4 结果 在2010年i2b2 / VA挑战中, Kirk Roberts2等采用两种基于ML的方法,并结合自动的特征选择方法,在概念提取中取得好的结果,得分79.52,排名第九。断言分类特征的选取除了贪婪向前(GF)、贪婪向前/向后(GFB),还引入遗传算法(GA)取得最好的分类效果,得分为93.94。并且对各个断言值单独评价,F值介于 43.32和96.17之间。虽然遗传算法没有提供显着的改善(0.1%),但它能够找到几个有用的特征。贪婪的前向/后向算法并没有改善使用原始特征的结果,但是当使用具有统计显着性的n-gram时有显著的效果,但是随着其他特征的增加,新的参数化证明更有效。没有使用GFB,n-gram功能只增加了0.4%,但使用GFB增加到1.1%。因此,自动特征选择和高参数化特征是相辅相成的。 使用2010 i2b2 / VA挑战赛提供的训练语料库,该训练语料库由四个数据集组成:三个来自Beth Israel Deaconess医学中心(BETH),Partners HealthCare(PARTNERS)和匹兹堡大学医学中心(UPMCD)的出院总结以及一个匹兹堡大学医学中心(UPMCP)的一套进度说明。为了概念提取的目的,语料库被标注了三个概念类型:问题,治疗和测试。Manabu Torii3等利用BioTagger-GM进行概念抽取,概念抽取效果在问题、治疗和测试这三种类型上的分别是0.821、0.806和0.809。在整个概念类型和测试数据集中,基于四个数据集的标注器获得了良好F值,例如,概念问题的BETH为0.787,UPMCP为0.890;并且随着训练数据量的增加,F分数似乎稳步提高,而不是逐渐减少。这个结果表明,随着更多的数据可用,标记性能可能会提高。 参考文献 [1] Uzuner ?, South B R, Shen S, et al. 2010 i2b2/VA challenge on concepts,, assertions, and relations in clinical text[J]. Journal of the American Medical Informatics Association Jamia, 2011, 18(5):552. [2] Kirk Roberts, Sanda M Harabagiu; A flexible framework for deriving assertions from electronic medical records, Journal of the American Medical Informatics Association, Volume 18, Issue 5, 1 September 2011, Pages 568–573. [3] Manabu Torii, Kavishwar Wagholikar, Hongfang Liu; Using machine learning for concept extraction on clinical documents from multiple data sources, Journal of the American Medical Informatics Association, Volume 18, Issue 5, 1 September 2011, Pages 580–587. [4] Uzuner O. Second i2b2 workshop on natural language processing challenges for clinical records.[J]. AMIA. Annual Symposium proceedings. AMIA Symposium, 2008:1252. [5] Stubbs A, Kotfila C, Uzuner ?. Automated systems for the de-identification of longitudinal clinical narratives: Overview of 2014 i2b2/UTHealth shared task Track 1.[J]. Journal of Biomedical Informatics, 2015, 58 Suppl(Suppl):S11. [6] Uzuner O. Recognizing obesity and comorbidities in sparse data. Journal of the American Medical Informatics Association, 2009, 16(4): 561-570
本文档为【I2B2总结】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_841159
暂无简介~
格式:doc
大小:25KB
软件:Word
页数:7
分类:
上传时间:2019-02-27
浏览量:73