首页 I2B2总结

I2B2总结

I2B2总结I2B2总结摘要：2010 i2b2/VA关于自然语言处理挑战临床记录的研讨会提出了三个任务：一个概念提取任务，从病人报告中提取医学概念；一个断言分类任务，对医学概念分别归类；一个关系分类任务，分配在医疗问题，测试和治疗之间的关系类型。本文先简要介绍三个任务的描述，然后在概念提取、断言分类和关系分类的一般的研究方法上，介绍三个任务对应的主要研究方法。 0 介绍 2010 年 i2b2与盐湖城卫生保健局组织标注了一系列机构的电子病历数据，并且在此基础之上组织了电子病历领域的信息抽取的评测(2010 i2b2/VA...

I2B2 总结摘要：2010 i2b2/VA关于自然语言处理挑战临床记录的研讨会提出了三个任务：一个概念提取任务，从病人报告中提取医学概念；一个断言分类任务，对医学概念分别归类；一个关系分类任务，分配在医疗问题，测试和治疗之间的关系类型。本文先简要介绍三个任务的描述，然后在概念提取、断言分类和关系分类的一般的研究方法上，介绍三个任务对应的主要研究方法。 0 介绍 2010 年 i2b2与盐湖城卫生保健局组织标注了一系列机构的电子病历数据，并且在此基础之上组织了电子病历领域的信息抽取的评测(2010 i2b2/VA challenge)[28].概念抽取被设计为一个信息抽取任务，识别并提取与患者医疗问题(problem)、治疗(treament)和测试(test)相对应的文本。断言分类，它的目标是把医学概念（模拟为疾病）归类到病人当前患有该疾病(present)，没有该疾病(absent)，可能患有该疾病(possible),病人只在某些情况下才会有该疾病（Conditional），患者可能会发展到该疾病（Hypothetical），该疾病与病人无关（Not associated with the patient）。关系分类，旨在从一个句子中按照给定参考标准概念对关系分类，分类标准如下： 1.医疗问题与治疗的关系： ? TrIP：治疗改善了医疗问题 ? TrWP：治疗恶化的医疗问题 ? TrCP: 治疗导致医疗问题 ? TrAP: 治疗管理医疗问题 ? TrNAP: 治疗因医疗问题而不被管理 2.医疗问题与测试的关系： ? TeRP：测试显示医疗问题 ? TeCP: 测试进行以调查医疗问题 3.医疗问题与医疗问题的关系： ? PIP：医疗问题表明医疗问题 1 注释格式 1.1 概念抽取格式输入一段病人报告文本，每个概念抽取输出的结果格式如下： c = “概念文本”偏移 ||t = “概念类型” 其中c表示一个概念的提及。概念文本将替换为报表中的实际文本;偏移量表示跨越概念文本的开始和结束行和单词编号。t表示所提到的概念的语义类型。概念类型被problem、treament或test替换。例如，c=”chest x‐ray” 6:12 6:13||t=”test” 1.2 概念修饰的格式每个断言分类的输出，与概念抽取格式相同，并添加一个断言值, 如下所示: c = "概念文本" 偏移 ||t = "概念类型" ||a = "断言值" 其中c，t同概念抽取，a表示修饰值，断言值被替换为present、absent、possible、Conditional、Hypothetical或associated with someone else|。例如，c=”diabetes” 2:14 2:14||t=”problem”||a=”absent 1.3 关系分类格式每个关系分类将在单独的一行上输出，格式如下: c = "概念文本" 偏移 | |r = "关系类型" | |c = "概念文本" 偏移其中，c同概念抽取，r表示关系类型，关系类型被替换成TrIP、TrWP、TrCP、TrAP、TrNAP、TeRP、TeCP、PIP。例如，c=”discomfort” 3:4 3:4||r=”PIP”||c=”acute MI” 3:8 3:9。图1显示了患者报告中概念抽取、断言分类和关系分类的参考标准。图 1 2 评价标准采用精确率（Precision）、召回率（Recall）以及F1-Measure作为评价指标。真实信息TP、错误信息FP。 3 主要研究方法最有效的概念抽取方法是使用条件随机场（CRFs）。最有效的断言分类方法和关系分类方法是使用支持向量机（SVM）。 Kirk Roberts2在2010年i2b2 / VA挑战概念提取方法的结果，排在第九位。使用两个机器学习分类器进行概念提取：用于边界检测的条件随机场（CRF）和用于三维分类概念类型的支持向量机（SVM），并结合自动特征选择方法（贪婪向前特征选择GF、浮动前向/后向选择GFB和遗传算法GA）来找到最好的特征.。由于功能集是自动选择的，所以该方法称为灵活的架构。给定一个新的任务，或者只是新的数据，只要新任务在相同类型的输入上运行，我们就可以自动确定一组新功能。针对概念提取，Kirk Roberts2等使用正则表达式来识别支持概念提取的九种实体类型，然后用简单的启发式将每个句子分类为散文或非散文；然后，我们使用两个CRF分类器来检测概念边界（开始和结束标记）：一个CRF用于散文句子，另一个CRF用于非散文句子；检测到概念边界后，每个概念分类为问题、治疗或测试。在概念提取之后，预处理排出概要，然后将文档分成不同的部分，并将每个部分与标题相关联，使用不同的特征选择方法进行断言分类。由于词汇特征为分类器创造了一个高维问题，Kirk Roberts2等开发了统计特征选择，使用点互信息（PMI）和Fisher精确检验。两种方法都基于训练数据中与特定断言类型的问题共同出现的频率，为单词和短语提供评分方法。 Manabu Torii3使用机器学习对来自多个数据源的临床文档进行概念提取，采用BioTagger-GM来训练机器学习标签，继而用2010 i2b2 / VA提供的训练预料进行评估。BioTagger-GM利用基于字典查找功能的机器学习标记器。它利用两大术语资源UMLS和BioThesaurus，使用一组手工编码的规则来纠正机器学习标签的普遍错误。除此之外，BioTagger-GM使用CRF作为基线标记实现MALLET。句子被标记并且用在其上下文中表征标记和标记出现的特征来指定。BioCreative II GM的任务是一个目标类型的基因/蛋白质的概念提取，因此系统被设计为分配一组三个标签{B，I，O}。如上所述，除了广泛使用的用于概念提取的特征（例如，在窗口大小内的附近词语和词性标签），BioTagger-GM还包含字典查找结果。 4 结果在2010年i2b2 / VA挑战中， Kirk Roberts2等采用两种基于ML的方法，并结合自动的特征选择方法，在概念提取中取得好的结果，得分79.52，排名第九。断言分类特征的选取除了贪婪向前（GF）、贪婪向前/向后（GFB），还引入遗传算法（GA）取得最好的分类效果，得分为93.94。并且对各个断言值单独评价，F值介于 43.32和96.17之间。虽然遗传算法没有提供显着的改善（0.1％），但它能够找到几个有用的特征。贪婪的前向/后向算法并没有改善使用原始特征的结果，但是当使用具有统计显着性的n-gram时有显著的效果，但是随着其他特征的增加，新的参数化证明更有效。没有使用GFB，n-gram功能只增加了0.4％，但使用GFB增加到1.1％。因此，自动特征选择和高参数化特征是相辅相成的。使用2010 i2b2 / VA挑战赛提供的训练语料库，该训练语料库由四个数据集组成：三个来自Beth Israel Deaconess医学中心（BETH），Partners HealthCare（PARTNERS）和匹兹堡大学医学中心（UPMCD）的出院总结以及一个匹兹堡大学医学中心（UPMCP）的一套进度说明。为了概念提取的目的，语料库被标注了三个概念类型：问题，治疗和测试。Manabu Torii3等利用BioTagger-GM进行概念抽取，概念抽取效果在问题、治疗和测试这三种类型上的分别是0.821、0.806和0.809。在整个概念类型和测试数据集中，基于四个数据集的标注器获得了良好F值，例如，概念问题的BETH为0.787，UPMCP为0.890；并且随着训练数据量的增加，F分数似乎稳步提高，而不是逐渐减少。这个结果表明，随着更多的数据可用，标记性能可能会提高。参考文献 [1] Uzuner ?, South B R, Shen S, et al. 2010 i2b2/VA challenge on concepts,， assertions, and relations in clinical text[J]. Journal of the American Medical Informatics Association Jamia, 2011, 18(5):552. [2] Kirk Roberts, Sanda M Harabagiu; A flexible framework for deriving assertions from electronic medical records, Journal of the American Medical Informatics Association, Volume 18, Issue 5, 1 September 2011, Pages 568–573. [3] Manabu Torii, Kavishwar Wagholikar, Hongfang Liu; Using machine learning for concept extraction on clinical documents from multiple data sources, Journal of the American Medical Informatics Association, Volume 18, Issue 5, 1 September 2011, Pages 580–587. [4] Uzuner O. Second i2b2 workshop on natural language processing challenges for clinical records.[J]. AMIA. Annual Symposium proceedings. AMIA Symposium, 2008:1252. [5] Stubbs A, Kotfila C, Uzuner ?. Automated systems for the de-identification of longitudinal clinical narratives: Overview of 2014 i2b2/UTHealth shared task Track 1.[J]. Journal of Biomedical Informatics, 2015, 58 Suppl(Suppl):S11. [6] Uzuner O. Recognizing obesity and comorbidities in sparse data. Journal of the American Medical Informatics Association, 2009, 16(4): 561-570

                    本文档为【I2B2总结】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

I2B2总结

你可能还喜欢