基于组合分类器的生物命名实体识别
论文摘要: 生物命名实体识别是一项非常重要和基础的生物医学文本挖掘技(略)键的一个步骤,只有正确地识别出生物命名实体,才能有效地完成基因标准化、生物事件抽取以及蛋白质-蛋白质交互关系抽取等更加复杂的工作.生物医学命名实体包括(略)、DNA、RNA等,通常有着复杂的结构,对于这些实体的鉴别和分类是非常富有挑战性的.机器学习方法例如CRF、MEMM和SVM已经广泛的应用于从已标注的语料中学习识别出生物医学命名实体.然而,生物命名实体识别系统的性能仍然没有普通命名实体识别系统的好.(略)高生物命名实体识别的性能,研究者提出了合并多个分类器结果的多分类器方法. 本文主要研究基于组合分类器的生物命名实体识别方法,实验是在BioCreAtIvE 2GM的训练语料和测试语料上进行的.本文主(略)下两点: ⒈构建单一分类器模型 本文利用不同的分类模型、不同的分类方法和特征集构建了六个不同的机器学习模型,并对每种模型采用的`特征集,特征抽取方法,以及训练过程进行了详细介绍. (略)提高最大熵方法的识别性能,本文采用TBL方法对最大熵的标注结果进行了纠错处理.实验结果显示纠错处理在很大程...
Biomedical Named Entity Recognition (Bio-NER) is (omitted)ly important and fundamental task of biomedical text mining, and is also a critical step for biomedical text mining, only when(omitted)ies are correctly i(omitted)could other more complex tasks, such as, gene normalization, biomedical eve(omitted)tion and protein-protein interaction extraction, be performed effectively. Biomedical named entities include mentions of proteins, genes, DNA, RNA, etc which oft(omitted)omplex structures, but it is cha...
目录:
摘要 第4-5页
Abstract 第5-6页
1 绪论 第9-16页
·研究背景与意义 第9-10页
·研究现状 第10-14页
·本文主要研究内容 第14页
·本文组织结构 第14-16页
2 机器学习模型 第16-25页
·支持向量机模型 第16-18页
·最优分类超平面 第16页
·核函数 第16-17页
·SVM多分类问题扩展方法 第17-18页
·最大熵模型 第18-20页
·条件随机场模型 第20-24页
·CRF的无向图结构 第21-22页
·CRF与势函数 第22-23页
·CRF的参数估计 第23-24页
·本章小结 第24-25页
3 单一分类器的构建 第25-40页
·实验语料及语料的预处理方法 第25-26页
·有效的特征信息 第26-28页
·不同单一分类器的构建 第28-38页
·基于条件随机场的生物命名实体识别 第29-32页
·基于支持向量机的生物命名实体识别 第32-34页
·最大熵方法的生物命名实体识别 第34-38页
·本章小结 第38-40页
4 基于组合分类器的生物命名实体识别方法 第40-46页
·组合分类器方法 第40-43页
·后处理 第43-45页
·本章小结 第45-46页
5 实验与结果分析 第46-54页
·单个分类器实验结果 第46-47页
·组合分类器方法的识别结果 第47-52页
·集合并/交操作方法实验结果 第47-49页
·投票方法实验结果 第49-50页
·叠加方法实验结果 第50-51页
·结果比较与分析 第51-52页
·错误分析与总结 第52页
·本章小结 第52-54页
结论 第54-55页
参考文献 第55-58页
攻读硕士学位期间发表学术论文情况 第58-59页
致谢 第59-61页
【基于组合分类器的生物命名实体识别】相关文章: