基于汉字标注的中文历史事件名抽取研究

唐慧慧; 王昊; 张紫玄; 王雪颖 南京大学信息管理学院; 南京210023; 江苏省数据工程与知识服务重点实验室; 南京210023

关键词:历史事件名 条件随机场 汉字标注 命名实体识别 本体学习 

摘要:【目的】探讨中文历史事件名识别和抽取的最优模型,用于历史文本的知识重组和中国历史事件本体的构建。【方法】以魏晋南北朝史书文本为原始语料,进行自动标引,运用条件随机场(CRFs)模型,以单个汉字为标注对象,探讨不同汉字角色集合、不同特征对历史事件名识别的影响,寻找最佳模型。【结果】经过实验论证,得到字素的词性倾向和姓氏特征相累加的最佳历史事件名识别模型,F1值高达98.74%,该最佳模型在两个开放场景中的应用也得到较好的识别效果。【局限】由于史书文本的语料特性,本实验的数据量不是特别充足;未在本实验环境下验证汉字角色标注相较于词角色标注的优越性。【结论】定义恰当的角色和特征集合后,CRFs模型可以有效地识别和抽取历史文本中的历史事件名。

数据分析与知识发现杂志要求:

{1}所有作者的作者简介(姓名、工作单位、职称、研究方向);通讯作者请再提供电子邮箱。

{2}稿件文责自负。编辑部有权对来稿进行文字和技术性删改,对实质性内容的修改,则应征求作者同意。

{3}标题序号:可按四级小标题的格式写:一、(一)、1、(1);一级、二级标题另起段,正文另起段;三级、四级小标题另起段,但正文接排;正文内序号用①……②……等。

{4}参考文献:(1)正文格式:作者,发表年(多版次文献请同时提供第 1 版的发表时间),页码,外加圆括号。(2)文末格式:中、外文献分开,各按音序排列。

{5}摘要应反映论文的目的、方法及主要结果、结论,并充分反映论文的创新点,表达简明、语义确切,以100 ~300 字为宜。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

数据分析与知识发现

CSSCI南大期刊
1-3个月下单

关注 8人评论|1人关注
相关期刊
服务与支付