关键词:信息提取 文档对象模型 影响因子 中文人物
摘要:本文面向中文人物WEB信息提取这个主题,将HTML文档解析成DOM树,扩展DOM树,增加主题相关度影响因子。提出特征权值计算方法计算主题相关度,并根据主题相关性因子进行剪枝,提取主题信息。进而通过句法分析、模式匹配提取中文人物的姓名、出生年月、性别等信息。结果表明,该方法有较好的查全率和准确率。
科技与创新杂志要求:
{1}基金项目:基金项目类别(项目编号)。本刊对基金资助项目,省(部)级以上重大攻关项目和开放实验室研究项目等优秀论文优先发表。
{2}对拟用的稿件本刊将向作者发出Email通知,不用稿恕不另行通知作者,来稿也不退还,请作者自备底稿。
{3}论文题目:应尽量简洁、准确,一般不超过20字。
{4}同一种参考文献多次引用,要标为同一序号,文后不得多次著录;多次引用的文献在文内序号后用上标括号内分别标出每次引用文句的页码,文后著录不再标识页码。
{5}作者简介包括姓名、出生年份、性剐、籍贯、职称、最后学位(或在读学历)。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社