中文信息学报杂志是由中国科学技术协会主管,中国中文信息学会;中国科学院软件研究所主办的一本北大期刊。
中文信息学报杂志创刊于1986,发行周期为月刊,杂志类别为科学类。
杂志介绍
中文信息学报杂志是由中国科学技术协会主管,中国中文信息学会;中国科学院软件研究所主办的一本北大期刊。
中文信息学报杂志创刊于1986,发行周期为月刊,杂志类别为科学类。
主管单位:中国科学技术协会
主办单位:中国中文信息学会;中国科学院软件研究所
国际刊号:1003-0077
国内刊号:11-2325/N
发行周期:月刊
全年订价:¥700.00
关键词: 虚词用法知识库 虚词用法词典 虚词用法规则库 虚词用法标注语料库
现代汉语虚词用法繁杂多样,虚词用法的研究对汉语语义理解及语法分析起着非常重要地作用。该文在分析虚词及词汇知识库研究现状的基础上,对三位一体的现代汉语虚词用法知识库中虚词用法词典、虚词用法规则库和虚词用法标注语料库的建设过程进行了详细描述,对虚词知识库现存的问题进行了分析。利用已经构建的现代汉语虚词知识库,对虚词用法自动识...
关键词: 多视图树库 依存语法 短语结构语法
树库是自然语言处理中一项重要的基础资源,现有树库基本上都是单视图树,支持短语结构语法或者依存语法。该文提出一套基于依存语法的多视图汉语树库标注体系,仅需标注中心语和语法角色两类信息,之后可以自动地推导出描述句法结构所需的短语结构功能和层次信息,从而可以在不增加标注工作量的前提下获得更多语法信息。基于该体系,构建了北京大学多...
关键词: 汉语常用词知识库 综合型语言知识库 部件词
面向自然语言处理的词汇语义研究应该以词汇的计量研究为基础。该文在评述汉语词汇计量研究的主要成果以后,提出一个汉语常用词知识库的建设任务,并给出常用词表的构造性定义、词表常用性的定量评价方法以及"部件词"的概念,最后介绍现代汉语常用词知识库的总体设计和已经做的工作。期望常用词知识库的建设能为汉语词汇语义学研究、为中文信息...
关键词: 面向计算 双音词 分离 语法意义与特性 现代汉语
汉语缺乏严格的形态束缚,在句子里双音词经常由于嵌入相关句法成分而呈现出分离。为了提高自然语言处理中语段分词、词性标注及基于规则的句子语义计算的准确性与有效度等,文章系统考察了现代汉语里典型词与离合词的分离现象,挖掘并刻画出它们各自形成的语法动因、条件、意义以及分离而成的成分的语法特性等,从而对现代汉语中双音词的分离做出了...
关键词: 语义信息标注词库 复合名词 生成词库理论 物性结构 语义类型
复合名词分析一直是语言研究和自然语言信息处理中的一个重要问题,涉及未登录词的识别、自动释义以及词典编纂等。生成词库理论是目前较新的一种语义学理论,我们拟利用该理论对汉语复合名词进行语义信息标注,建立一个词库。该文首先介绍了这一词库的标注框架,然后通过对"纸"、"石"构成的复合词的对比分析,展示了这一词库在复合名词构词、语...
关键词: 语义场 复杂网络 无标度分布
语义场是词语意义联系在一起构成的语义系统。一门语言的所有子语义场合在一起,就是该语言的语义场。探索用复杂网络来表示汉语的语义场,基于联想场的概念,该文提出用复杂网络表示汉语的语义场。该网络的节点度,节点权值与边权值均服从无标度分布。展示结点度、结点权值、边权值在一定范围的内容,观察到一些在网络视角才能发掘出的现象。该文将...
关键词: 本体映射 机器学习 分层抽样 相似度传播算法
本体映射是解决本体异构问题的关键方案。该文以HowNet和CCD中的名词性概念为例,首先利用机器学习技术发现初始映射关系,主要包括特征选择、样本集合划分、分类器选择等步骤;然后考虑本体的整体结构信息,利用相似度传播算法,对初始映射关系进行全局调整。实验表明,最终的一对一和一对多映射关系的准确率分别达到了94%和87.5%。
关键词: 语音信息处理 中文信息 工程 学会 中国 清华大学 国际竞争 fit
2015年4月18日,中国中文信息学会语音信息处理专委会在清华大学FIT大楼举办"见证言语工程(二)"纪念册会。我国音韵学和语言学的研究有较长的历史,但言语工程、实验语音学的研究只有几十年历史。面对世界高技术蓬勃发展、国际竞争日益激励的严峻挑战,国内一批专家开创了言语相关的研究。
关键词: 词义知识 属性描述 分类描述 序关系 特征序列 语义分类体系
词义知识表示主要依赖属性描述或分类描述,这两种方式各有所长,但不同表示之间相互转换的可行性与现实状况还未被关注。在属性描述的基础上,该文引入序关系的思想,提出基于特征序列的概念与方法,以此来模拟、分析概念涵义从一般到特殊的渐次生成过程,发掘尚未显性化的中间概念,自动构建出一个语义分类体系。以HowNet(2000版)数据为例,实验表明...
关键词: 语义标注 本体 非结构化文本 依存句法
为弥补传统的语义标注方法在词语或句子成分之间关系描述方面的不足,该文提出了一种基于本体和依存句法的非结构化文本语义关系标注算法。算法以句子为单位,综合POS(Part of Speech)、语义辞典、语言学特征等因素对句子中词汇的语义关系进行识别,利用词语间的依存关系对词语进行语义组合,从而实现词汇语义关系标注。结合语义标注过程中的语义...
关键词: 国际研讨会 汉语词汇 语义学 教育部重点实验室 北京师范大学 semantic 中国内地 计算语言学
2015年5月9日—11日,第十六届汉语词汇语义学国际研讨会(The 16th Chinese Lexical Semantic Workshop)在北京师范大学召开。本届会议由北京师范大学文学院与教育部人文社科重点研究基地北京师范大学民俗典籍文字研究中心主办,中国中文信息学会、北京大学计算语言学教育部重点实验室协办。来自中国内地、香港、台湾、美国、英国、德国、新加坡...
关键词: 篇章语义标注 修辞结构理论 关系标签 内容标签
篇章标注是自然语言处理中的重要任务,很多其他任务,如自动摘要、机器问答等都可以通过篇章标注得到对文本内容和语义的认识,从而获得更好的结果。与此同时,篇章理解的理论如篇章修辞结构(RST),向心理论(CT)等与实际问题的结合并不紧密,难以实用。该文中我们参考现有的语言学理论和一些语篇标注库(如RSTDT,PDTB),并结合自然语言处理任务特...
关键词: 句际关系 小句关系 语料库标注
句际关系自动分析属于篇章语义学研究的范畴,虽然英语句际关系的研究已有大量工作,但汉语句际关系的自动分析还只是刚刚起步。该文在RST理论框架下,结合汉语特点,提出了完整的汉语篇章级小句关系标注体系。将汉语话题和逻辑关系置于同一个框架下进行描述,将小句关系划分为事件附属关系和事件逻辑关系两大类。逻辑关系又包括6个中类、15个小类。...
关键词: 文本蕴涵识别 图式 物性结构 理想认知模型 框架 脚本
文本蕴涵识别是大部分自然语言信息处理应用的核心。该文尝试探讨文本蕴涵识别中涉及的(意象)图式理据。通过对选自语料例子的分析,显示各类图式是如何成为文本蕴涵识别的理据的。图式包括物性结构、理想认知模型、框架、脚本等。这些图式都是表示语义信息的结构。从广义上讲它们都可以纳入语义特征的范畴,都可能成为蕴涵关系成立的理据。基于...
关键词: 篇章关系 隐式篇章关系 框架语义
篇章关系分析是一种专门针对篇章语义关系及修辞结构进行分析与处理的自然语言理解任务。隐式篇章关系分析是其中重要的研究子任务,要求在显式关联线索缺失的情况下,自动检测特定论元对之间的语义关系类别。目前,隐式篇章关系分析性能较低,主流检测方法的准确率仅约为40%。造成这一现状的主要原因是:现有方法脱离论元的语义框架进行关系分析与...
关键词: 微博 意群 情感倾向
微博作为一种新兴的社交网络平台,逐渐成为公众个人信息,获取实时信息,表达个人观点的新平台。针对微博情感倾向判断的问题,提出了一种基于意群划分的中文微博情感倾向分析(STDSG)方法。引入意群的概念,提出微博意群划分算法,根据意群间的关系,考虑否定词、程度词及标点符号的对情感倾向分析的影响,提出计算微博意群情感倾向的方法。在给定的...
关键词: 中文文本分类 情感倾向性 文本纹理 svm
随着互联网的发展,社交网络、电子商务等已经成为人们关注的焦点,对社交网络的文本进行情感倾向性分析和挖掘变得越来越重要。该文针对网络上的中文文本,提出一种基于文本纹理特征的情感倾向性分类方法。通过测试多种文本纹理特征对文本情感倾向性的影响,成功将文本纹理特征融入情感分类中。通过计算各类特征与文本的情感倾向性的相关度,对特征...
关键词: 情感分类 观点袋模型 词性搭配
该文针对网络评论倾向分级问题,提出了一种基于观点袋模型和语言学规则的多级情感分类方法。通过分析句子中的词性搭配关系,设计了12种抽取特征-观点搭配模式,并对存在问题给出了解决策略。依据汉语用词特点和词汇在汽车领域的特殊用法,提出搭配四元组的情感倾向极性值计算方法。在此基础上,利用获取的搭配四元组及其情感倾向极性,建立文本的向...
关键词: 顾客点评 属性观点联合模型 游走时间 属性依赖情感知识
该文研究属性依赖情感知识学习。首先提出了一个新颖的话题模型,属性观点联合模型(Joint Aspect/Opinion model,JAO),来同时抽取评论实体属性及属性相关观点词信息。在此基础上,对于各个属性,构造属性依赖的词关系图,并在该图上应用马尔科夫随机行走过程来计算观点词到少量褒、贬种子词的游走时间(Hitting Time),进而估计这些词的属性依赖的...
关键词: 微博 用户内容生成 模式分析
随着Web 2.0时代网络技术的快速发展,社交类网站用户大规模增加。该文选取腾讯微博近两万名用户,抓取了他们所有的微博数据,对腾讯微博的用户内容生成模式进行分析和研究。我们从微博用户贡献分析、基于时间的用户活跃度分析以及微博影响三个角度出发,对微博的数量、微博的原创与转发、微博的周模式与日模式、微博转发影响力以及对影响微博转发...
关键词: 搜索广告 概率预测模型 cpa广告
基于转化的广告方式在应用和研究中逐渐得到重视,采用该方式的搜索广告在广告排序时需要对候选广告的转化概率进行预测,以提高广告的转化率,优化搜索引擎的广告收益。该文在对搜索广告中影响转化的各特征进行提取与分析的基础上,提出了描述广告、查询、用户三个因素与转化事件关系的概率因子图模型,并基于该模型对广告转化进行预测。最后我们使...
关键词: 产品垃圾评论 不平衡问题 随机森林
目前的产品垃圾评论识别方法只考虑评论特征的选取,忽略了评论数据集的不平衡性。因此该文提出基于随机森林的产品垃圾评论识别方法,即对样本中的大、小类有放回的重复抽取同样数量样本或者给大、小类总体样本赋予同样的权重以建立随机森林模型。通过对亚马逊数据集的实验结果表明,基于随机森林的产品评论识别方法优于其他基线方法。
关键词: 信息检索 查询扩展 伪相关反馈 排序学习
查询扩展作为一门重要的信息检索技术,是以用户查询为基础,通过一定策略在原始查询中加入一些相关的扩展词,从而使得查询能够更加准确地描述用户信息需求。排序学习方法利用机器学习的知识构造排序模型对数据进行排序,是当前机器学习与信息检索交叉领域的研究热点。该文尝试利用伪相关反馈技术,在查询扩展中引入排序学习算法,从文档集合中提取与...
关键词: 人名识别 搜索日志 条件随机场 可信度
搜索日志中人名识别一直是日志挖掘中的一个重点和难点,其结果好坏直接关系搜索引擎的检索效率和准确率。由于分析了长文本中人名识别方法在搜索日志中使用存在很多困难与不足,因而该文提出了一种在搜索日志中识别中文人名的方法。该方法将搜索日志中人名内部用字的概率特征引入条件随机场,再根据搜索日志的特点计算人名可信度提取搜索日志中的...
关键词: 历时信息 词汇演化 历时计算 语料库
词汇是语言系统中最具活力的子系统。在语言演化的过程中,词汇的历时变化是语言学、历史学、社会学等多学科所关注的信息。我们收集了时间跨度约为60年的同质新闻语料。基于自然语言处理技术我们开发了现代汉语词汇历时检索系统。基于该平台可以利用频率、累积和与累积频率等方法从微观和宏观的角度上对词汇的语义、语用等方面进行研究。
关键词: 微博检索 hashtag 聚类 时间 语言模型
随着微博的快速发展,微博检索已经成为近年来研究领域的热点之一。微博检索与传统文本检索在两个方面明显不同:一是微博具有自己的特点,表现在文本短和内容中具有主题概括词(称为Hashtag);二是微博排序中除了考虑文本和语义相似度,还需考虑时间信息。根据这两点区别,该文在统计语言模型的基础上,使用聚类进行文本扩展,并将Hashtag信息运用到...
关键词: 拉萨话 嗓音特征 基频 开商 速度商
该文对藏语拉萨话单音节的嗓音特征进行了实验研究,实验首先对藏语拉萨话单音节进行语音标注,然后根据语音标注的位置信息,利用对应的程序提取音节结构中的元音和辅音的嗓音声学参数,对基频、开商和速度商分别统计分析,并做了显著性分析。实验结果表明不同元音和辅音的嗓音参数与发声方式以及其在音节中位置有关,元音和音节结构的不同会显著影响...
关键词: 蒙古语名词 语义信息词典 开发 应用
2009年至今,"蒙古语名词语义信息词典"(以下简称为"名词语义词典")通过几年的开发目前词典基本成形,并且有了显著的新进展。其新进展主要体现在词条的扩充、属性字段的增添及其初步应用。该文概要介绍"名词语义词典"的研发过程,实例说明这部词典的新进展和初步应用情况。
关键词: 中文信息处理 藏语信息处理 词汇获取 藏语三音节复合动词短语
藏语三音节复合动词短语(以下简称三音动词短语)能产性强,使用频率高,结构不稳定,给藏语文本处理带来很多麻烦。针对这些特点,该文提出了一种统计和规则相结合的三音动词短语的自动抽取算法。首先,从三音动词短语的结构出发,以构成三音动词短语的动语素作为标志,获得三音动词短语候选项。然后,利用统计算法和语言规则库对候选项进行过滤,获得...
关键词: 维吾尔语 机器翻译 汉维翻译 词干 词缀 形态分析
汉语到维吾尔语的自动机器翻译有着重要的现实意义。目前对于汉维统计机器翻译方法的研究相对空白。该文提出了一种以维吾尔语为词干词缀粒度的汉维机器翻译方法。该方法利用维吾尔语形态分析后的词干词缀作为翻译的基本单位,并且根据其黏着语特性提出了一种基于有向图的维吾尔语"词干-词缀"语言模型。基于开放语料的实验证明我们的词干词缀翻...
若用户需要出版服务,请联系出版商,地址:北京海淀中关村南四街4号,邮编:100190。