中文信息学报杂志是由中国科学技术协会主管,中国中文信息学会;中国科学院软件研究所主办的一本北大期刊。
中文信息学报杂志创刊于1986,发行周期为月刊,杂志类别为科学类。
杂志介绍
中文信息学报杂志是由中国科学技术协会主管,中国中文信息学会;中国科学院软件研究所主办的一本北大期刊。
中文信息学报杂志创刊于1986,发行周期为月刊,杂志类别为科学类。
主管单位:中国科学技术协会
主办单位:中国中文信息学会;中国科学院软件研究所
国际刊号:1003-0077
国内刊号:11-2325/N
发行周期:月刊
全年订价:¥700.00
关键词: 中文分词 内部结构 分词标准 层叠crf
传统的中文分词就是识别出每个词的边界,它忽略了汉语中词与短语分界不清这一特点。在理论上,语言学家对词边界的确定往往各持己见,各语料库的分词标准不能统一,在实践中也不能完全满足具体应用的需求。该文给出了基于层叠CRF模型的词结构自动分析方法,能够以较高的精确度获得词的边界信息和内部结构信息。相比于传统的分词,词的结构分析更加符...
关键词: 复句关系词 规则冲突 有向无环图
复句中的关系词对研究复句中各分句的语义关系有着重要意义,在基于规则的关系词自动识别中需要大量的规则,并且规则库是动态变化和不断完善的,向规则库中入库规则时会出现规则冲突和入库错误的情况,该文探讨如何在入库时识别产生冲突的规则,并对规则进行相关的处理。对复句的普通规则、连用词规则、普通句式规则、连用句式规则四类规则进行了形...
关键词: 否定信息 不确定信息 自然语言处理
否定与不确定表达在自然语言中广泛存在,正确识别此类信息并将其与准确信息分开处理,在信息抽取、情感分析、文本挖掘等自然语言处理任务中具有重要研究价值。自从2008年BioScope语料库以来,针对否定与不确定信息抽取研究举办了多次大规模评测会议和学术论坛,为采集语料、明确任务及性能评测等提供了交流平台,否定与不确定信息抽取逐渐成为自然...
关键词: 事件关系检测 篇章分析 事件 论元 语义关系
事件关系检测是一项面向文本信息流进行事件关系判定的自然语言处理技术。事件关系检测的核心任务是以事件为基本语义单元,通过分析事件之间的语义关联特征,实现事件逻辑关系的识别与判定,包括关系识别(即识别有无逻辑关系)和关系判定(即判定逻辑关系类型,如"因果"关系)。目前,专门面向事件的逻辑关系分析与处理,尚未形成一套完整的研究体...
关键词: 情感摘要 多文档 评论质量
任务旨在对带有情感的文本数据进行浓缩、提炼进而产生文本所表达的关于情感意见的摘要,用以帮助用户更好地阅读、理解情感文本的内容。该文主要研究多文档的文本情感摘要问题,重点针对网络上存在的同一个产品的多个评论进行摘要抽取。在情感文本中,情感相关性是一个重要的特点,该文将充分考虑情感信息对文本情感摘要的重要影响。同时,对于评论...
关键词: 社会网络 短文本挖掘 情感单元 评价对象
随着微博等新型社会网络媒体的发展,人们在网络上传播着对各类话题的情感,社会网络也因此成为了挖掘社情民意的有效平台。传统文本分析算法难以适应篇幅短小、内容琐碎且富含情感特征的微博等短文本挖掘的需要。该文提出基于情感单元和评价对象分析的微博情感倾向性分析方法,通过基于词性共现概率计算的情感单元和情感评价对象抽取,计算情感单元...
关键词: 北京大学 中文信息 暑期 学校 学会 中国 语言信息处理 语言技术
2015年7月24日至25日,第十届中国中文信息学会暑期学校在北京大学成功举办。自2005年以来,语言技术暑期学校已成功举办九届,是国内语言信息处理领域最为重要的学术活动之一。历届暑期学校获得了广大师生的普遍好评,为自然语言技术的人才培养和技术推广做出了卓越贡献,数以千计的学子在暑期学校中获得了来自国内外著名高校和科研机构的知名学者的...
关键词: 条件随机场 微博 情感对象识别 信息抽取 情感分析
微博行文具有较大的自由性,其中情感对象识别是一个困难的问题,尤其是情感对象未显性出现情况下的情感对象识别,暂未发现有效解决方法。该文针对这一难题,结合中文微博的特点,提出了一种改进的条件随机场的模型。该模型把情感对象识别看作一个序列标记问题,通过在传统的CRF序列标记模型上增加情感对象的全局节点,有效地结合上下文信息、句法依赖...
关键词: 用户影响力 新浪微博 传播路径
微博用户影响力作为影响力研究在微博领域的延伸,已逐渐成为一个研究热点。该文在传统影响力度量指标的基础上,结合微博价值、消息传播过程中产生的影响力扩散以及用户的活跃程度,提出了三种新影响力度量方法,包括微博影响力、行为影响力以及活跃度影响力。此外,通过有效融合上述三种新度量方法提出了新的微博用户影响力度量模型。最后,针对不同...
关键词: 情感分析 情感信息抽取 中文语料库
情感信息抽取是情感分析中的一个重要子任务。虽然该任务已经开展有一段时间,但是面向中文文本的情感信息抽取任务研究才刚刚起步。目前中文文本的情感信息抽取面临的首要困难在于现有的相关中文语料库还非常有限。为了更好开展中文文本的情感信息抽取研究,该文重点研究了中文语料标注体系,构建一个规模较大、标注类型丰富的中文情感信息抽取语...
关键词: 跨领域倾向性分析 迁移学习 偏置的马尔科夫模型
在情感倾向性分析中,经常会发生由于领域知识的变化引起的分类精度下降的问题。为解决此类问题,该文提出了一种基于实例和特征相融合的知识迁移方法,首先通过三部图构建了源领域和目标领域的领域依赖特征词之间的关联,并得到一个公共的语义空间来对原有的向量空间模型进行重建,然后再通过带偏置的马尔科夫模型,建立源领域和目标领域实例之间的关...
关键词: 情感分析 多层次语言特征 弱监督算法 情感词典
该文提出一种基于多层次语言特征的弱监督的情感分析方法,先以少量情感词构成初始情感词典,用这些种子词汇作引导,根据评论文本在单词、短语及句子级别的语言特征结合上下文挖掘目标文本中潜在的具有情感倾向的词汇/短语。通过自训练不断扩充情感词典,最终得到一个具有领域特征的情感词典,并用所得到的情感词典对目标文本的情感倾向进行判断。与...
关键词: zipf定律 zipf指数 搜索引擎 网络信息计量学
作为文献计量学重要定律的Zipf定律已在许多领域得到较广泛的应用,网络信息计量学伴随着网络信息的激增而受到人们越来越大的关注。该文结合搜索结果数量的分布情况,提出了在网络信息计量学中仍然存在Zipf定律的猜想,并采用公开的词语集在几个代表性的搜索引擎中进行实验验证,证实了搜索结果数目近似服从Zipf定律的结论,其中Baidu与So搜索结果的...
关键词: 文字信息处理 少数民族语言 学术研讨会 十五 中央民族大学 中文信息 信息技术 朝鲜族
2015年8月13—14日,由中国中文信息学会民族语言文字信息专委会主办,延吉北亚信息技术研究所、中央民族大学、中国朝鲜语信息学会承办的"第十五届少数民族语言文字信息处理学术研讨会"在吉林省延边朝鲜族自治州延吉市召开。今年适逢中国中文信息学会民族语言文字信息专委会成立暨全国少数民族语言文字信息处理研讨会召开30周年。
关键词: 话题相关文档集 自动文摘 复杂网络 连通性 信息融合
基于数量有限的文档,该文构建以基本要素中的head和modifier为节点的无向网络UBEN,调查了话题相关文档的UBEN的连通性,指出了话题相关的文档的UBEN具有的特性。讨论停用词对UBEN连通性的影响,比较了相关文档集和随机文档集的UBEN的联通特性的差异,指出了连通性在一定程度上是文档之间内容相关导致的融合结果。结论对多文档自动文摘和信息检索等...
关键词: 文本分类 不平衡问题 特征选择 主导性分析 区分能力
文本分类中的不平衡数据问题在现实应用中比较普遍。传统的特征选择方法在不平衡问题上倾向于多数类而忽略稀有类。针对这种倾向性该文提出了一种主导性分析量化方法,并基于对该方法的优化提出了一种基于类别区分能力的特征选择方法,即DA(Discriminative Ability)方法,该方法使用文档概率的最小绝对值差作为评分标准,一定程度上保证了特征选择...
关键词: 文本文档 特征词 特征选取 文本分类
中文特征词的选取是中文信息预处理内容之一,对文档分类有重要影响。中文分词处理后,采用特征词构建的向量模型表示文档时,导致特征词的稀疏性和高维性,从而影响文档分类的性能和精度。在分析、总结多种经典文本特征选取方法基础上,以文档频为主,实现文档集中的特征词频及其分布为修正的特征词选取方法(DC)。采用宏F值和微F值为评价指标,通过...
关键词: 知识进化 猜测 反驳 关联分类
针对传统的关联分类算法在构造分类器的过程中需要多次遍历数据集从而消耗大量的计算、存储资源的问题,该文提出了一种基于知识进化算法的分类规则构造方法。该方法首先对数据集中的数据进行编码;然后利用猜测与反驳算子从编码后的数据中提取出猜测知识和反面知识;接着对提取出来的猜测知识进行覆盖度、正确度的计算,并根据不断变化的统计数据利...
关键词: 信息检索 学术会议 洛阳 中文信息 副理事长 科研机构 青年学者 计算机
8月22—25日,第二十一届全国信息检索学术会议(CCIR2015)在洛阳顺利召开。本次会议由中国中文信息学会和中国计算机学会联合主办、洛阳外国语学院承办。参加本次会议的代表来自全国从事信息检索理论与应用研究的近70所高校和科研机构,共260余人,既有享誉国内外学术界和产业界的资深专家,也有崭露头角的青年学者。洛阳外国语学院的领导出席了会...
关键词: 中文微博 情感分类 机器学习 特征选择
随着Web 2.0时代的兴起,微博作为一个新的信息分享平台已经成为人们生活中一个重要的信息来源和传播渠道。近年来针对微博的情感分类问题研究也越来越多地引起人们的关注。该文深入分析了传统的情感文本分类和微博情感分类在特征表示和特征筛选上存在的差异,针对目前微博情感分类在特征选择和使用上存在的缺陷,提出了三种简单但十分有效的特征选...
关键词: 中文字符 同形异码 unicode
同一个字符拥有不同的计算机内部代码,这意味着有两个或两个以上字形在人的眼中是同一个字,而计算机却认为是不同的字。这种"人机看法不一致"会给语言信息处理带来混乱,导致信息检索不全,统计数字不准,字词分类排序不一致等情况。该文结合Unicode实例专题讨论当前计算机上存在的中文同形异码字问题,包括(a)私人造字公有化所形成的同形异码字...
关键词: 编码 同义词替换 可逆文本水印 定位篡改
从通信编码的角度,该文探讨一种利用编码方法和同义词替换相结合的可逆文本篡改检测水印算法。以可替换同义词为标志对文本进行分组,提取分组文本特征生成认证水印信息;利用霍夫曼编码和纠错编码对同义词库各词进行编码,利用同义词替换技术完成水印的嵌入。在接收端,利用分组文本特征和霍夫曼编码,实现水印文本的篡改定位,利用纠错码实现可替换...
关键词: 书法汉字 连通区域 视觉重心 回归分析
该文提出了一种汉字字形视觉重心的计算方法。首先收集常用汉字图像样本,通过图像预处理,提取出样本汉字的连通区域视觉平衡中心;然后招集被试对样本汉字进行视觉重心标注;再利用统计建模的方法,构建出连通区域视觉平衡中心和汉字整体视觉重心之间的关系模型。与相关方法比较,文中方法考虑了汉字视觉重心依赖于人的主观体验这一因素。该方法能广...
关键词: 统计机器翻译 成语翻译 复述
汉语成语是汉语的精华,拥有特有的语言形式,并经常出现在汉语中。但是由于汉英统计机器翻译训练语料中成语的稀疏性和现今大多机器翻译系统并没有对成语进行特殊的处理和研究,在汉英机器翻译中成语的翻译并不理想。针对该问题,本文提出了基于复述技术的两种方法来提高汉英统计机器翻译系统中成语翻译的能力。方法1:测试集成语复述替换;方法2:...
关键词: 时间敏感 排序学习 微博搜索
近年来微博检索已经成为信息检索领域的研究热点。相关的研究表明,微博检索具有时间敏感性。已有工作根据不同的时间敏感性假设,例如,时间越新文档越相关,或者时间越接近热点时刻文档越相关,得到多种不同的检索模型,都在一定程度上提高了检索效果。但是这些假设主要来自于观察,是一种直观简化的假设,仅能从某个方面反映时间因素影响微博排序的规...
关键词: 语义位置语言模型 dirichlet平滑 邻近度信息 检索模型
在传统的检索模型中,文档与查询的匹配计算主要考虑词项的统计特征,如词频、逆文档频率和文档长度,近年来的研究表明应用查询词项匹配在文档中的位置信息可以提高查询结果的准确性。如何更好地刻画查询词在文档中的位置信息并建模,是研究提高检索效果的问题之一。该文在结合语义的位置语言模型(SPLM)的基础上进一步考虑了词的邻近信息,并给出...
关键词: 问答系统 本体知识库 问题类型 结构化语义
该文设计并实现了基于本体的航空领域问答系统,该问答系统采用面向领域本体的问题分类方法和结构化语义信息提取方法,将自然语言问题转换为SPARQL查询语句,在本体知识库中检索答案。实验结果表明,该系统能够处理该领域内的大部分常见问题,取得了82.97%的平均准确率。
关键词: 三音节词 元音和谐 声学分析 语音合成 维吾尔语
该文从提高语音合成自然度的实际需求出发,首次从实验语音学的角度从《维吾尔语语音声学参数库》中统计出了333个三音节词,其中再筛选了93个全和谐词和半和谐词,并对其元音的宽带共振峰模式、共振峰值、音高、时长和音强等韵律参数进行了统计分析,归纳了其共振峰、音高、时长和音强分布特点来考察元音和谐的基本声学特征,总结出了一些重要的规则...
关键词: 语言文字 创刊 policy 学术期刊 商务印书馆 委员会 双月刊 规划
我国第一份以语言政策和语言规划为主要内容的专业学术期刊《语言战略研究》(Chinese Journal of Language Policy and Planning),将于2016年1月正式创刊。该刊由国家语言文字工作委员会指导,中国语言学会语言政策与规划研究会学术支持,商务印书馆主办出版。刊号为CN10-1361/H,双月刊,16开96页,公开发行,邮发代号82-104。
关键词: 终身成就奖 acl 中国科学家 高山 计算语言学 中文信息 菲 桃
2015年7月29日,国家会议中心,在全场雷鸣般的掌声中,中国中文信息学会理事长李生教授走上讲台,从国际计算语言学联合会(Association for Computational Linguistics:ACL)主席克里斯托弗-曼宁(Christopher Manning)手中接过了2015年ACL终身成就奖的奖牌。这是ACL成立至今半个多世纪以来,中国科学家首次荣膺此项殊荣。
关键词: 计算语言学 国际 年会 北京 自然语言处理 中国大陆 it企业 中文信息
2015年7月26—31日,由中国中文信息学会承办的第53届国际计算语言学年会(Annual Meeting of the Association for Computational Linguistics,ACL)首次在中国大陆召开。本次会议在北京国家会议中心举办,会议汇集了1 200多名自然语言处理领域的国内外知名学者,包括谷歌、微软、Facebook等多个国外知名IT企业,以及百度、阿里巴巴、腾讯等国内知...
若用户需要出版服务,请联系出版商,地址:北京海淀中关村南四街4号,邮编:100190。