网络舆情分析研究现状模板(10篇)

时间:2023-07-21 16:49:02

导言:作为写作爱好者,不可错过为您精心挑选的10篇网络舆情分析研究现状,它们将为您的写作提供全新的视角,我们衷心期待您的阅读,并希望这些内容能为您提供灵感和参考。

网络舆情分析研究现状

篇1

中图分类号:TP393文献标识码:A文章编号:1009-3044(2011)04-0759-03

The Design of the Detection and Analysis of Public Opinion Intelligent Network System

YANG Qiu-ping

(Dongguan University of Technology, Network Information Center, Dongguan 523808, China)

Abstract: We pay more and more attention to network public sentiment. Especially, the government concerns the net post and net news of emergencies and important events. Then, the special systems for analysis network public sentiment exist. Firstly, this article analysis the systems of network public sentiment, and then finds out their shortages and study the correlative techniques. At last, this article introduces a new way to build a network public sentiment detecting and analysis system.

Key words: intelligent detecting and analysis; network public sentiment; data mining

随着互联网的快速发展,网络媒体作为一种新的信息传播形式,已深入人们的日常生活。网络言论活跃已达到前所未有的程度,不论是对国家政策的讨论,还是针对国内或国际的重大事件,都能马上形成网上舆论,这种网络来表达观点、传播思想产生舆论压力,达到任何部门、机构都无法忽视的地步。

网络舆情通过BBS论坛、博客、新闻跟贴、转贴等形式对现实生活中某些热点、焦点问题等进行反应,其中不乏较强影响力、倾向性的言论和观点。如果引导不善,负面的网络舆情将对社会公共安全形成较大威胁。对相关政府部门来说,如何加强对网络舆论的及时监测、有效引导,以及对网络舆论危机的积极化解,对维护社会稳定、促进国家发展具有重要的现实意义,也是创建和谐社会的应有内涵。

1 系统价值

1.1 社会效益分析

网络舆情智能监测与分析系统利用数据挖掘技术实现对网络舆情的统计分析,并以此作为网络舆情监测的管理的依据。具体作用表现在以下几个方面:

1) 系统向决策者提供客观、准确的舆情信息,有利于决策者做出正确的决策

2) 系统向决策者提供系统的、高效的、综合的、全面的舆情信息,便于决策者全面的、正确的把握所需的信息, 提高决策效率, 启迪决策思维

3) 系统能提供各种舆情的趋势分析信息给决策者

1.2 经济效益分析

目前,由于互联网的日益普及,各种舆情的不断涌现,好的、坏的都有。政府部门、大型机构、社会企业等都希望能尽早识别不良倾向的、带有煽动或甚至含有社会危害的言论,或者是获取政策落实、制度实施效果等信息。这些需要揭示了系统建设在带来巨大的社会价值的同时带来巨大的经济效益。

2 同类系统现状

基于目前的网络现状,为数不多的网络舆情监测系统基本上是采用关键词搜索进行舆情信息检测,由于关键词搜索的查全率和查准率都不高,因此网络舆情监测的效果不够理想,更是无法自动发现新的舆情点。

部分网络舆情检测系统只是在企业内部使用,无法适用于政府部门等大型机构,部分系统采用的算法效率低,不能快速对数据进行处理,因而无法满足超大网络环境下的舆情检测与分析,无法做到自学习成长,没有类似知识库的自动累积处理功能,必须人工协助处理。基于此种情况,提出创建《网络舆情智能检测与分析系统》项目来解决这些问题。

3 网络舆情智能检测与分析系统简介

该系统核心部分包括信息获取、信息处理、前端信息展现几个部分。实现从网页获取数据,利用数据挖掘技术对数据进行清洗、提炼、分析总结,最终形成决策信息并存入数据库中,提供灵活的前端查询机制,把信息传递给决策人员。

网络舆情智能检测与分析系统实现以下目标:1) 对热点话题、敏感话题识别。2) 实现倾向性分析。3) 实现对舆情主题的跟踪。4) 自动形成舆情摘要。5) 形成趋势分析报告。6) 自动识别突发事件及发展趋势。7) 对敏感内容实现预警。8) 提供舆情分析统计报告提供决策支持。

4 系统关键技术研究

4.1 网络舆情行为模式识别技术

对于“行为模式识别”算法应用最广和成熟的是防垃圾邮件的“行为模式识别技术”。在垃圾邮件的行为模式识别技术的基础上,根据网络舆情的特点,舆情内容内在结构关系、演化规律等基础信息,收集网络上典型的热点话题、敏感话题、政策热议等方面的适当数量的文章组成行为识别学习训练库,利用网上话题的热度、焦度、敏度、频度、锐度、歧度、粘度等度量指标作为舆情分析的依据,配以科学的算法,通过对“训练库“进行学习及总结、计算,结合网络舆情信息产生和传播的典型行为特征,建立网络舆情行为模式数学统计模型,以此实现网络舆情的智能发现。

4.2 自动分类和聚类技术[1]

自动分类是指按照已有的分类,把相关信息按照分类的标准进行归类。聚类则事先没有定义特点的分类及标准,是在分析过程中利用一定的算法,把类似的内容进行自动划类并聚合的处理过程。

根据舆情分析的特点,本系统基于统计的自动分类技术,利用向量空间模型来表示舆情分析的文档。对舆情文档特征进行抽取和加权、机器学习。在处理过程中,考虑到不同位置出现的语词的价值不同而给定不同的加权系数。机器学习的方法主要有支撑向量机、最近K邻居方法和贝叶斯算法[2] 等,可以根据舆情文档的特点而选择相应的方法。

舆情文档自动聚类的关键步骤有文档表示、相似度计算、聚类和给出聚类标识等。常用的聚类方法有单遍聚类法、逆中心距聚类法、密度测试法、图聚类法等。在网络舆情分析中,根据舆情分析的目的,选择那些最具有区分性的特征,而不是大多数文档都具有的特征来实现自动聚类。

在本系统解决方案中采取了自动归类和自动聚类相结合的方式,先进行自动归类,再在各类别之下进行自动聚类。

4.3 内容分析技术

内容分析法是一种对于传播内容进行客观,系统和定量的描述的研究方法。其实质是对传播内容所含信息量及其变化的分析,即由表征的有意义的词句推断出准确意义的过程。内容分析的过程是层层推理的过程。随着信息技术的发展,计算机的性能不断提高,各种内容分析技术也逐渐成熟,为网络舆情的深度挖掘分析奠定了很好的基础。

《内容分析法:媒介信息量化研究技巧》[3]一书提供了系统全面的内容分析研究的操作指南,深入分析了内容分析中的各种常见问题,如测量、抽样、信度、效度和数据分析中的各种技术。在进行网络舆情内容分析前,获取相关网络舆情数据,经过数据清洗,获取有针对性的、信息量大、覆盖全面的、连续的内容样例,定义分析单元。对数据进行量化处理形成评判记录和进行信度分析两部分内容,再根据网络舆情建立合适的维度,最后进行统计分析,并形成分析结论。

5 系统实现

在系统开发过程中,要建立了若干知识库,利用垂直搜索、知识发现、自动分词和抽词、自动分类和聚类、内容分析等技术,实现对海量网络信息进行监测、网络舆情的自动发现和分析。该系统建设的核心是要收集围绕主题的、足够量的数据,并经过整理形成规范数据再进行挖掘,输出有用的决策信息,系统结构图如图1所示。

系统涉及五个主要方面:

5.1 数据收集处理

进行网络舆情分析的前提是获取基于某个主题的、数量足够多的、完整的网络数据。为了解决这个问题,系统建设时考虑通过建立数据收集规则来达到此目的。在数据收集规则时主要考虑要收集的主题、要搜索的范围、更新频度、收集要到达的数据量等。

在规则制定后,信息收集组件利用类似“网络爬虫”的技术,按照已经设置的收集规则,到网络上进行数据收集。 数据收集后按照主题归于相应的数据库中,以便下一步的数据处理。

5.2 信息处理模块

需要把收集的数据转为有用的信息,在收集到相关数据后,先期对已经收集完成的数据进行格式化、数据清洗、信息处理加工等步骤,最终形成规范的、适于统计的数据。然后再利用数据挖掘技术对数据进行挖掘,形成相应的统计信息,便于查询输出。下面将就关键核心的处理步骤进行说明。

5.2.1 对原始数据的预处理

为了在数据挖掘分析前对数据进行预处理,形成最终有效的待分析数据。首先是继续数据格式化,利用数据格式化实现对各种网页格式的数据进行模式化解析,形成系统统一的数据格式;然后进行数据清洗把“脏”的“洗掉”。该处理步骤主要把不完整的数据、错误的数据、重复的数据等不规范的数据进行清洗,去除无效的、重复的数据,形成数量足够的、时间段连续的、内容围绕主题的数据,为下一步的深度挖掘做准备。

5.2.2 实现对敏感舆情的报警

为了解决相关管理人员需要及时掌握敏感热点或大事件的动态,系统特增加了此处理步骤,在此将利用对敏感热点或大事件的特征进行布控,在布控策略规则中设置需要关注的热点敏感关键字,相关组件将对存储的内容进行扫描、分析。对匹配上的内容进行预警并产生预警记录,同时支持手机和邮件的报警方式,及时把相关信息发送给预设的人员。该模块包括关键字匹配组件、报警处理组件。

5.2.3 数据的深度挖掘分析处理

经过预处理的数据还只是数据,并没有形成有用的信息,所以引入数据挖掘分析处理步骤,以便对数据利用前面介绍的舆情行为模式分析、内容分析等挖掘技术进行深度挖掘及分析,形成系统的核心信息数据,为数据展现提供数据来源。

为了对数据进行挖掘,系统内置的多种数据挖掘算法,实现自动对信息进行分类、总结。具体内容如下:

针对中文信息的处理与分析,系统中的自动分词组件采用词典和规则为基础,综合利用了基于概率分析的语言模型方法,使分词的准确性达到99%以上。在语义分析的基础上,综合考虑词频、词性、位置信息,实现准确的自动关键词与自动摘要。利用网络舆情模式识别技术可以自动发现新的网络舆情模式,便于用户尽早布防。

为解决自动分类的难题,系统内置自动分类组件通过对训练库的学习,获取每个分类的属性特征模型,然后使用这一分类体系对未知分类情况的数据进行分类。聚类组件将结构化的数据集合中的数据根据需要统计的主题划分不同的子集,自动学习形成新的分类,满足自动扩展分类的需要。

面对收集的海量数据,如何获取用户所需的信息这个是一个关键问题,系统通过关联分析、趋势分析,从海量数据中挖掘关联规则。同时,利用趋势分析技术,分析网络舆论等随时间的发展趋势情况,以便实现对舆论环境的监测与不良倾向的预警。

做到上面的内容还只是实现了系统的一部分,系统另外提供对新的知识的自动发现。利用自动分类与聚类等技术基础,对知识进行挖掘并汇总分析,能实现对新的网络舆情的发现及获取发展趋势。同时把结果合并到系统已有的知识库,达到不断扩展知识库的要求。

有时候用户会要对特定的事件或舆情进行跟踪,为了解决此问题,通过系统提供的对象跟踪组件,利用用户在系统中设置的需要特别跟踪的对象的特征,在分析过程中对涉及该对象的数据进行特别分析和处理,形成该对象的信息链存储到数据库中,在数据展现时可以通过图表等方式展现对象跟踪链的相关信息。

5.3 海量数据的存储

网络舆情数据量是海量的,如何提高查询的反馈速度是另外一个重要的问题,系统通过建立全文索引技术,对存储在数据仓库中的数据建立合理的索引,使数据查询输出时提高输出速度及准确性,特别是针对重要的关键字进行检索时能大大的提高查询速度。

除了全文索引,数据管理系统的选择是另外一个重点。考察目前已经成熟的数据库管理系统,发现Oracle是最合适的。所以本系统就采用Oracle作为数据存储的数据库系统,同时可以利用其提供的多维查询技术,实现Olap的查询要求。

5.4 数据快速,准确的展现

有了海量的、有用的信息,如何把这些数据展现给用户?在本系统主要考虑对关键字的查询输出、舆情新关键字挖掘查询、舆情报告的输出、报警信息的查询、各种统计报表的输出。

对于输出的技术要求,在数据输出时系统利用Oracle系统的Olap技术结合系统提供的查询页面框架,可以实现用户从多个角度对各类数据的查询,在页面处理上目前市面上已经有相关的成熟的技术可以作为参考,相信不会有技术难点。

针对输出的内容,系统内置了部分统计报表,这些报表是基于网络舆情分析专家在舆情检测与分析方面的专业知识进行设计,能满足大多数用户的需要。为了满足个性化的查询输出,同时系统支持用户自定义适合自己的统计报表。

5.5 通过系统管理功能保证系统正常运行

为了满足个性化的管理要求,系统提供系统设置、角色管理、用户管理、数据备份等功能,支持定义常用的网页结构及识别规则的定义,用于在数据获取后的格式化分析。解决网页结构识别规则定义、报警关键字设置、报警记录接收手机号或邮箱设置、系统管理用户权限管理等内容。

6 小结

该文先介绍了目前网络现状、同时就同类分析产品的不足进行了描述。另外着重从《网络舆情智能检测与分析系统》的两个重点部分进行描述,从最核心的技术与模块组成来阐述系统是如何实现的。

参考文献:

篇2

一、学科馆员在国内外的起源现状

德国学科馆员制度最早可以追溯到19世纪早期;20世纪60年代早期,平均每个德国研究型大学图书馆设有4~15名学科馆员;至20世纪70年代中期,德国大学图书馆一般都设有8―21名学科馆员。英国的学科馆员在20世纪初(1901―1922年)引进伦敦大学,在20世纪30年代被利兹大学采用并辐射到其它学校;至1975年,已有20个大学图书馆建立了此项制度。在美国,1940年以前,哈佛大学等多家图书馆就已经雇用了早期的学科馆员――区域问题参考馆员;1950年,美国的内不拉斯加大学图书馆设立分支图书馆并配备学科馆员进行管理,才是学科馆员制度最公开、最正式的建立;1981年,美国卡内基―梅隆大学图书馆率先推出了“跟踪服务”(track service)。此外,俄亥俄大学图书馆相继推出了“网络化馆员免费导读服务”(network librarian and free guide)。随后,许多欧美国家的大学图书馆和研究型图书馆也纷纷推行了这种服务模式,并得到图书馆与读者的普遍认同[2]。

在我国,学科馆员制度起步比较晚,我国的学科馆员制度是在借鉴国外学科馆员制度成功实施的基础上发展起来的。1998年清华大学图书馆率先推行学科馆员制度,西安交通大学、北京大学、南开大学等图书馆相继开展[2]。经过10多年的发展,目前国内已有百余家高校图书馆开展此项目,学科馆员制在国内大学图书馆中逐渐推广并受关注,已逐步进入正轨。

目前公共图书馆在数字化、信息化的进程中,得到了快速的推进,已然站在了高校与科研图书馆同一水平线上,加之,公共图书馆文化信息资源共享工程得了很好的推进,这些为推动学科馆员制度提供了有力的支撑。

二、公共图书馆建立学科馆员制度的必要性

在公共图书馆学科馆员服务方面也有成功例子,例如国家图书馆已经拥有一批具备法律学科馆员,为用户提供针对性极强的资料;建立舆情监测分析系统,帮助企业公司了解舆论动向,以制定正确的应对策略,引导舆论正向发展舆情分析;同时专门为立法和决策部门提供服务[3]。上海图书馆开展了对大型企业和中小企业的情报服务,例如:海尔、飞跃电视机厂和“三枪”等单位,帮助企业在专利竞争中赢得国际对手;同时提出建设行业情报平台,为政府经济决策提供信息服务。这都是取决于上海图书馆人员的专业背景、理念和经验比较强以及科技文献馆藏品种全的缘故[4]。浙江图书馆不仅为大型企业提供专题服务,如:国内饮料行业知名企业娃哈哈集团公司等企业;而且还专门开设微小企业专题服务[5]。早在1988年深圳图书馆编发了“窗口信息”,内容涉及电子、自行车、饮料、食品、珠宝、出版、环保、花卉等十二个专业,取得较好的社会、经济效益[6]。他们是公共图书馆行业信息服务的领头羊,给我们做出了好的榜样。

目前,公共图书馆推行学科馆员制则少有,究其原因是:(1)公共图书馆读者众多,各行各业、各个领域的读者需求庞杂,由于受组织结构、人员配置等诸多因素,公共图书馆学科馆员甚少,达不到众多领域都设有学科馆员;(2)公共图书馆的学科馆员,大多由专业知识不强的人员组成,知识能力参差不齐,加上部分领导对学科馆员工作不够重视,以致于公共图书馆大多只是停留在文献传递的参考咨询这个层面上,学科馆员制度流于形式,服务没有真正落到实处。

为了满足众多的读者需求,更好地为大众服务,需要公共图书馆多样化、个性化和深层次的知识服务,由此,公共图书馆实行学科馆员制,迫在眉睫。

三、公共图书馆学科馆员制度的发展模式

1.建立学科馆员制度

目前,国家并没有政策性的规定这一制度图书馆必须建立。为了使学科馆员的工作开展顺利,领导的认识和决心是密切相关的;其关键之一是:取决于馆领导对学科馆员制度的重视,以及对图书馆开展个性化服务的必要性的高度认识,应结合本馆的实际情况,在人才引进和培养、管理体制上保证学科馆员制度的顺利建立,并尽可能地完善学科馆员制度;其二:图书馆需要当地政府的人力、财力及物力的大力支持,因为学科馆员制度与软硬件设施、优秀的人才以及雄厚的财力支持是分不开的,否则将事倍功半。

2.学科馆员的队伍建设

根据各方面学科服务工作的需要,合理配置学科馆员的队伍结构、岗位,确定学科馆员队伍建设的目标;在人力资源方面,我们可通过人才引进和现有馆员的培训采取以下三种方式:一、可以在本馆挑选业务素质好,能够胜任某一科咨询、服务的同志担任学科馆员;二、引进复合型人才,引进具有图书馆情报学知识背景又具备其他学科知识的双学位人才;三、聘请资深离退专家或在职专业人员担任兼职学科馆员,这是最快捷有效的方法。

3.学科馆员的素质培养

学科馆员除了具有淡泊名利的修养和无私奉献的职业道德、“读者第一,用户至上”的服务理念之外,还应具备过硬的业务知识水平。

为了能从大量的庞大无序的信息源中提取、鉴别、筛选、整理、挖掘出读者要求的文献信息,学科馆员必须要熟悉相关学科数据库资源的检索方法与技巧,熟悉图书馆各部门的基本业务工作内容和流程,这样才能为用户提供学科性专业信息资源导航。

要开展文献信息的深层次开发,学科馆员必须紧密跟踪对口学科的国内外学术发展动态,对热点问题、新观点、新动态等进行搜集并分析研究,做出知识性的评价,编制二、三次文献,为用户提供参考。

据统计,网上90%的信息资源是英文资源。熟练地掌握一门外语到多门成为图书馆工作的必需。这要求学科馆员既要有一定的外语水平,也要有一定的计算机操作能力和网络知识。此外,学科馆员还应能提供外文资料的翻译服务。

4. 学科馆员的激励机制

在市场经济条件下,仅仅靠宣传奉献精神或职业道德,已无法从根本上促使学科馆员提高水平的服务。因此,在完善学科馆员制度的同时,还必须对分配制度进行改革,否则馆员制度的实施效果会打折扣。

有些中小型图书馆疏于对科学馆员工作的激励,很大程度地抑制了学科馆员的发展。

马斯洛的需要层次论把人类的需要分为五个层次:生理需要、安全需要、社会需要、尊重需要、自我实现的需要。其中自我实现的需要是指通过自己努力,实现自己对生活的期望,从而对生活和工作感到很有意义。公共图书馆根据学科馆员的需求与动机,有针对性地采用激励方法激发全体学科馆员的工作热情,充分调动主动性和创造性。

建立考核制度,对学科馆员进行上岗后,加强人力资源管理,提高工作效率的重要环节,认真做好平时、年度、聘期内的考核工作,将考核结果与职务的升降、馆员的任职挂钩,逐步形成一个“能者上、平者让、庸者下”的有效竞争机制,以激发学科馆员的主观能动性。

图书馆应结合自身实际,建立科学规范的激励制度,极大地调动积极性。只有这样,才能吸引人才,并使其努力地学习,尽力地工作。

5.学科馆员的选拔、培训机制以及带动作用

对学科馆员不断地进行知识信息素养的补充、更新、拓展和提高培训,则是开发内部的人力资源。

一,根据学科馆员岗位设置要求,在全馆范围内进行考试并结合工作业绩,选拔出优秀人才进行脱产或不脱产培训,进一步提高他们的业务水平和工作技能,形成人才梯队,以保持学科服务的连续性和稳定性。可以在现有馆员中选派业务水平高、责任心强者攻读第二学位,使其通过系统的学习掌握对口学科的专业知识,从而胜任学科化服务工作;二,强化继续再教育,建立人才资源建设的长效机制。为馆员提供多种学习交流和业务培训的机会,参与用户科研活动、专家讲座及学术交流会,让馆员及时掌握学科的前沿动态。三,与兄弟单位进行交流、沟通,互相学习,取长补短。四、贯穿人的一生是自学,自学是继续再教育途径的补充。针对自己的知识水平不断地学习、不断地充实自己,扩大知识面,完善自我。

学科馆员是图书馆服务水平的标志,是图书馆与外界联系的桥梁;同时学科馆员对内也是各项业务工作的核心,是图书馆服务的中坚力量,担负着业务工作的指导和培训的重任,带动全馆员工更好地为经济建设服务。

四、结束语

学科馆员制度在我国公共图书馆工作中既是一种新的服务模式,也是管理上的一种创新行为。公共图书馆应根据自身的实际情况,因地制宜地开展学科馆员服务工作,拓宽图书馆的服务范围,提升服务层次,走出一个具有中国特色的因馆制宜的学科馆员之路。

参考文献:

[1]胡越主编.图书馆服务的学科化与个性化[M].北京市:首都师范大学出版社,2008.10:525

[2]谭浩娟.中外图书馆学科馆员制度的比较与启示.科技情报开发与经济.2006,(1):36-37

[3]赵红.国家图书馆学科馆员和学科化服务[J].法律文献信息与研究.2010,(3):22-27

[4]上海图书馆学会.挖掘知识价值:公共图书馆为企业的信息服务[EB]. [2007-11-19].[2013-10-15]

http:///tsgxh/list/list.aspx?id=3929

[5]范沈姗.企业竞争情报一图书馆信息服务的新热点[J].图书馆理论与实践.2001,(1):22-26,34

[6]张廷杰.深圳图书馆台港澳文献资源的建设与开发[J].图书馆论坛.1993,(3):59-62

篇3

中图分类号:TP3-05文献标识码:A文章编号:16727800(2012)009000303

1文本情感研究的背景

所谓文本情感分析(Sentiment Analysis),就是对说话人的观点、态度和情感倾向性进行分析,即分析文本中表达的主观性信息。根据立场、出发点、个人态度和喜好的不同,人们对各种对象和事件表达的信念、态度、意见和情感的倾向性不可避免地存在差异。在论坛、微博等反映人们观点的网络媒体上,尤其表现出了这种差异。

文本情感分析在实际生活中有着广泛的应用,可以应用于产品推荐系统、有害信息过滤、社会舆情分析、产品在线跟踪和质量评价、影视评价、Blogger声誉评价、新闻报道评述、事件分析、股票评论、图书推荐、敌对信息检测、企业情报系统等方面。

在已有研究中,文本情感分析也被称作观点鉴别(Opinion Classification)、流派分类(Genre classification)、情感的极性(Sentiment polarity)、语义倾向(semantic orientation)、观点挖掘(opinion mining)、观点抽取(opinion extractive)等,为了表述的一致性,本文中将其统一表述为情感分析。

文本情感分析通常包含4个子问题:①确定文本情感的类别有多少;②文本的主客观区分,即区分出文本内容是主观评论还是客观陈述;③文本的极性分类(Polarity Classification),又称为正负面倾向性分类,即判别文本内容是肯定赞赏的,还是否定批判的;④文本情感强度分类,即判定文本情感倾向性的强弱程度,如强烈贬义、一般贬义、客观、一般褒扬、强烈褒扬5个类别,这一问题通常又被称为等级推理(Rating Inference)。

2文本情感分析整体研究现状

目前,公认的关于文本情感分析的研究工作开始于Pang在2002年提出的基于文本的N元语法(Ngram)和词类(POS)等特征,分别使用朴素贝叶斯(Naive Bayes),最大熵(Maximum Entropy)和支持向量机(Support Vector Machine,SVM)将电影评论文本的倾向性分为正向和负向两类。此外还有Turney在2002年提出的基于无监督学习(Unsupervised Learning)对文本情感倾向性分类的研究。同时他们在实验中使用的电影评论数据集目前已成为广泛使用的情感分析的测试集。

如今,国内外都已经掀起了文本情感的研究热潮,很多研究团体、科研院校、公司已经对文本情感展开了研究。把这些相关的研究分为4个阶段:①语料阶段;②文本的预处理阶段;③特征标注与特征选择阶段;④情感分类阶段。

2.1语料阶段

目前绝大部分语料都来自博客、专业的评论站点、新闻站点、电子商务站点。而其中影评资料、产品的用户评论、Web 2.0博客文章是研究者的首选。

康奈尔大学的电影评论数据集以及Theresa Wilson等建立的MPQA库是目前研究者广泛使用的两类情感分析数据集。

2.2文本的预处理阶段

文本情感分析的预处理包括:停用词、词缀修剪、N元词、词性标准、简化替换(如书替换为NOUN、照相机替换产品名)等,但这些有意“美化”的处理都会降低情感分析的准确率。

此外,主观句识别也属于文本情感分析的预处理阶段。该研究的目标是需要提取文本的真正表达情感的句子。Pang于2004年提出基于文本中的主观句的选择和Wilson等人于2005年开创了在短语层进行主观性分析的研究工作,提出基于文本中中性实例(Neutral Instances)的分析,他们根据28个混合特征训练了一个分类器,都是为了能够尽量获得文本中真正表达情感的句子。Abbasi于2008年提出通过信息增益(Information Gain,简称IG)的方法来选择大量特征集中对于情感分析有益的特征。

2.3特征标注与特征选择阶段

情感特征的标注方法目前主要包括:

(1)监督机器学习的方法,由已有的电子词典或词语知识库扩展生成的情感倾向词典。情感词就是指具有情感倾向的词语以名词、动词、形容词和副词为主,包括人名、机构名、产品名、事件名等命名实体。其中,部分词语的褒贬性(或称为极性,通常分为褒义、贬义和中性)可以通过查字典获得,其它的极性与情感倾向性的强烈程度都无法直接获得。

使用情感词作为特征的研究有:

朱嫣岚等人提出了基于知网的两种词汇语义倾向计算方法,即基于语义相似度的方法和基于语义相关场的方法。

娄德成和姚天昉也是通过计算文本中词汇与知网中已标注褒贬性词汇间的相似度,来获取词汇的语义倾向性。

目前,依靠语料或字典语料结合构建意见词典成为主流。由于目前用于情感分析的中文标注语料较少,即当目标领域不存在标注语料时,Xiaojun Wan通过谷歌翻译等机器翻译服务,利用英语标注语料和中文未标注语料弥补中文标注语料不足的问题。此外,还有Danushka Bollegala等提出算法可以通过其它领域标注语料和目标领域的未标注语料生成意见挖掘所需的情感敏感词典。

(2)无监督机器学习的方法。Turney在2002年基于点互信息(PMI)计算文本中抽取的关键词和情感基准词(Excellent, Poor)的相似度来对文本的情感倾向性进行判别(SOPMI算法)。实现方法简单,此算法得到了很多研究者的推荐。

Yuan等人在Turney的研究工作的基础上,对汉语极性词的自动获取进行了研究,发现采用一个字符的汉语情感词比汉语情感词的效果要好。

(3)情感特征的选择方法。目前很多情感分析的研究基于机器学习,那么特征选择就是一个很重要的问题,N元语法等句法特征是使用最多的一类特征,Wilson等人于2009年提出混合单词特征、否定词特征、情感修饰特征、情感转移特征等各类句法特征的情感分析,Abbasi等人于2008年提出混合句子的句法(N元语法、词类、标点)和结构特征(单词的长度、词类中单词的个数、文本的结构特征等)的情感分析。Melville等人于2009年提出结合情感词的先验的基于词典的情感倾向性和训练文本中后验的基于上下文的情感倾向性共同判断文本的情感倾向性。

另外,传统的文本特征选择方法有监督特征选择方法CHI、IG、MI和无监督特征选择方法DF、TS、TC、En。这些方法应用到这些情感特征选择上的效果如何还有待实验验证。

2.4情感分类阶段

(1)情感建模的方法。基于监督学习算法的情感分析仍然是主流,Zhang等人于2009年提出基于非负矩阵三分解(Nonnegative Matrix Trifactorization),Abbasi等人于2008年提出基于遗传算法(Genetic Algorithm)的情感分析之外,使用最多的监督学习算法是朴素贝叶斯、k最近邻(KNearest Neighbor,KNN)、最大熵和支持向量机等。

此外还有基于规则和无监督的建模方法。娄德成等人于2006年利用句法结构和依存关系对中文句子语义进行了情感分析,Zagibalov等人于2008年在SOPMI算法的基础上通过对于中文文本特征的深入分析以及引入迭代机制在很大程度上提高了无监督学习情感分析的准确率。

(2)情感分析的其它研究点。除以上介绍的情感分析关注情感的分类以外,还有评论对象的识别、情感倾向性论述的持有者识别、抽取句子中评价词语和目标对象之间的关联关系、评价倾向极性的强度等研究方向等等。

(3)目前已有系统。目前很多系统已经问世,例如:日本富士通公司开发了从中、日、英三国语言的博客和论坛中提取对企业及其产品的评价信息的技术,根据从万维网上抓取的大量用户的评论得到产品的整体信誉度。

上海交通大学开发了一个用于“汉语汽车论坛”的意见挖掘系统。目的是在电子公告板、门户网站的各大论坛上挖掘并且概括顾客们对各种汽车品牌的不同性能指标的评论和意见,并判断这些意见的褒贬性和强度。然后,通过对文本处理的综合统计,给出可视化的结果。该系统仍需要在特征获取、权重计算等方面进行完善。

综合以上研究现状,对比国内外的研究进展,对于国内来讲,中文文本情感分析可以说刚刚起步,与国外的主要差距表现在:①在基础资源建设方面,还没有建立起一个公开、公用、权威、标准的词典资源和具有一定规模的标准语料资源;②在研究方案方面,从词语、短语、搭配、句子到文本,主要跟踪借鉴国外研究思路与技术路线进行尝试。

3中文文本情感分析亟待解决的问题

相比传统的文本分类,情感分类有先天的困难和挑战,主要表现在:①自然文本中表达方式的多样化:比喻、附和、讽刺、正话反说等;②句式的复杂性:比较型的句子、各种不同的习惯用语、句式的不同搭配等;③训练数据的稀疏性和不均衡性。这些都造成了目前较为狭窄的应用领域,不能同时获得较高的准确率和召回率。

中文文本情感分析研究方兴未艾,仍然存在很多问题亟待解决,未来的研究将主要围绕以下几个方向展开:

(1)建立标准的中文文本情感词库及标准的文本情感测试语料库。标准完善的数据库是验证算法的有力工具。因此创建更大规模且更标准的中文文本情感数据库是下一步工作的重中之重。

(2)选择最优文本情感特征集。文本情感特征是中文文本情感分析研究的第一步,在很大程度上影响最终的列表识别结果。一个词存在多维度的情感,因此,单纯依靠情感词并不能准确判定所有情况下的情感和意见。所以,对于情感特征集选择技术需要我们进一步的研究和完善。

(3)选择合理有效的文本情感分类方法。情感特征的权重简单累加并不意味着情感表达能力的累加,紧致有效的特征表达方法是跨越“语义鸿沟”的重要手段。人们往往通过各种手段多渠道地获取各种各样的情感特征,并通过不同分类器的融合表示它们。但这方法需要在更多的情感分析领域进行实验验证,未来还需要开展融合多方面文本情感特征的工作。

(4)可靠性研究。文本情感中评论的真实性通过信用评价来衡量,不真实甚至是混淆视听的评论称为意见垃圾(Opinion Spam)或虚假评论,也将是未来研究的方向之一。

参考文献:

[1]LIU B. Web data mining: exploring hyperlinks, contents [M].Usage Data. Springer,2011.

[2]PANG B, LEE L, VAITHYANATHAN S. Thumbs sentiment classification using machine learning techniques[C]. EMNLP,2002.

[3]TURNEY P D. Thumbs up or thumbs down semantic orientation applied to unsupervised classification of reviews[C]. ACL,2002.

[4]PANG B, LEE L. A sentiment education: sentiment analysis using subjectivity summarization based on minimum cuts[C]. ACL,2004.

[5]WILSON T, WIEBE J, HOFFMANN P. Recognizing contextual polarity in phraselevel sentiment analysis [C]. HLTEMNLP,2005.

[6]ABBASI A, CHEN H, SALEM A. Sentiment analysis in multiple languages: feature selection for opinion classification in Web forums[C].ACM Transaction on Information Systems,2008.

[7]朱嫣岚,闵锦,周雅倩,等.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006(1).

[8]娄德成,姚天昉.汉语句子语义极性分析和观点抽取方法的研究[J].计算机应用,2006(11).

[9]XIAOJUN WAN. Bilingual cotraining for sentiment classification of Chinese product reviews[J]. Computational Linguistics,2011(3).

[10]CLIFTON, ANN AND SARKAR, ANOOP. Combining morphemebased machine translation with postprocessing morpheme prediction[C]. ACL HLT,2011.

[11]YUAN R W M, CHAN T Y W, LAI T B Y, KWONG O Y. Morphemebased derivation of bipolarsemantic rientation of chinese words[C]. COLING.2004.

[12]MELVILLE P, GRYC W, LARENCE R D. Sentiment analysis of blogs by combining lexical knowledge with text classification [C]. KDD,2009.

[13]ZHANG T L Y, SINDHWANI V. A nonnegative matrix trifactorization approach to sentiment classification with lexical Prior knowledge[C]. ACL,2009.