时间:2022-05-08 04:00:46
导言:作为写作爱好者,不可错过为您精心挑选的1篇网络信息检索论文,它们将为您的写作提供全新的视角,我们衷心期待您的阅读,并希望这些内容能为您提供灵感和参考。
摘 要
因特网上有海量的数据,是信息的海洋,但在解决实际问题中,仍感到缺乏真正需要的信息,出现了数据丰富,信息贫乏的问题。如何通过一种有效的方法,以最少的时间与精力来获取自己所要的信息,这就是文献检索所要解决的问题。
【关键词】文献 网络 信息检索
据不完全统计,非科技类的著作文献,每隔五到八年就会整倍翻一番;科技类的著作文献,特别是尖端领域的著作文献增加飞快,速度惊人,如,计算机科技著作文献每一至三年就翻一倍,且倍增时间也是越来越短; 大概目前有1000多万篇科技文献会在一年时间内出版;出版文献速度与日倍增,据国外报导,全球出版界著作文献的出版量在大约在2000张每秒,4至6种新书每小时,新增各种文献期刊3种每小时,面对日益增长的文献资源,如何通过一种有效的方法,以最少的时间与精力来获取自己所要的信息,这就是文献检索所要解决的问题。
1 文献的类型
1.1 图书
国家标准对图书的定义是:“以印刷方式单本刊行的出版物。”国际上通常把48页以上,不定期出版的印刷品称为图书。
1.2 期刊
定期或者有不规律时间间隔的具有连续性质的出版刊物,周期一般实在一年以内。
1.3 科技报告
关于某项科研成果的正式报告或研究过程中阶段性报告。它的特征:报告题目、责任者、研究单位、报告完成时间以及报告号。每一个独立的科学报告内容完整,结果可靠,对研究项目研究过程叙述详细具体,技术专业且非常全面,能够直接使用或者借鉴。科技报告还是单独成册,有统一编号和标注可研究机构名称。能够体现以及代表一个国家的科技研究水平,反映最新兴和尖端的科学成果,是国家软实力的象征。
1.4 会议中的文献
目前全世界每年大约要召开数以千计个学术会议。会议种类繁多,因此伴随会议产生了数量巨大的文字材料。这是会议文献往往是科技信息发表传播的最前沿阵地,各种一半以上的新科技成果和发明都在这些会议上最先面世的。这些会议文字材料会与图书、期刊、或者科技报告有重复出现的情况。
1.5 专利文献
这类文献主要指发明人在专利申请时所提交的对于专利本身概况的说明书。专利说明书不仅仅具备法律效应,还对该专利的技术情况进行了详细说明,是集可靠、实用和法律效应与一体的科技材料。
1.6 技术标准
这是为了规范产品生产过程中对于科学技术使用的规范,它能够体现整个国家或者地区的政策、工艺和水平。也可是说是一种科学技术的信息来源。
1.7 政府文件
这类材料大部分是政策法规。有很强的约束力、政策性权威力。是政府为了某些特定科学技术的更好服务大众的行政文件。通过这些文件能够了解各个国家的科技水平和科技政策,具有很强的参考价值。
1.8 毕业论文
这类文献是高等学府的学生为了领取毕业证书和学位证书时必须完成的作业。虽然不是很完整和详尽,但还是有相当的创造性和独立性,参考价值也是有的。
1.9 其他类型
除去上8种之外,还有产品成品、技术档案、报纸、新闻播报、手绘稿等其它类型的文献。
2 文献检索的方法
2.1 直接法
直接利用网络工具进行文献内容的检索,例如百度、谷歌、万方数据库、维普数据库等,这是最常用也是最方便的一种检索文献方式,但是因为信息量巨大,效果一般。
2.2 追溯引文法
这是一种通过“引文”来追溯查找文献的方式。“引文”就是文献末尾所列的参考文献,通过所用的参考文献来反向查找需要的文献。这样做就是用“引文”找“引文”,获得的有关文献的信息越来越多,通过信息最后抽丝剥茧找到自己需要的文献。这种方式同样是因为信息量十分巨大,造成效率低下。
2.3 综合法
这种方法就是将直接法和引文追溯法一起使用。即使用常规工具尽享检索,又使用“引文”进行检索。
3 计算机检索的步骤
3.1 确定检索目标
确定该问题需要查找的文献类型、所属领域、地域范围和时间区域。通过以上这些信息你定相关需要查找的关键字,这些关键字能够体现文献类型、所属领域、地域范围和时间。在此基础上通过对查找内容的了解提炼出核心概念,加入其中,会使检索事半功倍。
3.2 选择数据库
根据以上的检索目标,接下来就是确定检索所使用的数据库。在选择的过程中,要根据要根据数据库的种类和内容进行筛选或者同时进行。例如,常规检索就使用百度,论文检索就使用万方数据库、期刊检索就使用维普数据库等等,进行对症下药,提高检索文献的效率。
3.3 上机检索
上机检索就是检索文献的实际操作过程。将检索目标输入相应的数据库进行查找,从而得出相关数据
3.4 评价信息
根据自己实际需要情况和检索信息的内容通过各种方法,例如定性评价法、定量评价法等对信息进行综合评价,通过评价结果来决定是否使用该信息。
3.5 利用信息
根据评价结果,选取最优的信息,进行分析、节选等方法来合理使用 。
因特网上有海量的数据,是信息的海洋,但在解决实际问题中,仍感到缺乏真正需要的信息,出现了数据丰富,信息贫乏的问题。希望我以上的浅析能对给位有所帮助。
摘 要:本文主要简单介绍影响网络信息检索的因素,以及面对现在互联网的错综复杂的环境下,对实现高效率的信息检索提出几点建议。
关键词:网络信息检索;信息检索;网络信息
互联网上的信息量是非常巨大的,随着互联网的技术和信息技术的不断发展,人类接触到的信息也是不断变多,但是,由于在互联网存在的信息资源的特点,使得人们寻找自己想要的信息变的越来越难,人们更加迫切需要更好的检索工具来帮助我们获取自己想要的信息。信息社会离不开信息的作用,信息已经是人类生活不可或缺的一部分。本文将介绍影响检索信息的几个因素,在此基础上并提出几点建议。
1.网络信息检索的现状
网络信息检索最早是由国外学者Alan Emtage在1990年发明的Archie开始的,不过由于当时网络技术的应用处于初级阶段,应用还是比较狭窄,只能简单的应用于FTP文件的检索。但是后来随着万维网的出现以及信息技术的不断飞跃发展,网络信息检索开始了基于网页的检索,并且迅速发展。伴随而来的问题就是网络信息检索的效率问题。随着信息资源数字化的发展,人们越来越依靠检索来获取自己想要的信息。但是,从目前的情况看,每天在互联网上产生的信息量是相当惊人的。用户想要短时间获取自己想要的信息已经变得更加困难。
2.影响网络信息检索的因素
2.1 源于ICP的影响因素
ICP(即是Internet Content Provider 的简称),它是指网络信息提供者或者称网站经营者[1]。某些ICP为了获得额外的利润或是某种目的,当用户点击某些优质的网页的时候,在打开的同时会出现一些劣质的网站,这些劣质网站不够规范而且存在的信息的准确性也是有待商榷,另外这些ICP对采集的信息进行页面特征提取、主题分析并进行相应归类,也即是以词频和词出现位置的统计为依据;这样就为某些ICP 带来可乘之机,他们故意将一些无关的主题词放置在重要的标记内,或让某些关键词重复出现在重要的段落处,以提高其页面被检索的机率,然而这却大大地影响用户的检准率[1]。
2.2网络信息资源质量的因素
由于互联网本身的特点,即开放性,自由性和公开性导致了在互联网上信息资源纷繁复杂,包括虚假的信息、淫秽的信息、暴力信息等等。同时,在信息的端,如何控制信息源产生的信息准确性。信息资源是不是能够涵盖某一方面,这些因素都会影响用户进行网络信息检索。
2.3检索工具和方式的因素
传统的信息资源标引方式已经不能适应当前复杂的网络信息资源的类型,尤其在网络新词或是同义词和近义词,标引方式就很难适应这些新的变化,这也就导致了检索工具不能检索出未被标引出来的信息资源,影响了检索工具的检全率。检索工具的检索方式也是多种多样,按照布尔逻辑检索、作者姓名,关键词等方式进行检索,但是检索的要求就会不一样,使用的语言不具有统一性。这也是制约网络信息检索的重要因素。大多数搜索引擎的检索方式比较单一,一般只提供分类检索和关键词检索,这样,一方面,检索时不能从信息资源的多个方面对检索提问进行限制,只能就某一关键词或概念进行笼统的检索[2]。
相比较早期的检索内容来看,随着人们检索的需求发生改变,现在的检索内容也发生了变化,从最开始的检索文本信息到如今要检索图片,视频,音频等多种形式的内容,而从信息技术的发展看,国内目前还没有专业的检索工具,影响检索的全面性。
3.用户本身的影响
(1)自身语言的障碍。由于用户本身学历或是地域的限制,导致了用户只能掌握自己的母语。想要利用国外的检索工具进行外文检索,也是很难完成的。目前最新的科技成果都是用英文表现出来的。由于语言的限制,影响了用户的检索。
(2)检索语言的障碍。随着现代学科的分类越来越细,新兴学科、边缘学科、交叉学科不断涌现,每门学科应用的术语、符号也随着专深、复杂,每个学科所使用的检索语言要求也是更加严格[2]。检索语言和检索方法和技巧的不能掌握,导致了不能全面利用各种检索工具和系统。
(3)检索能力的障碍。由于自身的理解能力、信息把握能力,语言组织能力的缺乏,在输入检索词的时候可能出现表达不清楚,检索出来不是用户想要的信息。另外,用户自身的计算机水平有限制,缺乏必要的计算机基础知识,随着现在信息技术更新换代过于快速,检索工具、应用软件还不能掌握,严重影响了用户利用检索工具获取信息资源。
4.提高网络信息检索效率的建议
4.1 加强监管,提高信息资源的质量
ICP是网络信息的主要来源,国家或是政府应该制定相应的法律法规,来完善行业准则,保证信息源头不会出现虚假、暴力、淫秽等信息资源。加强对各类网站的监控管理,对质量差的网站应该加以限制,提高该网站的规范化,标准化。与此同时,网民也可以发挥自己的力量,坚决抵制和举报虚假的信息。最后,积极组织开发、研制相关软件及应用网络新技术,对网络信息进行技术上的筛选、过滤,建立安全屏障,最大限度防止不良信息的侵入[3]。
4.2对网络检索工具的改进
(1)改变传统的标引随意性。改变以往只是依靠机器进行标引,把人工标引和机器标引相结合。规范标引的索引词,制定统一的标准,加强对检索词的语义理解,提高检索的智能化。对出现在网络上的信息资源不只是简单的收集、利用。而是需要将这些信息资源进行分析归类,深度加工,建立一种具有多种语言标引识别,提高检索效率。
(2)完善用户信息搜索界面,方便使用。完善检索界面,能够使用户获得更好地使用体验,一个友好的用户界面要能支持用户进行多语言、多种逻辑方式和多种角度提问检索,尽可能做到方便用户使用[1]。改变检索方式,使其更加自然、易懂,能适用于多种检索平台。
(3)改进信息资源检索的技术,形成更加专业的检索工具。面对多种信息资源的检索,不能单独只对文本信息的检索,对于图片、音频、视频等信息,需要采用更加合理的检索工具来提高检索效率,提高检索的专业化。
4.3加强用户检索能力的培训[4]
对于用户本身不具备的能力,需要通过不断地学习来完善自己,才能掌握更多的语言和计算机的基础知识。对于语言方面,用户需要加强对语言的理解,能够清楚地表达自己的信息需求,检索的效率才能很好地体现出来。
检索途径,用户需要了解更多检索的方法,并不仅仅局限于只用关键词进行检索,用户为了获取更多,更准确的信息资源,力求掌握多种检索途径,进行高级检索。同时,用户可以进行多个检索平台的检索也是提高检索效率的有效途径之一,用户利用多种语言在多个数据库进行检索,提高用户获取信息资源的技能。
总之,面对信息的海洋,提高检索的效率和检全率是我们追求的目标。影响网络信息检索的因素有许多方面,改进的途径也是非常多,但是,因特网是一个巨大的展示信息的平台,目前还是有许多地方存在一个不完善的地方,需要国家、政府以及个人不断的努力,才能提高网络信息检索的效率。
(作者单位:安徽大学管理学院)
摘要:对国外有关信息检索远程网络教育情况进行了简单的介绍,对我国该领域的问题进行了分析,最后对我国图书馆信息检索远程网络教育系统进行了设计。
关键词:图书馆 信息检索 远程教育 网络教育 设计
伴随着网络技术和多媒体技术的发展,人类发展进入信息化时代,为了更好地适应时代的发展,我们要不断提高对信息的获取、分析和加工能力,而信息检索和这些都有着直接的关系。因此,人们越来越重视信息检索课,将其作为图书馆及档案学等专业的基础课程,也成为学生喜欢的选修科目。高校扩招在很大程度上冲击了课堂,而学生整体素质的提高,一级网络的普及给信息检索网络教育提供了机会,促进了信息检索远程教育的兴起和发展。
一、有关远程网络教育
远程网络教育作为计算机辅助教育网络化的产物在上个世纪60年代产生的,计算机辅助教育是使学生通过和计算机之间的交互活动来实现对学生的教育。在这当中,计算机起到了媒介的作用。远程网络教育从产生到现在得到了很大的发展,现在已经发展成为了以计算机网为中心,集中了计算机和多媒体技术,其具有很多的优点。比如,具有较好的交互性、便捷性强、信息量大而且质量高等,因此具有广阔的应用和发展前景。所谓的网络教育,就是指将网络技术、数据库技术以及多媒体技术进行有机结合,建立在网络基础上的一种教育模式,远程教育是通过现代的传播载体将教学的内容传递到校园外的教学场所的一种教育模式,而远程网络教育是指通过直播或者是录像以及计算机网络来实现课程向校园外传递的教育方式。
二、国内外信息检索远程教育情况
国外的远程网络教育在最近几年得到了迅速的发展,表现尤为突出的是美国。纵观历史,我国在该方面虽然取得了一定的成绩,但由于受到很多因素的影响,目前还是比较缺乏具有真正意义的信息检索远程教育系统。第一,很多老师虽然都制作了多媒体课件,学校也将这些课件挂到了网上,但只不过是对教材的简单复制而已,没有实质上的意义;第二,一些可将无法适应网络环境的要求,在制作课件时由于对形式太过注重,导致课件的实用性不强;第三,老师没有对网络优势进行充分的利用,也做不到超时空和非线性的教学,没有将网络教学的特点体现出来;第四,由于缺乏通用的网络教学平台的接口,无法实现方便并快速的建立网络教学系统,捣实网络教学只是停留在形式上;第五,学习的理论和教学实践相脱离,因此保证不了教学的效果。
三、信息检索远程网络教育系统的设计思想
在信息检索远程网络教育系统的设计中,第一,要将网络优势充分地发挥出来,进而实现实时交流和双向交流;第二,要以老师作为教学的主体,为了使得教学质量得到保证,要将老师的知道作用充分发挥出来;第三,在设计中要考虑到信息检索课的特点即实用性,要能激发学生学习的潜力和主动性,使学生信息检索的能力得到全面提高;第四,促进学生创新能力的培养,不断提高学生的综合素质,进而更好地适应当今时代的发展,做到与时俱进。
四、信息检索远程网络教育系统的教学模式和实现
在上述设计思想的指导下,经过采用将学生自学、网上教学以及在校短期面授有机结合的教学形式。其中,短期面授主要是教学生有关信息技术方面的知识,进而为远程网络教育的实现打下坚实的基础。远程网络教育系统由五个部分构成:
1.教学大纲和电子教案
教学大纲作为教学系统中的关键部分,通过教学大纲可以使学生明白教学的内容、进度以及目标等,因此,教学大纲应该以文本信息为主,而且条理要清晰,这样才容易被学生接受。在信息检索课中,有些教学内容是相对固定的,电子教案中应该以这些固定的教学内容为主。
2.在线授课
在每个星期应该有固定的时间进行在线授课,这样可以充分发挥老师的指导作用,因此在教学系统中作为核心和关键部分。通过网络教育平台,老师可以及时对学生的学习进行引导,可以为学生排忧解难,使学生全面掌握一些重点和难点,在某种程度上可以启发学生的积极思维。而学生通过和老师同步的计算机演示平台,老师的整个授课过程都可以清楚地看见和听见,这样就可以跟着老师的思路,可以加深对知识的学习。在信息检索课中,通过将理论的讲解和对信息检索的实时演示相结合,可以获得很好的教学效果。在线授课环节中,实时性和双向性是关键,想要保证整个教学系统的质量,必须要保证该环节的质量。
3.讨论和交流社区
为了使学生更加方便地进行讨论和学习交流,老师可以对学生提出的疑问及时进行解答。学生可以通过邮件组和网络会议等获得学习上的指导,老师可以通过公共邮件来和学生进行对话和讨论,进而指导学生学习,促进教学目的的达成。
4.课程档案
为了便于学生进行复习,应该将每一次在线授课的全部过程录制下来,同时要保证录制的质量,这样才能保证其具有利用的价值。
5.作业的提交和回复
学生可以发电子邮件来提交老师布置的作业任务,老师收到并经过批改之后又发给学生,在这个环节中,主要是对学生所学知识的测试,通过作业,老师在很大程度上就可以看出学生掌握知识的程度,老师不断找出存在的问题,提高教学质量。
在图书馆信息检索网络远程教育系统中,想要保证教学质量,必须要选择和开发合适的教育平台。目前,国内外都有很多的远程教育系统已经投入使用,我国主要有西安交通大学软件系统和上海交通大学软件系统,国外的很多软件已经进入了我国的市场。尽管很多的网上教学支撑平台是大学试验室的产物,依然处于开发和测试阶段,如果自行开发远程教育系统,将会花费大量的成本。因此,从国外引进购买还是很划算的。这在很大程度上促进了对国外先进技术的学习,使我国的远程网络教育水平尽快赶上并超过国际水准。通过将国外的先进网络教育平台引进来,可以在很大程度上提高我国高等教育质量,进而实现和国际接轨,更好地进行学术交流。
此外需要注意的是,远程教育仅是一种教学方式而已,教学内容依然作为保证教育质量的关键因素,远程教育不是一成不变的电子教案,也不是纯粹的录音和录像,远程教育最重要的就是该系统具有双向互动和实时交流的功能,这也是该系统的灵魂所在。
五、结束语
当今处于网络和信息时代,随着网络技术和多媒体技术的迅速发展,为远程网络远程教育提供了可能性,通过网络平台可以实现图书馆信息检索课程的教学目的。我国相继出台了很多有关网络教育的政策,这在很大程度上也促进了网络教育的发展和进步,加上网络教育本身具有很多优点,图书馆信息检索远程教育在未来将会有着广阔的应用和发展前景。
摘要: 随着多媒体应用技术的不断发展,在社会的各个领域多媒体技术得到了广泛的应用。图书馆作为文化和知识传播的主要阵地,如何提升图书馆的服务效率,成为发挥图书馆社会效益的基础。本研究以网络时代多媒体技术在图书馆信息检索中的应用为研究对象,分析了多媒体技术的特点与图书馆信息检索的交互性,在此基础上提出了多媒体技术对图书馆信息检索的促进作用,最后阐述了网络时代多媒体技术在图书馆信息检索中的应用策略。通过本研究,以期为提升多媒体技术在图书馆的应用效果,提供理论参考。
关键词: 网络时代;多媒体技术;图书馆;信息检索
1 多媒体技术特点及意义
多媒体技术指的是,通过使用计算机把文字、图形、声音等进行科技处理,实现这些内容相互间的联系,并通过多媒体技术的应用,获得更多的实际效果。多媒体技术主要有三个特点:
1.1 多媒体技术的集成性 多媒体的集成性指的是把多种媒体有机地结合在一起,实现对文字等的表达,获得图文声像一体化。在多媒体产生出来之前,各种数据、文本、图片等作为相对独立的信息处理方式,借助不同的技术处理手段,例如:数据处理系统对相关的数据进行专业的处理,对文本、文字进行处理,多媒体技术奖这些相关的信息处理时,表现出了一定的集成性。
1.2 多媒体技术的交互性 多媒体技术的交互性指的是人机之间的交互,在进行多媒体节目播放的过程中,人们可以实现有目的的干预,借助人机交换的信息来实现所要达到的目的。多媒体技术不像电视机一样,人们不能够主动地接受传播的信息。而可以通过多种渠道进行计算器交流,更好地实现人和信息之间,数字化的有效选择和控制。
1.3 多媒体技术的兼容性 多媒体信息技术以数字化的形式,将多种信息储存在固定的介质中,能够实现对信息的有效加工、传播。这些任务的完成,需要多媒体技术的兼容性。当前多媒体技术在图书馆的应用,主要有下面这些领域:图书咨询服务、图书产品展示、图书管理培训、图书馆会议、图书馆监控管理等等。当前多媒体技术向着高分辨率、高速度化、多维度、智能化、标准化的方向发展。
2 多媒体技术在图书馆信息检索中的应用
多媒体技术作为信息处理的高端技术,对图书馆这一文化传播的阵地有着积极的推动作用。多媒体技术在图书馆信息检索中有着重要的意义。
2.1 多媒体技术在图书馆自动化系统中的应用 图书馆自动化系统所使用的多媒体结构,大部分是在大存储的主机服务器下的分散终端,通过把各个功能分配在相关的终端,在应用的时候,各个环节相互支持和影响,当服务器的采、分、编的各个环节产生故障于混乱以后,会使得整个的系统受到不同程度的影响。多媒体系统能够有效地避免这些缺陷,多媒体通过把这些塔架层次结构系统,借助多媒体平台构建一种平面的蛛网结构,能够避免因为环节故障给整个图书馆自动化系统带来的不良影响。
当前我们国家的图书馆网络自动化发展的速度比较慢,影响发展速度的原因有环境和配置设备的原因,也有网络成员的协作和不同需求的因素。在图书馆网络自动化发展的过程中,可以通过使用多媒体技术,构建文本、图片、图标等多种内容和多种形式的数据库,满足图书馆这一行业的要求。
2.2 多媒体技术在图书信息处理中的应用 随着多媒体技术在图书馆各个领域的广泛应用,定会促进多媒体信息搜集、信息传递、信息控制、信息分享等方式和方法上的改进,提高图书馆网络应用和管理的多样化。在图书馆多媒体应用的过程中,其使用的各种软件平台,是在操作系统和应用两者之间,多媒体技术的兼容性能要优于普通的微型计算机,这有效地避免了因为软件和操作系统的不兼容,给图书管理等工作带来的影响。
2.3 图书馆馆藏媒体的多样化 随着多媒体应用的不断进步,多媒体产品的多样化程度越来越高,这些产品为图书馆提供了更为安全、有效的信息载体。随着多媒体在图书馆信息检索及日常工作中的广泛应用,有效地扩展了图书馆的存储能力,并且提高了传输信息的一体化水平。多媒体技术的广泛使用,促使图书馆传统的印刷品为主的藏书体系,开始向着数字化的存储介质应用方向过渡。在以电子计算机和网络技术为主要标志的现代化多媒体的技术表现下,其鲜明的特点使得读者感觉越来越方便。因此,也受到了广大读者的广泛使用和欢迎。图书馆馆藏媒体的多样化,实现了把传统的馆藏工作,变得更为高效和全面。
2.4 图书信息服务内容的多样化 多媒体技术的发展和使用,为图书馆的服务水平提升,创造了更多的条件,在现代化的图书管理工作中,读者既可以进行传统纸质书刊的借阅,也可以通过仪器阅读相关的图书胶片、光盘、声音等形式的资料。当前,北京大学图书馆、清华大学图书馆都已经开设了多媒体阅览室,并且收到了良好的效果。多媒体技术在图书馆中的应用表现出了多种优势,如:交互的便捷性、多样化以及信息检索和存储的高效性等等,都为图书馆工作的开展,创造了良好的条件。
3 网络时代多媒体技术在图书馆信息检索中的应用策略
3.1 规范图书馆信息检索板块的设置 相关的调查和研究表明,图书馆信息检索服务的提供有效的方便了用户使用,但是我们也发现,例如在图书馆虚拟咨询服务设置的时候,由于受到图书馆服务名称和标准的影响,虚拟咨询服务名字的选择并不统一,这种情况的存在,使得用户在使用不同图书馆提供的服务时候,需要多方面的查询和了解,才能够找到虚拟咨询服务的板块,并开展咨询服务。因此,设置统一规范的虚拟咨询服务名称,是提高图书馆虚拟咨询服务效率的前提。
3.2 做好图书馆信息检索服务范围的界定 在图书馆信息检索服务开展的过程中,要以用户的满意和便捷使用信息检索服务为宗旨开展工作。但是因为图书馆用户群体的庞大,使得图书馆信息检索服务的工作量较大,因此,各个图书馆在进行信息检索服务设置的时候,可以对专门的咨询服务范围进行界定,以提高信息检索服务的效率,避免因为咨询问题的重复性而影响服务工作的开展。明确信息检索服务的范围,需要对用户咨询的常见问题进行筛选,对服务的针对性和有效性进行评估,以此来提升图书馆服务的专业性。
3.3 信息检索内容的设置 通过对调查的图书馆开设的信息检索服务的形式分析得出,在开设WEB表格的4家图书馆中,表格的设计较为单一,只是设置了用户的名字、工作、邮件地址、联系方式等,接下来就是用户提问内容。信息检索服务只设置这些信息,使得图书馆服务人员,在进行检索策略时感觉很迷茫,这是由于工作服务人员对于已经掌握资源的用户需求和目的不能够做出正确的判断。所以,在进行WEB表格设计的时候,可以加上用户已经掌握的资源、对图书检索的要求、答案提供的时间范围等等。这样更加有助于图书馆服务人员为用户提供针对性强的咨询服务,提高图书馆信息检索服务的效率。
3.4 加大对信息检索服务方式的创建 当前在图书馆网页信息检索服务中,大部分图书馆的信息检索服务只能提供问题浏览,不能提供问题检索服务。在图书馆搜集较多用户问题的时候,用户如果需要查找某一个想要信息检索的问题时,就显得非常不便。因此,图书馆需要将前期用户的问题做成一个能够进行检索的问题数据库,为用户提供浏览和自动检索这两种问题查询的方式,将会有效的提升为用户提供信息检索服务的效率。但是调查表明,仅仅有4家图书馆设置了能够检索的FAQ。另外,在图书馆信息检索服务提供的同时,要不断的加强数字资源的建设,加快特色数字资源板块的创建,为用户提供更多的便捷服务,使用者能够快速的找到自己所需要的资料,既节省了用户的查询时间,也提升了图书馆的工作效率。
3.5 做好图书馆信息检索的保护 在图书馆信息检索服务开展的过程中,图书馆用户是通过网络注册等途径,进入图书馆网站的,这就使得用户的信息在一定权限下,能够进行浏览。因此,网络环境下图书馆工作的开展,需要加强对图书馆用户个人隐私的保护,这种对个人信息、兴趣爱好、通讯地址等内容的保护,是更好的保证用户个人利益,提升图书馆信息检索服务的准确性、安全性的重要基础,对每一个开设信息检索服务的图书馆来讲,都是需要重点关注的内容之一。
3.6 加大对图书馆用户检索技能的培训 在图书馆信息检索服务提供的过程中,图书馆要做好用户应用图书馆检索的培训。通过对图书馆问答库的调查发现,当前有一部分用户咨询的问题是关于文献检索方法的问题,图书馆咨询服务解答人员的答案,是教会用户怎样利用图书馆的数据库检索,这种检索服务的前期培训,是提高图书馆信息检索服务效率的基础工作。因此,在图书馆提供信息检索服务的同时,要借助图书馆主页、宣传册发放等方式,来提高用户使用图书馆信息检索服务的能力。
4 结语
综上所述,随着多媒体技术的不断发展,对图书馆信息管理和日常工作来讲,既是机遇也是挑战。这就要求图书馆在信息管理的过程中,把握好图书馆多媒体技术应用的契机,通过多媒体技术的开发,对现有的图书管理、服务方式、服务内容,进行全面的优化,不断地提升图书馆工作的现代化水平,为广大读者和用户,提供更为便捷、高效的图书管理工作,获得更好的经济和社会效益。
摘 要:本文对网络信息检索的特征、方式以及未来的发展趋势进行了初步的探讨。
关键词:网络 信息检索 趋势
Internet在全球范围内的迅速发展与成熟,促成社会各领域信息飞速膨胀,为人们查找、获取信息提供了丰富的信息源,越来越多
的人开始利用网络来查询信息。网络信息检索就是根据用户的需要,从大量的网络信息集合中查询出特定(即相关)的一小部分信息的过程。那么,面对网上大量纷繁复杂的信息资源,今后网络信息检索的发展会是怎样呢?笔者就这一问题进行了探讨。
1. 网络信息检索的起源
信息检索始于上世纪50年代,60年代已经实用化,70年代联机检索服务形成市场,80年代实现多元化、智能化,90年代信息检索系统与因特网结合,才出现了早期简单的网络检索。但由于Internet的迅猛发展使其所含的信息数量激增,在这样一个无限、无序、浩瀚无边的信息空间里,快速查找并获取所需的信息已成为人们最迫切的需要。
2. 网络信息检索的特征
2.1信息检索空间的拓宽 网络信息检索的空间比之传统的情报检索是大大地拓宽了,它可以检索因特网上的各类资源,而检索者不必预先知道某种资源的具体地址。其检索范围覆盖了整个因特网这一全球性的网络之网络,为访问和获取广泛分别在世界各地、成千上万台服务器和主机上的大量信息提供了可能。这一优势是任何其它信息检索方式所不具备的,如:国际商用联机检索也只能是检索某一台、某几台主机或某一局部网络内的若干数据库。
2.2交互式作业方式 所有的网络信息检索工具具有交互式作业的特点,能够从用户命令中获取指令,即时响应用户的要求,执行相应操作,并具有良好的信息反馈功能,用户可以在检索过程中及时地调整检索策略以获取良好的检索结果,并能就所遇到的问题获得联机帮助和指导。
2.3用户界面友好且操作方便 网络信息检索对用户屏蔽了各局部网络间物理差异,使用户在使用这些服务时感到明显的系统透明度。检索者使用自己所熟悉的检索界面和命令方式输入查询提问就可以实现对各种异构系统数据库的访问、检索。
3. 网络信息常用的检索方式
3.1链接法 是指用户在阅读超文本文档时,利用文档中的链接从一网页转向另一相关网页。有些类似于传统文献检索中的“追溯检索”,即根据文献后所附的参考文献追溯相关文献,一轮一轮地不断扩大检索范围。个人用户在网络浏览的过程中常常通过创建书签或热链表来将一些常用的、优秀的站点地址记录下来,组织成目录以备今后之需。但这种做法只能满足个别、一时之需,相对于这个网络信息的发展,其检索功能似乎是微不足道,谈不上真正意义上的网络信息检索。
3.2通过网络资源指南来查找信息 为了对因特网这个无序的信息世界加以组织、管理,使大量有价值的信息纳入一个有序的组织体系,专业人员做了许多努力和开发。也就是基于专业人员对网络信息资源的产生、传递与利用机制的广泛了解,和对网络信息资源分布状况的熟悉,以及对各种网络信息资源的采集、组织、评价、过滤、控制、检索等手段的全面把握而开发出的可供浏览和检索的网络资源主题指南。
3.3利用搜索引擎进行信息检索 这种方法是较为普遍、常规的网络信息检索方法。搜索引擎是提供给用户进行关键词、词组或自然语言检索的工具。这种方式用户可以用逻辑组合方式输入各种关键词,搜索引擎根据这些关键词寻找用户所需资源的地址,然后根据一定的顺序反馈给用户包含这些关键词信息的所有网址和指向这些网址的链接。利用搜索引擎进行信息检索具有:省时省力,简单方便,检索速度快、范围广,能及时获取新增信息,这才是真正意义上的网络信息检索。
4. 网络信息检索的发展趋势
4.1智能检索 近年来被称为智能搜索引擎的网络检索工具已经出现,智能搜索引擎有3个主要的特征:网络蜘蛛的智能化、为特定用户提供相关信息、搜索引擎人机接口的智能化。它可以在因特网中导引用户,不仅在用户搜索、浏览时给予直接的支持,而且能够提供具有独立搜索功能的智能体的幕后支持。
随着网络用户对检索的精度、检索效率要求的不断提高, 网络检索软件开发更重视开发检索工具在检索功能及检索服务上的智能化程度。
4.2可视化检索 网络检索的可视化是指将数据库中的不可见的语义关系用图像形式可视化显示并表达用户检索过程。可视化检索有许多优点,主要表现在:对文献或检索式内部语义关系的理解有助于用户判断一个检索中的相关文献;可视化的环境可以为用户提供更丰富和更直观的信息;相关性在传统的信息检索中只指检索结果、检索式相关,而在可视化检索中则指检索结果之间的相关度;使得用户可以进行交互式输入,允许在信息空间进行动态移动,允许用户修改数据的显示方式,使他们理解数据的个人偏好可视化;减少了理解检索结果的时间,可以对相关信息进行聚类分析,而聚类分析可帮助人们发现新的学科点,也可作为反馈的工具;操纵检索的内部过程;提高检索系统与人之间的交互性;检索结果可以模仿网络环境形成拓扑结构图,在拓扑结构图中所有相关文献或其他类型资源将被归为同类;一个透明的检索过程使检索更容易更有效。
4.3多媒体信息检索 目前,基于内容的多媒体信息检索是研究的热点。基于内容的多媒体信息检索是根据媒体和媒体对象的内容及上下文联系在大规模多媒体数据库中进行检索。多媒体信息检索是一项涉及多个学科的课题,因为它需要利用图像处理、模式识别、计算机视觉、图像理解等领域的知识作为基础,还需从认知科学、人工智能、数据库管理系统、人机交互、信息检索等领域引入新的媒体数据表示和数据模型,从而设计出可靠的、有效的检索算法、系统结构以及友好的人机界面。
4.4基于网格的信息检索 网格概念最早于20世纪90年代中期提出,是从电力网概念借鉴过来的。其主要特点是把整个因特网集成为一台巨大的超级计算机,以实现全球范围的计算资源、存储资源、数据资源、信息资源、知识资源、专家资源、设备资源的全面共享。互联网实现了计算机硬件的连通,wed实现了网页的连通,而网格试图实现互联网上所有资源的全面连通,在动态的、异构的虚拟组织间实现协同的资源共享以及协同解决问题。共享是网格强调的重点,但是这种共享又必须是高度可控的,需要在资源提供者和消费者之间详细定义哪些部分是可以被共享的,在什么条件下可以共享以及相应的管理机制、付费机制。
当前,随着计算机高科技的不断发展,网络检索就像当年的照相机一样,逐步超着简单化、人性化方向发展,检索界面越来越简单友好,越来越适用与普通用户。用户可以很容易地进行网上自动标引、自动文摘、自动跟踪、自动漫游、机器翻译、多媒体检索欣赏、动态连接、数据挖掘等操作,方便、 及时、准确地获得所需信息。
网络信息检索的发展永远滞后于用户的需求,这是个不争的事实,但也正是用户的需求推动着网络信息检索技术的不断完善。在网络信息检索不断发展壮大的今天来展望未来,人类信息需求究竟能够被满足到何种程度,我们拭目以待。
摘 要:在先进科技信息化不断发展的今天,信息检索课程的教学方式与教学内容发生了很大变化。利用多媒体和联接网络的方式进行教学,把信息检索相关的基本常识、有关资源等大部分内容做成教学用的资料并且做出简单的说明,然后让学生们直接从网络上拷贝和下载,进而加强自己的信息量。本文综合分析网络信息检索教学现在发展的情况基础上,讨论了怎样在现状的基础上更好的发展来对网络信息检索教学进行改革。改革的重点主要是教学的内容与方式及师资部分上加强创新,提升信息检索教学的质量,满足高科技时代不断发展的需要。
关键词:教学改革;信息检索;教学设计;网络环境
1 信息检索教学的背景分析
现在的教学中因为校园网和图书馆设备自动化的建设不断发展。各类的读物、在网络上有许多的资料文献都是可以直接搜索到的,而且在校园的网络中利用图书馆的系统来搜索所需要的资料已成为了他们生活中不可或缺的组成部分。同时利用局域网和Internet等方法将图书馆信息资源融合起来,变成校园内的共享资源。让全体师生在利用网络检索信息时更加的高效方便。当前,学校图书馆的统计中可以看到购进的光盘和用于网络数据库的经费原来的20万元左右增加至近70万元,数字且还在持续上升。同时购进的资料种类也越加的丰富和广泛。从前一些只有在图书馆信息检索室里才可以搜索得出来的一些数据,因为各方面的发展和完善,那些原本在特定地方才能搜索的数据现已全部上传至了网络中。无论是谁都可以利用网络来找到自己所需要的信息。而且一些网络数据库公在搜索上采用的是镜像站或专线访问的技术,所有这些做出的改革都为信息检索的传授提供了一个的好的大环境。
2 分析信息检索教学的现状
2.1 信息知识更新速度太快
现在先进技术的创新和计算机应用的普及,信息的媒介已越来越倾向于电子化的趋势。信息的数量如气球般迅速膨胀起来。无论是线性还是非线性或是以联想的的方式,都有益于对检索和交叉检索的良性的发展。而且在这一点上它相比较于系统的回溯检索速度而言纸体数据库的速度是远远不如的。但是,它也存在着不足,如信息资源标引深度过深、标引规范也非常迥异,检索工具种类杂乱,这些问题都给网络用户的使用中造成了很大的不便。
2.2 学生网络搜索存在不便
网络上现有各类的专业性强的检索查询工具和对应的软件以及各种各样的搜索引擎,这部分的搜索引擎都有着自己的优势和独特之处,但正因为如此各类的引擎操作的步骤不同,而造成了学生觉得使用这些工具非常的繁琐的感觉,进而不愿意去使用它们。再因为网络上的信息资源量非常大、类别杂乱、组织分散,学生又普遍缺乏网络检索知识和技巧,所以在上网检索信息时,很多人经常会发生两个极端的情况。一是搜索出上千条信息,二是一条信息都没有。网络环境下学生的搜索的技能需要努力加强。
2.3教学大纲更新过慢
很多的高校在传授信息检索时上传授的主要教学内容非常的单一、落后,更新的速度也很慢。就算有时修改更新了,其内容调整的力度也很不足。在实践网络信息检索的教学中显然满足不了当前学生的需要。而且理论或实际操作课程现在都无法对使用网络的信息用户的最基本主要的需求进行满足。也无法确保学生们能够掌握好网络信息检索的实际操作。甚至不能让学生对搜索引擎的网上信息检索技术有个全面的认识。
2.4 教材内容单薄、老化
国内的教学中以手工方式进行检索为教学的主要内容的学校普遍存在,许多的计算机检索知识很落后,其他相关的网络信息检索的教材种类整体上很贫乏。现有的教学材料来看,这部分的教材内容上在Intemet基本概念[1]、主要功能及对各网络资源的介绍上比例较多,但在关于网络信息检索的工具、技巧和实际操作等内容上比重就显得相对较少。所以在Internet信息资源的变化迅速和飞快的发展的需求,改善教学材料的内容的形式也更加的急迫。
2.5 机检实战经验非常不足
现在很多的高校资金不足使得许多设备没有办法购买,学生们只好一批一批的使用计算机,有时还会重复操作老师在课堂上教过的相关内容。使用计算机的时间也常常就只有两三个课时罢了,这很大程度上不能满足学生对网络这块知识学习的需要,更不能根据学生已有的问题针对性的进行指导和纠正。部分学校只是进行演示,甚至有的学校因为条件的限制根本不进行演示。有演示的学校他们的实习也如蜻蜓点水般点到为止式的教学,这根本取得不了有效的上课成效。
2.6 师资设备贫乏
信息检索课程他与其他的课程密不可分,他们既有联系又有分工。老师们在学习有关学科的专业知识和网络操作的基础上还要不断更新自己的专业素质。很多学校的一些老师都是由图书馆或其他科目的老师兼职性的担任,他们的专业知识不够,而且缺乏合理的知识结构。一些甚至没有进行过相关的专业系统的学习培训,轻易草率的就开始进行教学,而且那些教师没花很多的精力到传授知识上及教学研究中去。这样的现状慢慢的发展一定会影响到将来的教学质量。
3 信息检索教学改革设计
3.1 制订符合时展的教学大纲
指导文件是教学的主体大纲[2],也是不能缺少的教学行为依据。它对教学的广度、深度及教学效果有直接的影响。在网络的背景下,本来有的资料在教学时是作为主要内容来说已经不再适用于现在实际情况的教学了,只有尽快的制定出统一明确的教学方向和目标,才能使信息资料检索教学得以规范化,才能全面的让教师的教学思路统一起来。以达到预期的教学效果、考核标准等。因此,这主要内容对于网络信息检索计划学时比例偏低。建上网实践课学,制定动态教学大纲。并且应适当增加至总学时的百分之三十以上。那么老师们就可以打破“大纲”束缚,并能随时增加一些丰富的内容,打破常规性的教学模式,使信息检索教学更加的生动有趣,富有创造性,做到真正适应时展的需求。
3.2 不断更新教学讲义
努力的融入一些新的内容:
(l)网络基本知识。简介Internet的作用和各种浏览器的操作方法、Internet的信息资源分类和分布情况、Internet的信息检索原理等等。这是很大的一个范围。在传授中可以根据一些学生的具体对这方面专业知识的兴趣和需要,针对性地去指导和教学。
(2)网络搜索工具。重点介绍Internet检索工具概述、搜索引擎的操作原理、搜索引擎的分类、选择并使用各种技能等等。比如在查寻网络信息时,就需要了解信息源的URL,但查URL的工具常用的有搜索引擎和主题指南这两类。主题指南和它的主题层次用列表的方式公开信息,让本来不明确的信息需求通过层层列表而清晰起来。搜索引擎是通过输人关键词进行检索访问的,各类的引擎都是大同小异的,所以要有选择地介绍几类。
(3)专业光盘或镜像数据库检索。说明国内外光盘数据库或镜像数据库的检索功能和操作方法。数据库的检索功略,电子版书刊网络操作基本程序,和操作数据库检索实例等等。让那些进行了实例的同学可以深刻地理解检索策略的制定、检索技巧的运用。
(4)网络信息的检索。非常仔细的去讲解通过网络在线所获得的科技报告。像许多国家的已申请专利了的用网络信息搜索出的文摘和其方法及技术、专门的检索技术,和使用各种各样的搜索引擎搜索出的所有信息的方法和技巧。例如在使用DIALOG和OCLC搜索系统[3]时,应该着重讲解这些系统在Web方式和Telnet方式下的它们的搜索方法的相似点和不同点在哪。通过这样讲解不但可以让学生了解和认识网络信息检索的基本知识和原理,还可以为帮助解决学生们在使用网络时碰到的问题提前做好准备。
四 信息检索传授内容与要点改革建议
1、介绍信息检索知识与信息资源是教学基础,训练学生对信息的识别能力
传授知识时使用Powerpoint软件制作一个300余张的教学课件,其内容包括讲解信息检索的概念、定义、语言、工具等基本知识的幻灯片[4]150余张,,关于搜索引擎的有30多张,关于网站的有40多张,说明常用数据库的有30多张,同时以自身主修的专业为参考依据,筛选出可以检索出的网站的数据库。上课时,进行一些基本的说明。对部分重点、难点内容可以进行课堂演示,在课后的时候还可以通过网络将课件与学生分享或直接拷贝给学生。对三大检索刊物及各专业领域的重点数据库,举例说明与讲解,让使学生对有关专业方面的主要检索工具做到心中有数。
2、解析查询锻炼学生搜索能力
如何高效的利用网络数据移动到自我的目的是现在学生非常关注和关心的内容。这点可以进行分析和讲解。对数据库的讲解,主要分为两类,一类是中文类(全文和摘要),一类是外文(全文和摘要),可以分开讲解。上课时让那些对所教授的内容提出不动的学生让其亲自操作一遍,了解其操作的整个过程。
利用搜索而得出的结果来说明词符、通配符、逻辑运算符和其他一些以限定的符号
3、查全率和查准率是教学的难点,锻炼学生的筛选能力
在传授的过程中可以分成下面三个部分:
(1)选取检索词。要注意检索词选取的多样性,检索词能反映出信息感念的准确性和内容的全面性。
(2)检索式的结构。要形成完整的检索概念,拟定适合的检索顺序,并利用逻辑算符或位置算符进行逻辑匹配
(3) 检索策略修正。在检索时,要利用获得的检索结果,进行检索策略的修正,从而获得更加准确的结果。在方法上我们可以利用有着后缀代码的关键字和使用有着前缀的索引达到限制主体的效果来应对检索加过中记录数过于庞大、无用信息太多的情况。
五结论
在现代这是一个离不开网络与检索的时代,传授网络教学的工作人员们只有人不断地提高自己的专业水平,努力地更新自己的专业知识,快速的调整教学方式方法。只有这样才能不被当前的迅猛发展的高新时代淘汰掉。
作者单位:武汉市第一商业学校,湖北 武汉 430022
摘 要:随着计算机网络的飞速发展,计算机技术也从传统的单机运行发展到网络、网格化发展,当前计算机网络发展模式主要为:客户端/服务器, 浏览器/服务器模式,这两种模式都存在着对服务器要求非常高,海量信息调度、检索存在着耗时高等问题,而peer-to-peer(P2P)正是针对此问题二提出的分布式计算模式。此种模式具有存储内容集中、检索方便、系统组织协调能力优良等特点。
关键词:P2P技术;网络信息检索;研究
1 P2P技术概述
1.1 P2P定义
P2P是Peer-to-Peer(对等网络,对等计算)的简称,中文译名为对等互联或者点对点技术,在P2P网络中各个节点被称为peer(对等体)。P2P是一种网络模型,在这种网络中所有的节点是对等的(称为对等点),各节点无主从之分,具有相同的责任与能力并协同完成任务。对等点之间通过直接互连共享信息资源、处理器资源、存储资源甚至高速缓存资源等,无需依赖集中式服务器或资源就可完成。
P2P网络并不是一种专门的新兴技术,而是假设在互联网络中的结构基础。互联网最基本的协议TCP/IP并没有客户机和服务器的概念,所有的设备都是通讯的平等的一端。在十年之前,所有的互联网上的系统都同时具有服务器和客户机的功能。当然,后来发展的那些架构在TCP/IP之上的软件的确采用了客户机/服务器的结构:浏览器和Web服务器,邮件客户端和邮件服务器。但是,对于服务器来说,它们之间仍然是对等联网的。以email为例,互联网上并没有一个巨大的、唯一的邮件服务器来处理所有的email,而是对等联网的邮件服务器相互协作把email传送到相应的服务器上去。另外用户之间email则一直对等的联络渠道。
1.2 P2P发展的影响
由于各种信息资源的发展和不断壮大,通过共享资源的方式来提升数据的传送、文件共享的功能要求将会越来越高,而当前的应用系统采用的方式大都是用服务器共享的方式,这已经开始严重制约着信息传递的数据,因而P2P作为一种新的共享方式出现,成为了时代的宠儿,它为文件共享、分布式计算机和信息交流提供了一种更加灵活和高效的模式,也为信息安全带来了新的挑战。
2 基于P2P技术的网络信息检索
2.1 基于P2P技术的网络信息检索的提出
传统的信息检索基于C/S模式,在该模式中,数据的分发采用专门的服务器,多个客户端都从此服务器获取数据。这种模式的优点是:数据的一致性容易控制,系统也容易管理,但这种模式对于大规模网络的环境容易造成性能瓶颈。在网络边缘信息不断丰富的今天,我们必须在互联网上设置拥有强大处理能力和高宽带的高性能计算机,配合高档的服务器软件,再将大量的数据集中存放在上面。这种架构使我们对服务端的投入巨大,因此服务器的个数只能是有限的,这就使系统容易出现单一失效点。同时C/S模式使得互联网中无论是信息还是资源均向同一方向集中,它的网络优势往往被局限于企业内部,制约了企业间的信息交流,而且网络安全性较差也是一个不容忽视的问题。从目前公布的数据来看,容量最大的搜索引擎也不过是抓取了整个网页数量的40%左右。传统的集中式引擎无法胜任实时性强的海量信息检索,P2P技术的蓬勃发展却为信息检索提供了全新的思路。在P2P网络中,每个参与网络的主机既是内容的消费者,又是内容的提供者,各个结点各自对自己本机上存储的信息做索引,所有信息提供者一起构成一个庞大的分布式数据库以供检索,这可以有效解决动态网页信息检索的问题,同时P2P网络中的每一个企业的信息点都是一个独立的Peer节点,每个Peer节点之间进行对等通讯,避免了传统C/S结构的低效和高成本,数据的集中处理又避免了P2P带来的数据分散。
2.2 基于P2P技术的网络信息检索的原理
在P2P网络中,每个参与的节点既是服务器又是客户端,既是信息的提供者又是信息的消费者。P2P信息检索的目的就是网络中的任意节点都可以提交检索的请求,然后这些检索通过某种路由机制被路由到和检索相关的节点上去,存储有和该检索相关信息的节点将会回应请求,把本地相关的内容以对等的形式直接传送到请求节点上,示意图见图1。
图中的检索过程分为以下几个阶段:
每个节点在加入网络的时候,会对存储在本节点上的内容进行索引,以满足本地内容检索的目的。然后按某种预定的规则选择一些节点作为自己的邻居,加入到P2P网络当中。
(1)发起者P提出检索请求q,并将q发送给自己的邻居。
(2)P的邻居收到q后,再按照某种策略转发给它在网络中的其它邻居节点。这样,q就在整个网络中传播开来。
(3)收到请求q的节点如果存储有相应内容信息,则将对应的内容返回。
2.3 基于P2P技术的网络信息检索的主要分类
P2P检索主要分成3种类型:结构化的P2P、网络的搜索技术以及针对这2种类型的改进技术。前出现的P2P系统具备足够的语义,能够处理复杂查询,以称为新一代的P2P检索技术。
P2P信息检索主要是要提高交互式作业方式、用户透明度,拓宽信息检索空间、提高信息检索的准确性。
2.4 P2P检索技术的方法
P2P查询的关键技术包含比较广泛,核心技术包括索引构造技术、路由策略及查询优化等,下面将分别对它们进行介绍。
2.4.1 索引构造技术
索引构造技术直接影响P2P系统的路由策略以及系统的查询效率,因此,构造具有丰富语义和高效的索引对于P2P系统是非常关键的,一般索引构造技术分成基于模式的索引和实例索引,模式索引为PDMS所特有,考虑了语义异构问题。实例索引包括:①通过散列将原始数据标识符映射到ID集合,再将ID集合映射到负责该ID的peer,可以具有多种拓扑形态的散列索引;②把数据库中B+树思想在P2P环境下进行扩展产生的树形索引。实例索引有多种分布方法:本地分布、集中式分布和分布式分布。本地索引中各peer只维持对自己的数据的引用,而不管其他节点上的数据的信息;集中式索引需单个服务器上保存许多peer上数据的引用,索引是集中的,但数据是分布的;分布式索引指向目标的指针存放在多个peer上,可有效分散查询负载和索引的存储负载,具有更强的健壮性和可扩展性。
2.4.2 查询优化
由于P2P网络动态的特性,不能假定具备数据分布的全局视图,也不能在这些网络中采用静态的拓扑和查询计划,使得提交的查询不太可能在整个查询处理过程中都保持原来的性质。为此,对查询进行优化变得非常重要,这样可以加快查询执行的效率,同时减少网络流量。
2.5 基于P2P技术的网络信息检索的特点
P2P系统具有自组织性、对称性、可扩展性以及分布控制等优良特性。随着P2P系统的广泛应用,该系统被认为是未来分布式计算的关键技术,可以应用于数据共享、CPU周期共享、及时信息传输以及协同工作组件等方面,同时在搜索引擎、数据流管理、语义网、协作信息过滤等领域具有广阔的应用前景。对P2P的研究主要集中在搜索、存储、安全和应用4个方面,而搜索是P2P技术的核心。
P2P信息检索通过分布式存储和处理能力为大范围的Web文件搜索提供可能,传统式的搜索引擎对于数据的更新缓慢不能满足用户实时性要求。受网络爬虫采集信息能力的限制,传统的搜索引擎很难进行深度采集深层次的网页信息。与传统的检索技术相比较,基于P2P信息检索技术有以下优点:(1)P2P信息检索充分利用以大规模分布形式存在的信息。(2)弥补传统搜索引擎无力深度挖掘网站信息的弱点。(3)挖掘移动终端的信息。(4)构建人性化的信息终端。
传统的信息检索,必须借助网络检索工具Internet上的信息极其丰富,这些信息分布在全世界不同的计算机主机上,基于超文本结构在Internet上,基于WWW的信息组织采用了超文本方式。基于P2P技术的信息检索技术以人为本的理念使客户使用起来更加方便、容易,检索的更加彻底和透明。未来的P2P检索技术主要是和3G技术,移动智能技术结合起来,使用户深切感受到21世纪网络时代的方便。
3 基于P2P技术的研究
3.1 基于P2P的网络信息资源的检索-搜索引擎的研究
3.1.1 Caching技术
在对等网络中,索引信息的扩散是通过查询来驱动的,成功的查询结果被缓存下来,使得索引信息可以再网络扩散开来。资源搜索效率可否再次成百倍地提高,即在用户未提出问题时就为他准备好答案,Caching技术可以使资源效率达到10-100。尽管网络资源无限爆炸,但每一个成员及其每一次查询,所涉及到的回答域都是有限的,并且基本保持固定不变,这就是局部性原理。计算机体系结构中关键技术指令和数据在不久的将来可能被再次访问,即下一程序指令在前条指令的概率非常大,因此,实践局部性往往会引起对最近使用区域的集中访问;空间局部性指的是一个进程访问的各项进程彼此很近,即下一次程序指令在前条指令附近的概率非常大。前者就是程序Cache,后者就是数据Cache的理论依据。
3.1.2 分布式的Gnutella搜索机制
在Gnutella中,每个节点共享一些文件,并提供基于文件名的本地查询操作。它使用消费洪泛的方式搜索其他节点上的文件。发起搜索操作的节点向所有邻居节点发送Query消息,而接到Query消息的节点进行本地查询,并把查询进一步转发给自己的所有邻居。为避免无穷递归,每个搜索消息都有一个TTL域,它随着转发的进行而递减,TTL为零的消息则不再被转发。每个请求都有一个准一的标识号。已收到请求的节点如发现已处理过,则丢弃该请求。
Gnutella的搜索机制可以看出,个别节点失效对查询结果影响较小,能动态适应网络拓扑变化,允许节点动态加入或退出。
4 结束语
基于P2P对等检索技术的发展将会为互联网信息搜索技术提供出了全新的解决方案,它让Internet上的共享方式提升到了一个新的水平,让人们能够以更方便、快捷的方式参与到网络交互中去,让人们能够更好的体验到数据共享、数据应用。
【摘 要】随着信息技术、计算机和网络技术的飞速发展,图书馆正在经历前所未有的伟大变革。在人们逐渐告别了手工检索,实现图书馆自动化的同时,也渴望着图书馆能真正打破时空的界限,馆藏资源实现数字化,正是由于社会的需求,数字图书馆应运而生并且迅速发展起来。本文主要探讨网络环境下高校数字图书馆的信息检索。
【关键词】网络环境 数字图书馆 信息检索
数字图书馆提供的信息资源主要包括电子图书、电子期刊、电子报纸、电子参考工具书与百科全书、OPAC、数据库、音像资料等。数字化图书馆必须具备三个基本要素:数字化资源、网络化存取和分布式管理。数字化资源是数字图书馆的“物质”基础。高速的数字通信网络是数字图书馆的存在手段。分布式管理是数字图书馆发展的高级阶段,全世界的数字图书馆只要遵循统一的访问协议,就可以实现资源共享[1]。
1高校数字图书馆的特点
1.1信息资源数字化
自动化图书馆与数字化图书馆最大的区别就在于前者只是实现了典藏、借阅等流程的机械化、自动化,而数字化图书馆是实现了文献内容的数字化。数字图书馆的文献内容包括已有的馆藏文献、商用电子资源、自建资源、互联网免费资源,在文献的级次上包括一次文献、二次文献、三次文献。馆藏资源数字化一方面对文献起到了保护作用,特别是对于古籍善本和历史珍贵文献的保护更具有深远的意义;另一方面也方便读者检索、浏览,不必考虑复本量。
1.2信息传递网络化
网络和信息技术的发展使数字图书馆超越了时空观念。通过网络,读者可以在任何时间、任何地点访问数字图书馆,而不必考虑开馆时间和地理位置的不便,从而大大缩短了信息传递时间,也加快了信息交流与反馈的速度。通过网络将各个图书馆及信息服务中心连接起来,极大的促进了资源共享。
1.3广泛的可存取性
广泛的可存取性包括两层含义:一是信息资源来自世界各地的研究机构、大学、企业、团体和个人;二是读者可以随时获得所需信息资源,从而实现“信息存取自由化”。
1.4信息资源共享
由于出版物的增多,图书馆经费的紧张,任何图书馆都无法全部收藏所有的出版物,数字图书馆的出现给资源共享提供了良好的基础平台,极大地提高了广大社会公众对文献信息资源的可获得性[2]。
2网络环境下高校数字图书馆信息检索
许多高校图书馆,在数字化方面,也做了大胆尝试,比如很多高校都购买《中国学术期刊》网络版数据,建立在校园网中可以自由阅读的封闭式镜像站点;也有许多高校购买超星或书生的数据库,建立自己的数字图书馆镜像站点。高校数字图书馆大多包含以下几个方面的内容:馆藏资源检索、网上图书、网上期刊等等。
2.1网上馆藏资源检索
所谓网络图书检索一般是指把实体图书馆的馆藏资源以书目信息数据库的形式录入到计算机中,并在Internet上,允许所有或特定的网络用户对馆藏书籍按照一定的方法进行检索。由于把书籍全文全部转录成为数字形式存在一些具体问题,包括要解决图文混排及文章特殊要求、作者著作版权、工作量以及是否确实需要等问题,目前大部分网络图书检索一般只限于书目、作者、摘要、出版社等基本信息,原书仍在图书馆。因此,馆藏资源检索就是检索图书书目信息,对读者了解馆藏有很大帮助。网络图书检索一般比较简单,国内外的图书检索系统差别不大,一般都可以使用www方式和Telnet方式进行免费访问和检索。使用Telnet方式一般需要授权,但大部分访问者仍可以使用一些公共账号(如public)进行登录。高校图书馆馆藏资源检索系统一般都有图书检索功能、新书通报、图书催还、读者借阅情况查询、网上预约和网上续借,一般还有图书馆的服务简介、规章制度、开馆时间等等,是读者利用图书馆的好帮手。使用图书检索,读者可以看到要查找的图书的排架号,按照排架号去图书馆书架上找书,并且可以看到该书的借阅情况:是在编、在架还是借出;一般在办理借书证时图书馆都要给读者一个初始密码,读者可以自己修改密码,在查询自己的借阅情况和网上预约、网上续借时,需使用该密码[3]。
2.2网上图书
目前,网上有许多数字图书馆或网上书屋,读者在网上可免费阅读或下载图书。比较大的网上图书馆有书生数字图书馆、超星数字图书馆、黄金书屋等等。许多高校根据专业设置,购买电子图书数据和专用设备,建立数字图书馆镜像站点。下面,我们以书生数字图书馆为例,介绍网上图书的查询、阅读方法。北京书生科技有限公司是一家以技术起家的典型IT公司,主要业务是数字化信息加工和经营,依靠先进的硬件设备和技术,将图书、报刊等传统出版物数字化[4]。
2.3网上期刊
《中国学术期刊全文数据库》是目前国内最大的连续动态更新的中国期刊全文数据库,累积全文文献近千万篇,分9大专辑,126个专题文献数据库。另外,还有重庆维普期刊全文数据库,也可查看中国学术期刊全文数据。下面我们以《中国学术期刊全文数据库》为例,介绍网上期刊查阅方法。用户在登录界面中输人登录用户名和密码后,即进入检索主界面,系统默认登录进入初级检索系统,在初级检索界面中,点击高级检索链接就可以进入高级检索界面。网络信息检索工具是指在因特网上提供信息检索服务的计算机系统,其检索的对象是存在于因特网信息空间中各种类型的网络信息资源。较为典型的传统信息查询工具有Gopher、Archie、WAIS等,它们分别可以查询Gopher资源、FIP资源和WAIS资源。还包括目前发展最为迅速、最受人们欢迎的信息检索工具——WWW(即万维网)上的检索工具。
结论
为了迎接新技术革命的挑战,迎接信息社会和知识经济时代的到来,高等教育必须要培养出具有较强的知识信息意识、较高的自学能力和独立研究问题能力的高素质人才,以适应社会发展的需要。在高等学校中,图书馆和教师、实验室一起并列为办学的“三大支柱”。教师在教学中起主导作用,这种主导作用不仅体现在传授基本理论、基础知识和基本技能方面,更重要的是启发引导学生学会独立自学方法,掌握获取知识的技能。通过对网络环境下高校图书馆信息检索进行分析,有利于大学生能够更好地运用图书馆学习知识,掌握知识。
【摘 要】本文主要对网络信息检索进行论述。
【关键词】网络信息;检索
随着信息技术的高速发展,信息资源的越来越显得重要,而网络信息资源也逐步成为这个信息时代的核心资源。信息检索技术也很快得到发展,在此网络信息检索随着网络的发展也应运而生。网络信息检索,就是将描述特定用户所需网络信息的提问特征,与信息储存的检索标识进行异同比较,从中找出与提问一致或基本一致的网络信息的过程。相对传统文献检索,网络信息检索显现出了很多的优越性,如不受时间地点的限制,检索方式多样化,多元化等。但是我觉得网络信息检索的发展还不是十分完善,仍存在些问题,如目前检索工具在信息搜集缺乏统一的规范管理,检索过程会出现很多雷同,甚至无用的垃圾信息等。以下从网络信息检索目前存在的问题,及针对问题面临的以后的发展方向进行了探讨。
随着网上信息资源的膨胀发展,一种搜索引擎,无论它多么完善都不可能满足一个人所有的检索需求。如果遇到文献普查、专题查询、新闻调查与溯源、软件及MP3下载地址搜索等情况,人们就更需要使用多种搜索引擎来比较、筛选和相互印证。为解决逐一登陆各搜索引擎,在各搜索引擎中分别多次输入同一检索请求等烦琐操作,基于网络检索工具的检索工具产生了。
目前这列检索工具只要有两种:集成搜索引擎和元搜索引擎。所谓集成搜索引擎是在一个检索界面上链接若干种独立的搜索引擎,检索时,一次检索输入,可以指定搜索引擎也可以要求多个引擎同时检索,搜索结果由各搜索引擎分别以不同页面提交的网络检索工具,其实是利用网站链接技术形成的搜索引擎集合。集成搜索引擎制作与维护技术简单,可随时对所链接的搜索引擎进行增删调整和及时更新,尤其大规模专业搜索引擎集成链接,深受特定用户群欢迎。如国内天网搜霸和百度搜霸,国外比较著名的有“搜索之家” “网际瑞士军刀”等。
另一个是元搜索引擎,用户只需递交一次检索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将所有查询结果集中起来以整体统一的格式呈现到用户面前。国外比较著名的元搜索引擎有Vivisimo、EZ2WWW、Kartoo、SurfWax、Fazzle等。目前国内现在还没有见到真正意义上的元搜索引擎。元搜索引擎虽没有网页搜寻机制,亦无独立的索引数据库,但在检索请求提交、检索接口和检索结果显示等方面,均有自己研发的特色元搜索技术支持。目前元搜索引擎技术主要有并行处理式和串行处理式两大类。并行式元搜索引擎运行时是将查询请求同时发向各个独立搜索引擎,然后将的结果按特定的顺序呈现给用户;串行式元搜索引擎运行时是将查询请求先发向某个独立搜索引擎,待其返回结果后再将请求发往另一个独立搜索引擎。
从第一个元搜索引擎Metacrawler诞生至今,这一新型的网络检索工具异军突起,发展迅速,目前可用的元搜索引擎已近百种。由于元搜索引擎的功能受着源搜索引擎和元搜索技术的双重制约,元搜索引擎比较理想的并不多见。信息检索专家邢志宇将元搜索引擎存在的问题归纳如下:(1)大多元搜索引擎不支持多语种,尤其是汉语检索;(2)一些元搜索引擎实现检索语法转换的能力有限,不支持指定字段检索,不能充分发挥各个独立搜索引擎的高级检索功能;(3)部分元搜索引擎无源搜索引擎列表,用户不能自主选择和调用源搜索引擎;(4)大部分元搜索引擎仅支持调用AltaVista、Excite、、Yahoo!、Infoseek、Lycos等常用的搜索引擎,一些大型搜索引擎如NorthernLight、HotBot等被排除在外,人为地限制了搜索资源的利用;(5)在检索结果上,元搜索引擎只能返回十几、数十条“相关度”较高的结果,大量可能有价值的源搜索引擎的检索结果被忽视,影响检索结果的全面性。
Internet的发展使信息采集、传播和利用无论是从规模还是速度都达到了空前的水平。我觉得未来网络信息检索技术的发展方向如下:
1.智能化
现有的检索引擎存在着查全率和查准率低的问题,未来的搜索引擎技术必须具有能及时挖掘新信息和及时能链接新增的信息,多途径检索功能,用户可以交互式检索,搜索出满意的信息。提高网络信息检索技术水平并实现智能检索,智能化是网络信息检索未来主要的发展方向。智能检索是基于自然语言的检索形式,机器根据用户所提供的以自然语言表述的检索要求进行分析,而后形成检索策略进行搜索,智能检索技术就是采用人工智能进行信息检索的技术,它可以模拟人脑的思维方式,分析用户以自然语言表达的检索请求,自动形成检索策略进行智能、快速、高效的信息检索。最近几年,智能信息检索作为人工智能的一个独立研究分支得到了迅速发展,而且目前已有一些搜索引擎支持智能检索,但智能化程度还不高,这方面还有待进一步的发展。
2.标准化
现在的网站信息瞬息万变,杂乱纷繁,很是需要进行分类整理。目前虽然有大量的搜索引擎,但还没有一个统一严格的分类方法来管理,网络信息资源在组织分类上需要制定一个统一的分类标准。还要规范网络术语,提高资源共享的程度,这样可以有效保证用户的检索效率。
3.个性化
科技的发展要以人为本,随着科学技术的发展,个性化服务也将成为网络信息检索的一个发展方向。随着互联网的飞速发展,每个人的对信息的需求将不再满足于标准化、单一化的大众需求。不同的人需要不同的服务,如残疾人士对网络信息检索的要求就要区别于常人,要是信息检索能很好的识别语音检索就能很有效的满足他们的信息需求。如何使用户更方便、快捷地使用各种检索工具,满足用户各种检索要求,个性化服务也会成为网络信息检索重要的发展方向。
在这个知识大爆炸的时代,要想从浩如烟海的信息资源中快速准确地找到自己所需的信息,就需要我们在不断信息检索实践中总结及掌握一些检索技巧。当然也需要我们不断的发现问题,努力解决问题。也由衷地希望随着科技的发展,网络信息检索技术越来越成熟,能给人们带来各式各样的服务,让我们的生活更加便利。
[摘要]:鉴于现代信息技术的迅猛发展,现代人愈来愈依赖于网络来检索各类信息。但是,因为网络信息资源数量太多,用户要想在最短时间之中得到自身所需信息往往会极其困难。分析网络环境下信息检索的常见问题,并提出了有针对性的对策。
[关键词]:网络环境 信息 检索
信息检索可以从广义和狭义等两个层面进行定义。广义上,信息检索主要是指把信息依据某种方式来进行组织与存储,并且依据用户之所需查询到有用信息的整个过程,所以又被称之为信息存储和检索。狭义上,信息检索则是指从存储的各种信息中查找出有用信息的整个过程。自从上个世纪末以来,网络得到了极大的发展,人们进行信息检索的平台也转移到了网络上,网络信息检索已经取代了原来的手工检索。因此,应用网络进行快速而有效的检索以得到相应的资源,已经成为当前信息查询者亟待探讨的重要课题。
一、网络环境下信息检索的常见问题
一是网络信息过于泛滥。如今,任何组织与个人均可通过网络相关信息,导致网络信息量飞速增加,而信息的质量与精度则不断降低,那些庞杂、虚假、冗余及政治反动类信息加大了信息的不可确定性,一些网站质量不高,且长时间不进行更新,导致用户面对这些信息显得无所适从,因而无法找到所需信息。二是搜索引擎存在不足。虽然搜索引擎能够发挥网络导航之作用,但是也存在着类目设计不规范,内容存在重复和交叉现象等,而且重复链接信息偏多,查准率过低。三是用户信息意识不强。尽管网络环境下用户可运用网络来获得信息,但尚有许多用户缺乏良好的信息意识,对于网络信息检索不够熟悉,难以快速获取相关信息。
二、网络环境下强化信息检索的对策
(一)通过提出信息需求以明确检索目标
用户在检索前一定要深入分析,明确所要检索的目标信息,这是确定检索策略的根本措施,也是判断检索效率高低之重点。一是要了解所要检索信息的主体内容以及涉及到的学科范围,并且明确检索内容及其目的,这是用户选择检索工具的首要步骤。二是确定需要文献类型、年代和文献范围等,在了解清楚以上内容之后再来选择相应的数据库并开展限定检索。三是应明确查新、查准以及查全等指标性要求。如果想知识本领域的最新动态和进展,就应当注重“新”;如果要切实解决研究当中的某些具体内容,而且不要产生误查,就应当注重实“准”;如果要了解某领域发展的整个过程,而且期望得到全部相关文章,就应当注重“全”。
(二)选用合适的检索数据库和检索工具
目前,网络资源的种类相当多。每个检索系统常常涵盖了多个数据库。在进入到系统以后,一般都会出现分类目录让用户进行选择。比如,中国知网中就包含了中国学术期刊网络出版总库、中国博士学位论文全文数据库、中国优秀硕士学位论文全文数据库、中国重要会议论文全文数据库等大量数据库,而且在每一个数据库之下又会出现不一样的主题分类。因此,用户要依据待查内容的范围以决定选择哪个数据库。至于方向性的信息检索则可运用百度、谷歌等目录型检索工具,依据主题目录体系之引导来查询信息。此外,还可运用高等院校图书馆或者其他图书保存单位的联机性检索。要查找学术性比较强的信息,建议优先查找中国期刊网和人大复印资料等专题类的数据库。要查询事实数据则应选择具有权威性的官方数据库。
(三)实施概念分析以确认检索词
实施计算机检索是否能够得到满意的成效,一个关键环节就是要选好检索词。只要检索词分析得当,就能更好地进行选词和进行逻辑上的组配。检索词分析主要有:一般概念、隐含概念以及核心概念等不同概念的选取和分析。
(四)合理构造信息检索表达形式
在构造信息检索表达形式之时,应当全面运用检索工具所支持的检索计算,允许运用检索标识与各类限定等,这也是实施有效检索的重要基础。信息检索表达形式的构造内容可以分为以下四种,即布尔逻辑计算符、位置计算符、字段限定以及截词检索计算符等。
(五)合理地调整信息检索方式
在制定明确的检索方式,并且输入到检索系统之后,该系统所检索出来的结果并不是肯定能够满足用户心中所设想的信息检索要求,所以,在检索时常常应当依据预检的状况来实施多次判断和调节,并且不断地调整信息检索的方向、强度和内容等,一直到完全达到要求为止。其中主要包含了扩大信息检索的范围以提升查全率,缩小信息检索的范围以提升查准率。
(六)不断提升广大用户的信息素质
不管是进行手工信息检索还是实施网络信息检索,均是由人来进行操作的,因此,其中人的因素往往占据了支配性的地位,无论是实施手工信息检索,还是开展网络信息检索,均需具备良好的信息素质。提升用户的信息素质与思想素质,这是提升信息检索能力的重要基础。知识、技能与能力等三者均为知识素质的重要体现,三者之间是相辅相成的。其中,知识为基础,而技能则是关键。唯有具备了必要的检索能力以及相当广博的能力内涵,并且具备良好的检索技能,这样才能具备较强的信息检索水平。随着我国教育事业的持续深化和现代文明的不断进步,现代人知识能力的提高均为信息能力之提升提供了良好的发展背景,而技术之进步又为用户信息素质之提升提供了良好的技术背景。可见,在用户们进行持续不断的信息学习和实践之后,必然能够提升自身的信息素质,从而更好地进行信息检索。
三、结束语
当前,我们身处信息化时代,网络信息资源已经成了现代人日常工作以及生活中无法缺少的重要资源。笔者坚信,随着计算机网络技术的进一步发展,网络环境下的信息检索必然会更加普及。用户只要具备相应的检索工具以及检索方法,就能快速在巨量信息中找出需要的查询结果,得到相应的信息。
摘 要 本文阐述了数据挖掘的基本理论,及其在网络信息检索中的应用,分析了数据挖掘对网络信息资源、网络信息检索结果、用户检索需求等方面性能的提升,并对网络信息检索未来发展进行了展望。
关键词 数据挖掘 网络信息检索 数据挖掘
目前,网络信息资源数据形式丰富多样,数量巨大,并呈几何级数的速度增长,基本满足了人们的信息检索的量的需求,然而如何快速、高效地找到自己所需要的信息,网络信息检索在查全率和查准率上还相对欠缺。网络搜索引擎通常会返回给用户成千上万检索到的网页,其中大部分与用户的检索要求无关,另外就网络上的知识发现而言,即使检索精度再高,搜索引擎也不能够胜任。因此,人们需要比信息检索更精确高效的、能包含网络数据库在内的新的数据挖掘技术,数据挖掘正是在这样的应用需求下产生并迅速发展起来的。但是,数据库领域采用的数据挖掘技术所涉及的多是结构化数据,为了处理网络上的异质、非结构化或半结构化数据,网络数据挖掘成为数据挖掘研究的一个重要分支。
1 网络信息检索
网络信息检索一般指因特网检索,是通过网络接口软件,用户可以在一处终端查询各地上网的信息资源。网络信息检索主要依靠计算机科学技术、网络技术和数据的确切特征来创建相应的索引结构、数据库等,能很好地处理已经发生或存在的静态信息。网络信息检索工具包括传统的服务工具:远程登录、文件传输服务、电子邮件、电子公告牌、广域消息服务、Gopher、WWW、基于Z39.50的信息检索服务、服务器和NAT,以及搜索引擎和中外著名网络数据库检索。这些工具都能有效地组织和检索海量数据,但对数据未来的变化趋势等动态信息缺乏有效的统计和预测。
2 数据挖掘及Web数据挖掘
数据挖掘(Data Mining),即从大量模糊的数据中发现隐含的规律性内容,解决数据的应用质量问题的技术,是一种还处于发展中,已经部分投入实际生产实践的技术框架。
Web数据挖掘是从数据挖掘技术发展而来,简单地说是将数据挖掘技术应用到Web上,也称为Web挖掘。其技术性的定义是:Web数据挖掘,是一项涉及Web、数据挖掘、信息学、计算机语言学等多个领域的综合技术。Web数据挖掘的目的是为了揭示网络信息中隐含的知识,它是比信息检索层次更高、更精确的一种技术。它能够根据用户个性化定义的要求,根据目标的特征信息在网络上或者数据库中进行有目的的信息检索。Web数据挖掘中几种常用的技术是:关联规则技术、分类技术、聚类技术、路径分析技术和序列模式技术。
3 数据挖掘在网络信息检索中的应用
目前,作为网络信息检索最重要最常用的工具:搜索引擎,只能处理用户给出的特定关键词形式表示的简单目标,而无法处理用户给出的样本形式的复杂模糊目标,对网络数据未来的变化趋势等动态信息也缺乏有效的统计和预测。而将数据挖掘技术运用的网络信息检索中,可以使网络信息检索过程及结果更加快速、精确、个性化。
(1)数据挖掘提高网络信息内容自动摘要的准确率。网络信息资源一般都有关键词和内容摘要供用户检索选择之用,但大部分的自动摘要都是简单的抽取网页文档的前几句内容,而仅仅是通过位置来确定的,这种方式很不准确,不能精确的反映网页的全部内容,所以保证自动摘要的正确性非常重要。数据挖掘中的文本抽取就是从文档中抽出关键信息,对文档本身的内容而不是位置来进行文本内容的总结,以自然语言理解为基础,更可揭示网络信息的主题特征知识及其之间的相互关联知识,对文档进行语义甚至语用的标注,因此它更能反映出Web文档中的真正信息,然后以简单的形式进行摘要或表示,可以提炼出文档最重要的信息生成关键字或摘要,使自动摘要的质量和准确性很大的提高。
(2)数据挖掘拓宽网络信息资源量。网络信息资源数量众多,分布范围很广,大部分可以直接用网络信息检索工具查询到的信息都是网页中的文字、表格、图形、图像、声音、视频或好友网页的链接及目录结构等。但是还有一些潜在网络信息不容易被搜索引擎等工具查询到,如用ASP,JSP或PHP生成的动态网页;一些专业数据库系统中的数据;在Robot Exclusion框架协议下被拒绝搜索访问的网站;由用户的提问而动态生成的结果;存在于商业数据库管理系统中的数据等,它们无法被索引,从而无法提供有效的检索方式,这些结构化的或用html标记的半结构化数据都可以用数据挖掘中的内容挖掘进行处理,网络页面内容挖掘常采用的技术是文本挖掘和多媒体挖掘,可为这些网络信息提供明确的摘要或索引,使得本来不容易搜索到,潜在隐藏的信息能被明确的搜索到,从而大大拓宽了网络信息的资源量。
4 网络信息检索的未来展望
数据挖掘能发现网络中隐含的有价值的信息和知识,从而提高标引、自动摘要、自动分类和自动聚类等的准确率;能促进用户兴趣模型的构建,从而为用户提供更好的个性化信息服务。此外,它独特的分析方法能发现网络数据知识之间的各种关系,使网站建设和检索结果的分布更加合理。随着本体、网络、自然语言处理、信息可视化和人工智能等技术的发展,将数据挖掘与这些技术进行结合,未来的网络信息检索将朝这更加精准、个性和智能化方向发展。