互联网在全球范围内的迅速发展与成熟,促使社会各领域信息飞速膨胀,为人们查找、获取
有用信息提供了丰富的信息源,但也给信息的准确定位提出了挑战。提供网上资源的检索是
网络信息服务的重要内容之一,加之现代人也对信息把握的正确性和全面性提出了越来越高
的要求,因此,当务之急是开发性能优越的网络信息检索工具。
1993年,第一批搜索引擎诞生后,发展至今已经逐渐走向成熟,伴随着计算机智能化研究的
不断发展,具有适应性和学习性特征的智能代理技术也正从试验阶段过渡到实际应用。目前
,搜索引擎(search engine)与智能代理(intelligent agent)已经成为网络信息搜索的关键
技术与核心思想。
1 搜索引擎技术的发展现状
1.1 搜索引擎技术
目前,网络信息检索技术最主要的是搜索引擎技术,搜索引擎实际上是一个专用的WWW服务
器,也可以说是因特网上的一类网站,这类网站与一般的网站不同,其主要工作是收集网络
上成千上万的网站和网页信息,组成庞大的索引数据库。使用优秀的搜索引擎可以达到事半
功倍的效果。目前网络上大约有3000多种搜索引擎,我们较为熟悉的提供中文搜索引擎的站
点有sina、sohu、 Yahoo、netease和中文Excite等。
一般来说,搜索引擎主要采取两种方式实现对网络信息资源的检索,一是采用分类主题目录
形式,将网站进行树状的分类,所链接的网站必须至少归属于其中一个类别,形成类似图书
馆目录一样的分类主题目录,用户通过逐级浏览这些目录来找寻自己需要的内容,采用这种
检索方式的搜索引擎有Yahoo、sohu等,由于使用了专家进行归纳和分类,为信息导航带来
了极大的方便,但这种方式在分类和目录整理中需要大量的人力;二是使用关键词匹配方式
,其处理对象主要是文本,它能够对大量文档建立由字(词)到文档的索引库,在此基础上,
用户使用关键词对网页进行搜索时,系统将会显示含有该检索用词的所有网站、网页和新闻
等匹配信息。关键词检索能解决对网页细节的检索问题,只要用户输入关键词,系统通过蜘
蛛机器人自动在选定的范围内进行检索,并将所检索到的信息自动标引导入索引数据库中,
匹配所检范围中的网页,就能得到检索结果。
1.2 搜索引擎使用的信息检索技术及其不足
目前搜索引擎使用的信息检索技术主要有:Robot技术、索引技术、翻译技术、转换技术、过滤技术、数据库技术、结果处理技术等。搜索引擎的最大优点是:信息的覆盖面较大,信息
新颖,而且对搜索结果的相关性排列上,搜索引擎将其认为相关性高的检索结果排列在前。
但由于搜索引擎使用的信息检索技术智能水平的限制,以及对自然语言理解的制约,对网络
信息的检索存在许多不足之处。主要有如下几方面。
(1)现在的搜索引擎主要通过Robot将网页的全部或部分内容下载到自建索引库中,由于下载的页面许多是无用或暂时信息,既影响检索速度,也增加了用户检索负担。
(2)由于搜索引擎一般都采用关键词检索方式,但许多情况下,用户很难简单地用关键词或
关键词之间的组配来准确地表达真正需要的信息内容,表达困难导致检索困难。
(3)每个引擎的覆盖面都相当有限。经考察研究发现,没有一个搜索引擎的索引量超过整个
网页的1/6。
(4)搜索的结果不精确。搜索结果的精确性是由查询词与网页的相关性来确定的,常常输入
一个单一的查询词能返回数万篇结果,或者零篇结果。
2 智能代理技术
2.1 智能代理
智能代理又称智能体,是人工智能研究的新成果,它是在用户没有明确具体要求的情况下,根据用户需要,代替用户进行各种复杂的工作,如信息查询、筛选及管理,并能推测用户的意图,自主制定、调整和执行工作计划。具有智能性,是可进行高级、复杂的自动处理的代理软件。智能代理可应用于广泛的领域,是人工智能领域近年来研究的一个热点,应用于信息检索领域之后,成为开发智能化、个性化信息检索的重要技术之一。
2.2 智能代理的特点
①智能性。具有丰富的知识和一定的推理能力,能揣测用户的意图,并能处理复杂的难度高的任务,对用户的需求能分析地接收,自动拒绝一些不合理或可能给用户带来危害的要求,而且具有从经验中不断学习的能力,适当地进行自我调节,提高处理问题能力。
②代理性。在功能上是用户的某种代理,它可以代替用户完成一些任务,并将结果主动反馈给用户。
③移动性。可以在网络上漫游到任何目标主机,并在目标主机上进行信息处理操作,最后将结果集中返回到起点,而且能随计算机用户的移动而移动。
④主动性。能根据用户的需求和环境的变化,主动向用户报告并提供服务。
⑤协作性。能通过各种通信协议和其他智能体进行信息交流,并可以相互协调共同完成复杂的任务。
3 搜索引擎技术与智能代理技术的结合
搜索引擎与智能代理技术有着各自的优势与不足,把这两种技术结合起来,将为开发新一代功能更强大的网上信息搜索系统提供广阔的天地。智能代理主要集成客户端特殊的环境,配合用户兴趣完成搜索。它对用户信息需求、偏好进行甄别、归纳、总结,分析用户的兴趣爱好,并借助学习好的规则,自动、独立地代理用户查找其感兴趣的信息。将搜索引擎与智能代理技术结合起来是建立新的检索模式的必然趋势。
3.1 服务器端的个性化服务的引入
在服务器端吸收智能代理技术的思想,引入个性化和人性化服务的思想。引入用户反馈机制来完善检索机制、提高检索命中率,同时也可以提供面向个人的特殊检索服务。这种方式可以通过帐号制形式来实现,即为每一位用户提供一个帐号(类似于个人邮箱),以记录该用户查询踪迹,从而在用户再次登录时结合以往的用户检索记录来配合提供相关的检索服务。
这种模式体现了个性化服务的特色,对于用户一贯查询的信息就可以直接从用户的信息库中提取,避免了重复查询。另外,通过对用户的反馈意见进行跟踪,获取用户对结果的评价,据此提高检索质量。检索入口的自然语言化发展将有助于优化检索界面,提高界面的人性化。
3.2 客户端智能代理技术的拓展
以智能搜索代理技术为主,结合搜索引擎“面向主题”的检索模式,在密切关注个体需求、提高信息与用户需求相关系统,彼此间可以通过统一的传输协议进行沟通,交换信息,从而使更多的信息得以挖掘,以弥补智能代理信息搜索范围有限的缺陷。
这种模式充分利用了智能搜索代理的流动性、交互性、智能性特点,同时又吸取了搜索引擎的主题相关的思想,为高质量的信息个性化检索服务提供了新的模式。
搜索引擎技术与智能代理技术在网络信息检索上的结合发展潜力是巨大的,要真正实现两者结合的各项优势,还有待在机器学习、相关度分析等方面进行逐渐的研究和改进。在知识经济时代,人们越来越需要个性化信息的提供,作为网络信息检索的前沿技术,智能代理技术将受广大用户的青睐,相信它的发展前景是非常广阔的。
(来稿时间:2002年3月)
参考文献:
1.张惠文.网络信息检索技术的智能化趋势.情报理论与实践,2001(1)(6)447-450
2.黄NFEE2.网络搜索引擎与智能代理的对比研究.图书情报工作,2001(10)53-57
3.马静.网上信息资源及其检索技术智能化研究.图书情报工作,2001(1)56-58
4.杨涛.中文智能搜索引擎浅析.图书情报工作,2002(1)62-65
On the Network Search Engine and Intelligent Acting Technology
Liu Yan (Fushun City Library)
〔Abstract〕 This paper discusses the principles of the netw
ork search engine and intelligent acting technology and their important role.
〔作者简介〕 刘艳,馆员,毕业于北京大学信息管理系,现任抚顺市图书馆副馆长。