背景:#EDF0F5 #FAFBE6 #FFF2E2 #FDE6E0 #F3FFE1 #DAFAF3 #EAEAEF 默认  
阅读内容

网络知识挖掘在数字参考咨询中的实现

[日期:2008-08-10] 来源:  作者:林晓霞 [字体: ]

【 内容 提要】文章着重阐述了 网络 知识挖掘产生的背景及其概念、技术,探讨了网络知识挖掘在数字 参考 咨询服务中的 应用 。

【摘 要 题】信息需求与服务

【关 键 词】数字参考咨询/数据挖掘/网络知识挖掘

【正 文】
    1 网络知识挖掘产生的背景及其概念、技术

对知识挖掘的设想始于20世纪80年代末。当时出现了从源数据中发掘新信息模式及算法,被称为数据中的知识发现(Knowledge Discovery in Database,KDD)。这种想法的出现是由于此前的信息或知识数据库存在着种种局限,限制了对数据库中蕴涵知识的有效利用[1]。知识发现被认为是今后具有重要 影响 和应用前景的关键技术。知识发现(knowledge discovery)也称数据挖掘(data mining),源自人工智能的机器 学习 领域,是在一个已知状态的数据集上,通过设定一定的学习算法,从数据中获取所需的知识[2]。数据挖掘广泛应用于数据仓库和分布式数据库中,根据数据间的相互关系进行数据 分析 ,提取潜在有用的信息和知识,经挖掘后被发现的知识可用于信息管理、查询优化、 科学 研究 、决策支持、过程控制等。现有的数据挖掘工具有:Model Quest Miner、Knowledge Seeker、Business Miner、Anser Tree等几十种。数据挖掘是网络知识挖掘的基础。网络知识挖掘是指利用数据挖掘技术,自动地从由异构数据组成的网络文档中发现和抽取知识,从概念及相关因素的延伸比较上找出用户需要的深层次知识的过程[3]。网络知识挖掘可分为网络内容挖掘(Web Content Mining)、网络结构挖掘(Web Construct Mining)、网络使用挖掘(Web Usage Mining)。一般而言,网络知识挖掘的发现技术主要包括以下几个方面。
  1.1 路径分析
可以用许多曲线图解法来进行路径分析,一个曲线代表了Web页面间或者其他事物之间的一些联系
  1.2 关联规则
关联规则用于发现数据项之间的联系,在网络挖掘中就是发现某一顾客的引用页面和服务器上多种页面之间的联系。
  1.3 序列模式
应用序列模式是为了发现一些交互模式,如在一时间段内某一数据项后面跟着另一个数据项。在服务器日志文件中,记录了一段时间内客户的访问信息,对Web服务器中访问日志的序列模型分析可以使用 企业 预测用户访问模式,帮助广告进行目标定位,发现在一个时间段内访问某一文件的所有客户的相同特征等。
  1.4 聚类和分类
根据一些数据项的共同特征来对数据库进行分类。在网络挖掘中,分类技术可以基于用户的一些人口统计信息和访问模式对访问某文档的用户进行偏好描述。聚类分析可以将有相似特征的用户或者数据聚集在一起,聚类Web日志的用户信息和数据可用来制定未来市场营销策略[4]。

    2 网络知识挖掘与数字参考咨询知识库的建立

数字参考咨询的概念起源于20世纪80年代的美国,早期的 电子 邮件咨询服务起源于1984年的华盛顿大学健康科学图书馆和马里兰—巴尔迪摩大学健康图书馆[5]。在美国,图书馆界对数字图书馆的 发展 存在两种看法,其中一种把图书馆看作是一个在图书馆员的协助下为广大用户提供智能服务的透明的知识网络。数字参考台就是根据这种意见建立起来的对话式的智能服务系统[6]。数字参考咨询是伴随着数字图书馆的研究和实践热潮出现的又一大热点,也是网络环境下图书馆参考咨询服务的主流发展方向。利用网络知识挖掘技术,可以了解用户访问图书馆的目的和趋势,了解用户的兴趣和需求,改进服务质量,变被动服务为主动服务,提高数字参考咨询服务的效率。
数字化信息资源是数字参考咨询的物质基础,它由各类知识库构成。数字参考咨询是从积累知识库到进行知识服务,可以在面对面与用户沟通中判断用户的实际需求,由此来加深知识服务层面的深度和广度。知识库的建设直接影响到数字参考咨询服务。可想而知,如果没有知识库或知识库内容非常少,仅凭咨询员个人的知识经验很难满足不同用户的各类需求。网络在提供丰富资源的同时,也给查找和获取有效信息带来了难度。传统的数据挖掘涉及的主要是结构化及半结构化的数据库,而网上的信息变化频繁且具动态性,是一个巨大而又复杂的异构型数据库,对网上的信息进行挖掘要比面向单个数据库复杂得多。数字资源的多元性和分散性,使数字化信息的知识化挖掘和链接成为信息服务所面临的前沿挑战。因此,对数据的进一步加工和内容分析显得越来越重要。在这样的背景下,网络知识挖掘的新技术应运而生。
网络知识挖掘的类型可分为对网络知识的挖掘和对用户知识的挖掘。对网络知识的挖掘主要是指通过对网络信息的定性定量的增值处理,找出信息分布的 规律 ,发现信息内在的关联性,挖掘隐藏在网络信息中的知识并形成模型。对用户知识的挖掘是指对用户访问网络时的信息和用户个人信息的挖掘。网站服务器会保留用户的访问记录,记录关于用户访问和交互的信息,对此进行分析和挖掘,有助于理解用户的信息活动,了解用户的信息需求,从中得出用户的访问模式和访问兴趣,从而改进网站的结构,也可以用于为用户提供个性化的服务[7]。此类知识库建立 方法 在实际中的应用如复旦大学,复旦大学的实时咨询提醒用户如果在线咨询员没有空闲,可以参考图书馆FAQ中的一些常见 问题 的解答;如果用户的问题仍未解决,不妨使用电子邮件咨询服务,或稍候使用实时在线咨询服务。用户所提的问题及其相应答复可能被收入复旦大学图书馆参考咨询台后台知识库中,在知识库中用户的所有个人信息都会被删除,收入数据版权归复旦大学图书馆所有[8]。
基于Internet建设起来的知识库,其质量好坏直接影响数字参考咨询。作为信息资源的知识库,要形成一定的规模且检索便捷、内容新颖,能够不断地更新,以保持数据的准确、全面和及时。如当今世界上最大的图书馆网络OCLC把互联网上的信息经过系统化的整理,通过主题词即可检索;且OCLC的WorldCat数据库随时更新,每年以200多万条记录的速度增长[9]。OCLC之所以始终保持在高新技术前列,是由于在研究开发上的大量投资。OCLC平均每年投资研究与开发项目达1000万美元以上,仅在2002-2003财政年度就投资1400万美元[10]。所以研究开发先进的知识挖掘、分析和提炼技术,形成一个丰富的知识库来满足用户的需求,提高用户的满意度,给用户更好的服务,是做好数字参考咨询服务所必需的。

    3 网络知识挖掘为数字参考咨询提供技术支撑

图书馆对新技术尤其是信息技术保持高度敏感。随着电子技术、 计算 机技术和通信技术的迅猛发展,互联网在全球范围得到迅速普及,同时多媒体技术、实时交互技术等与之配套的技术如雨后春笋般出现,这为图书馆开展数字参考咨询服务提供了技术保障。经过几年的努力,图书馆的数字化建设与服务已具备了较好的技术和硬件基础,这也为开展数字参考咨询服务提供了强有力的技术支撑。
知识挖掘的技术基础是统计学与人工智能。知识挖掘的主要特点是能对原有的数据进行高度自动分析、归纳推理,从中挖掘出潜在的模式,预测用户的行为,帮助决策者调整策略,作出正确的决策。人工智能是以自动机为手段,通过模拟人类宏观外显的思维行为,从而高效率地解决现实世界问题的科学和技术。可以看出,人工智能的目标非常高,除需要复杂的算法外还需要特定的机器。但知识挖掘仅仅利用了人工智能中一些已经成熟的算法和技术,如人工神经网络(Artificial Neutral Networks)、遗传算法(Genetic Algorithms)、决策树(Decision Trees)、规则推理(Rule Induction)(即通过统计学方法归纳提取有价值的if-then规则,如关联规则挖掘)、模糊逻辑(Fuzzy Logic)、CVSM等[11]。

12下一页  GO
阅读:
录入:中国论文联盟

推荐 】 【 打印
相关新闻      
本文评论       全部评论
发表评论
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款


点评: 字数
姓名:
免费论文搜索


本周热门内容