网络信息资源开发与管理复习提纲
第一章
1、信息资源的构成:
(1)信息内容。人类感知、识别并表达的事物状态,以及再现的客观事物状态,是人类获取信息的本质内容。
(2)信息内容的表达和组织方式。包括信息表达的符号和方式以及信息组织的方法和过程。它们是关系到人类能否如实地反映和揭示客观事物的状态及变化,以及他人能否获取到所需信息内容的主要因素。
(3)信息表达所依附的载体和传递的媒介。包括信息表达符号赖以存在的“载体”和与之相适应的传播设备及手段。它们是关系到已表述和组织的信息能否得到及时而有效利用的主要因素。
2、网络信息资源:
它是以数字化形式记录的,以多媒体形式表达的,存储在网络计算机磁介质、光介质以及各类通信介质上的,并通过计算机网络进行传递信息内容的集合。简言之,网络信息资源就是可以通过计算机网络利用的各种信息资源的总和。
3、网络信息资源按信息资源的媒体形式分类:
(1)文本信息。这是最为基本的一种媒体存储形式。
(2)图片信息。指GIF、JPEG等文件格式存储的信息。
(3)音频信息。主要指WAV、AIFF、MIDI、MP3等文件格式存储的信息。
(4)视频信息。主要指以Quick Time、AVI以及MPEG等形式存储的信息。
(5)三维虚拟影像。信息模型是以VRML组织,以立体三维形式呈现的信息。
4、按网络信息资源层次分类:
(1)指示信息。指示信息单元的地址,如一个超文本链接等。指示信息由信息的实际地址和有关信息的标识、注解等内容构成。
(2)信息单元。可以指信息表达的最小信息单元,如文献的某一行、某一段等,一个信息单元由一个文本组成,该文本可以具有或不具有的特定的指示信息。
(3)信息集合。指相互关联的信息集合,是由若干相关信息及其中特定的信息单元和指示信息组成的,如网页、数据库的记录等,文献由若干信息以及一些指定的指示信息构成。
(4)信息资源系统。指一组相关的、经过标引和建立了交互参见的信息资源的集合。信息系统还包括了不同信息资源的相互关联的指示信息。
5、网络信息资源的开发层次;
(1)可得性开发。包括建网与联网以及网上资源从无导游、从有到优化的开发。 ①建网和联网。(硬件设施建设,网络信息资源开发的基础平台)
②信息资源建设。(在硬件设施上进行)
(2)可用性开发。主要包括免费资源深度和广度的挖掘、镜像资源的开发、收费资源的代理服务、局域网和区域网资源的组织和服务等。
(3)高水平利用状态的开发。这种基于提高网络资源利用的量与质内容的开发主要包括对现有网上信息资源再加工,如重组、浓缩、定量定性处理等。
6、标准化开发策略
由于网络信息的存在状态是多样化的,其类型多样、存储格式各异。这一特征要求人们再开发网络信息资源时必须规定信息揭示的统一标准和获取使用信息的具体规则,以保证信息资
源能够得到充分利用,同时也保证用户的信息要求能够得到满足。信息资源共享的一个必要提案件是标准化问题。
网络信息资源开发中的标准化主要应解决如下两个问题:
(1)内容格式标准化。目前国际公认的网上信息资源内容、格式标准是元数据标准。随着元数据系统的发展,建立各种元数据信息系统之间的相互转换关系和方法已成为规范数字化信息、保障网络信息资源开发顺利进行的条件。
(2)导航服务标准化。网络信息资源是以超文本格式链接起来的非线性结构,这种链接的方便性也带来了网络信息的错综、交叉分布,使查找信息的复杂性加大,所以,网络信息导航服务的标准化势在必行。
7、网络信息资源管理的含义
指利用技术、经济和人文等手段,对信息资源实施控制、计划、分类、组织、协调和交流的一种管理活动过程和方式方法。
8、网络信息资源管理的要求:
(1)标准化。
(2)整体化。
(3)法规化。
(4)政策化。
9、信息污染的概念:
指信息资源中混入了一些干扰性、欺骗性、有害信息的现象,它影响了人们对有用信息的吸收利用,甚至造成对人类的危害。
网络环境下的信息污染主要是指网络信息对用户造成不良的后果,或对正常的信息利用带来负面的影响。
10、网络信息污染产生的主要原因:
(1)信息生产主体方面的原因
①由于日趋激烈的市场竞争和日益复杂的社会环境,促使信息生产主体(即信息源)将许多不成熟的、有待于深层加工的信息产品推向社会,造成不合格信息泛滥。
②由于信息生产缺乏必要的协调监督和相应的利益约束制衡机制,又加上信息生产者对自身物质利益的过度追求,致使信息产品的生产处于混乱状态,许多虚假信息,冗余信息也就不断被创造出来。
③由于传播工作中存在着较大的自发性和盲目性,宏观调控力度不够,导致文献信息资料的重复劳动,从而加剧了信息污染的程度。
(2)信息传导机制方面的原因
从信息传导机制的角度来看,造成信息污染的原因主要表现在:信息传播技术和手段落后,信息传递不及时,造成信息过时、错位和失真等现象。
(3)信息接受主体方面的原因
(4)网络信息环境管理的滞后
(5)网络技术的两面性
网络技术的飞速发展和广泛应用,给人类社会带来了莫大利益和多种好处,但同时给人类社会带来了某些负面影响。
①计算机巨大的存储功能,为因特网的信息存储提供了无穷空间,但也为一些老化无用的信
息提供了无需及时更新而长期滞留网上的理由和机会,从而造成了过时失效信息严重污染。②计算机的复制功能,为信息的获取与广泛利用提供了极大的方便,但也在客观上为某些网站实施网上剽窃和抄袭打开了方便之门,使网上重复信息大大增加,造成了网络社会里重复信息的严重泛滥。
③计算机的数字传输功能,为信息传播提供了广泛、及时和自主的虚拟空间,但同时也是我们陷入对信息质量把难关、对信息传播行为控制的尴尬境地,使得一些不怀好意的人可以毫无顾忌地在网上发布和传播各种不良信息。
(6)网民法律意识的淡薄及价值取向的偏差
有些网民在网上发布色情信息、黑色信息、虚假信息,从来就没有认为自己做的事属违法行为,更不会有负罪感,甚至还认为自己在网上做了别人不知道的事,或做了别人做不到的事儿沾沾自喜。
因特网的出现遮蔽了人们在虚拟世界的道德评判,人们心灵深处的道德观、价值观出现某些偏差,这也是导致污染信息泛滥的原因之一。
第二章
1、多媒体检索
多媒体检索是根据用户的信息要求,从多媒体数据库中查找到所需要的文字、图像、声频和视频等多媒体信息的过程。
2、匹配机制
在文本信息检索过程中,一个很重要的问题就是如何把文本的信息集合和用户的检索提问联系起来,从信息集合中剔除掉不需要的部分,从中选取适合用户需要的信息并按相关性大小输出,这就是信息检索的匹配机制。
布尔模型运用布尔代数的方法,用布尔表达式表示用户的检索提问,通过对文本标识与检索式的逻辑比较来选取匹配的信息。
向量空间模型把文本信息和检索提问用数维空间的向量来表示,向量之间的相似度即可以用来衡量文本信息和检索提问的相关性。
概率模型基于概率排序原理,根据文本信息与检索提问之间的相关概率排序输出,选择哪一种匹配模型与文本信息的揭示方法、用户信息需要的描述方法紧密相关。
3、信息检索途径
(1)形式特征检索途径
1)题名检索
2)责任者检索
3)号码检索
4)引文检索
(2)内容特征检索途径
1)分类检索:依据分类体系,根据文献内容所属的类目出发检索信息,它适合于用户了解分类体系或者了解所属类目的检索
2)主题检索:利用直接反映文献内容特征的词汇,即主题词出发检索信息
4、搜索引擎的分类
(1)按搜索机制分类
1)目录型搜索引擎
2)关键词搜索引擎
3)混合型搜索引擎
(2) 按搜索内容分类
1)综合型搜索引擎
2)专业型搜索引擎
3)特殊型搜索引擎
(3)按信息采集方法分类
1)基于蜘蛛程序的机器人搜索引擎
2)目录式搜索引擎
3)元搜索引擎
(4)其他非主流形式
1)集合式搜索引擎
2)门户搜索引擎
3)免费链接列表
4)网络实名
5、Robot的工作步骤:
(1)机器人从起始URL列表中取出URL,并从网上读取其内容
(2)从每个文档中提取某些信息,并放入索引数据库中
(3)从文档中提取指向其他文档的URL,并加入到URL列表中
(4)重复上述步骤,知道没有新的URL发现或超出了某些限制(时间或磁盘空间限制)
(5)给索引数据库加上查询接口,向网上用户发布
6、信息可视化的类型
(1)文献信息的可视化
(2)时间序列信息可视化
(3)多维信息可视化
(4)网状信息可视化
(5)面向网络及大规模信息资源的可视化技术
第三章
1、网络信息过滤的概念
根据一定的标准和运用一定工具从动态的网络信息流中选取用户需要的信息或剔除用户不需要的信息的方法或过程
2、认知过滤和社会过滤
(1)基于内容的过滤,又叫认知过滤
利用用户需求模板与信息的相似程度进行的过滤,能够为用户提供已感兴趣的相似的信息,但不能为用户发现新的感兴趣的信息
(2)协作过滤,又叫社会过滤
利用用户信息需求之间的相似性或用户对信息的评价进行过滤
3、网络信息过滤系统的结构
(1)数据包捕获器
(2)网络协议分析器
(3)文档过滤器
(4)文档特征提取器
(5)策略管理器
(6)文档浏览器
(7)过滤效果评价器
4、网络信息过滤系统的评价
(1)功能性,包括有用性、灵活性
(2)易用性,包括易理解性、友好性、资源要求、易操作性
(3)可靠性,包括成熟性、稳定性和安全性
(4)过滤效率,包括过滤正确率和过滤错误率
第五章
1、网络信息资源评价的必要性
(1)网络信息资源评价是网络信息资源组织的重要前提
因特网信息资源的无限、无序以及优劣混杂,极大地阻碍了信息查找的有效性
依据网络信息资源评价指标体系对网络信息资源进行评价,取其精华去其糟粕,组织有价值的信息提供给用户
(2)网络信息资源评价是网络信息资源有效利用的重要前提
如果网络用户掌握了网络信息资源评价的结果或者了解一些网络信息资源的评价标准及评价方法,就相当于掌握了使用因特网的主动权
可以依据网络信息资源评价结果又针对性地选择需要访问的网站或页面,同时还可以对自己所搜集和获取到的信息资源进行价值判断
3. 网络信息资源评价是提高网络信息资源质量的重要保障
网络信息资源评价标准和方法能客观地对网站进行全面地评价,让网站的创建者充分了解自己网站的优势劣势所在,从而有目的地、针对性地改进网站质量
4. 网络信息资源评价是信息组织和服务机构资源建设的需要
资源建设不可避免要对信息资源进行选择,而选择的前提是评价,而且要提供给用户信息服务,也需要把评价的结果提供给用户以方便用户快速、科学地选择自己需要的信息
5. 网络信息检索工具与用户需求之间的不协调要求进行网络信息资源评价
搜索引擎一次搜索会有成千上万条检索结果,其中包含了大量精确度不高、甚至虚假组配的结果;用户又无法直观地判断这些大量信息是否是自己所需要的
通过网络信息资源的分类和评价,将对网络信息资源检索起到良好的导航作用,减轻用户信息选择的沉重负担
2、评价网络信息资源的目的
(1)提高网络资源的精度和有用性,对网络信息产品的质量严格把关,改善网络信息资源的品质,有助于促进网络信息资源的优化和形成良性循环
(2)继续在网络环境下发扬信息服务部门帮助用户选择、分析信息,并提供高质量信息产品的宗旨
(3)可以通过对相关专业、学科领域或主题的网络信息资源进行评价活动,评定出各种优秀网站,将这些网站网页进行收集、链接、整理,便可以设计出某一专业、学科领域或专题的核心网站的导航,从而为有关信息的取舍提供判断依据
(4)有助于通过核心网站的建立来加强情报界、图书馆界同行间的学术交流,更好地引导科研方向
3、网络评价指标体系构建原则
(1)科学性原则
指标的选择,指标权值的确定,数据的选取、计算必须以公认的科学统计理论、决策科学理论等为依据
必须对网络信息资源的揭示和标引及各方面的相互关系做出准确、全面的分析和描述,综合考虑网络信息资源的内容、设计和运营等多方面
(2)可操作性原则
指标体系的设置避免过于烦琐,还要考虑指标体系所涉及指标的量化及数据获取的难易程度和可靠性
选择能够反映网络信息资源发展状况的综合指标和具有代表性的指标
(3)发展性原则
当标准和指标能随着被评对象的改变而调整时,它的适应性才更强,更能体现出它的科学性 对网络信息资源长远发展的问题,要在指标的权值和分值上予以区分,以体现其导向作用
(4)引导性原则
评价的目的在于了解网上相关学科、专业、主题领域内的学术信息的分布及质量水平等情况,从而为有关信息的取舍提供判断依据,以便在最短的时间内,以最快的速度帮助用户选择或直接为其提供最有针对性的信息
4、网络信息资源的内容评价
(1)完备性
单个网站不太可能提供某个专题的所有信息,考察网站的全面性可以看该网站在利用自身资源提供某专题的基础上,有没有列出研究该专题的书或期刊的书目信息或者相关网络资源链接
网站收录信息资源的范围要全面广泛,应该基本涵盖相关主题的所有概念,能使用户全面、准确、系统地了解和掌握特定主题基础知识、研究方向以及相关课题研究的具体成果
(2)针对性
网站的选题应该突出针对性,信息的专业化程度要适应用户的水平,要将过于肤浅的普及型的知识性、趣味性的东西以及过于深奥晦涩的不适合用户需求的信息排除在外
网站的信息无论怎么全面,也不能包罗万象,既然这样,网站在设立时一般都选择一定的针对性以提高网站的质量,同时也能体现新颖性和独特性
(3)可靠性
网站上应有明确的创建者,并能使用户检索到关于创建或拥有网站的机构或个人的说明 每项信息要表明作者及其身份,要提供著者、网站创始人或管理人的联系地址
引用其他信息来源时应当注明出处,以备用户进一步核查,并确保引用事实和数据的准确 所有信息都要经过核实并可以通过其他信息验证
(4)权威性
网站的主办者要具有专业背景,在学术界拥有较大的影响力
作者或信息提供者应在本专业领域具有一定的声望
信息要能够经常被其他权威网站摘引、链接与推荐
权威性高的网站提供的信息准确性较高
一般而言,政府网站、机构网站和学术网站的权威性较强
(5)原创性
相同的主题常常会有许多网站,但这些网站发布原始信息的数量和质量均具有较大的差别 有的网站以发布原始信息为主
有的网站主要是有关该主题链接的集合
还有一些则是其他网站信息的镜像
(6)新颖性
网站上的信息要标明日期,包括撰写日期、上网日期、修改日期等
网站的内容及链接不要停滞不前,应该定期更新,更新速度要快,使信息始终保持最新状态 考察网络信息是否新颖主要看信息的发布日期、信息中有无新的观点、新的数据
5、网络信息资源的形式评价
(1)美观性
人类越来越趋向于以图形、图像等可视化的形式来接受信息,因此网站的界面应友好直观、要强调信息的可视化程度
应当充分利用多媒体功能,将文本、图像、声频、视频信息有机地集成于一体,重视网页的视听效果,以增强用户理解信息的能力
(2)条理性
网站资源分类要科学规范,文档的等级结构应该具有逻辑性和一致性,做到信息组织合理、结构清晰、层次分明、重点突出
各部分所含信息适中平衡,网页界面模块标示要清楚,菜单设计、图标排列要条理分明,具有较强的可读性
在内部链接的平衡性、相关性等方面科学合理
(3)查检性
网站应该内部链接丰富,提供鼓励的内部查检功能,查询引擎要能够对全部资源进行索引,资源中所包括的信息可以有效地被检出
检索方式要多样,应能用分类、主题等多种途径,提供如布尔逻辑、截词检索等高级查询方式,对所查信息有选择与限定自由,所需的特殊命令要清楚直观
(4)帮助性
网站应该有使用指南、导言等帮助信息,帮助信息要清晰醒目、方便查阅利用
要设有专门的帮助键,帮助文件要有使用举例,有必要的培训资料
导航系统应简明易用,所需的特殊命令要清楚直观
(5)快捷性
容易登录,连通迅速,等待时间短,响应速度快
网页的设计简练,网页之间切换方便,尽量减少用屏幕卷动的次数,每个网页设有直接返回本部分资源起始页或网站主页的功能键
易于输入,下载所需的时间短
(6)稳定性
网页稳定,性能可靠,可被用户长期依赖,能够连续地接受访问,很少出现阻塞或掉线、离线
网站的稳定性包括网络信息资源的提供是否持续稳定,网站是否有人维护
一般来说,大型机构由于有充足的资金及人力支持,比较正规、稳定,个人站点相对而言稳定性较差
(7)低耗性
网站对设备环境如硬件、软件及网络条件要求要低,不需要指定品牌、版本的浏览器,要允许多种访问工具,对多种浏览器开放,并且用户的使用成本合理
第六章
1、网络内容分析的类型(按分析要素分类)
(1)词频分析
对网络的文本内容进行分析的常用方法,它以词频作为分析要素,统计其出现的词频,分析和推断网络传播的内容
包括主题词词频分析和指示词词频分析
(2)网页分析
以网络上某一URL所标识的Web页面为分析要素,对网页的有关内容进行分析
(3)网站分析
以具有独立域名的Web站点作为基本分析要素
网站一般是关于某一题材的一系列网页,可从网站规模、内容和访问人数等方面展开 由于网站意义独立,便于分析,是目前应用较多的分析要素
(4)网络结构单元分析
以网络上的各种结构单元,包括站点、布告栏、聊天室、讨论组和电子邮件等作为分析单元,对它们的数量分布、结构特征、相互引证和联系等进行分析
第七章
1、数据挖掘的实现过程
(1)准备数据
1)数据集成:从多个异质操作性数据库、文件或遗留系统提取并集成数据,解决语义多义性
2)数据选择:根据用户的要求从数据库中提取与数据挖掘相关的数据,利用数据库操作进行处理
3)数据缩减:精确处理,如降维、减少有效变量个数
4)数据转换:包括以期望的方式组织数据,把一种类型的数据转换为另一种类型,或者是对数据的属性用数学算子或逻辑算子进行转换
(2)定义问题
理解和定义问题是解决任何事情的必经步骤,这个过程往往容易被人们简单化
1)在数据挖掘过程中,问题定义要花费很多的时间。
2)没有很好地理解问题,得到的结果没有任何用处。
3)一个问题有多种解决办法,但有些是行得通的,有些是行不通的。
(3)选择方法
包括选择合适的模型和参数,并使得数据挖掘算法和整个知识发行的评判标准相一致。
选择挖掘算法要考虑两个因素:
1)不同性质的数据要用与之特征相关的算法
2)户对发现结果的要求
(4)挖掘数据
1)运用选定的数据挖掘算法,从数据中提取出用户所需要的知识,这些知识可以用一种特定的方式表示或使用一些常用的表示方式。
2)将发现的知识以用户能了解的方式呈现给用户。包含对知识的一致性检查,以确信本次发现的知识不与以前发现的知识相矛盾。
(5)选择模式
1)在此过程中,领域专家的参与非常重要,因为评价一个知识的价值,既有客观因素,也有主观因素,而主观因素也许更为重要。
2)在对挖掘的知识进行评测后,根据结果可以决定是否重新进行某些处理过程,在处理的任意阶段都可以返回以前的阶段进行再处理。
(6)评估模式
评估可以根据用户多年的经验,有些模式也可以直接用数据来检查其准确性。对数据挖掘结果的评价是知识发现必不可少的一步,如何评价是一个相当困难的问题,用户必须按照它的决策支持任务和系统目标来评价。
(7)更新知识
用户理解的、并被认为是符合实际和有价值的模式模型形成了知识。还要注意对知识做一致性检查,解决与以前得到的知识互相冲突、矛盾的地方,使知识得到巩固。
(8)运用知识
运用知识有两种方法:
1)只需看知识本身所描述的关系和结果,就可以对决策提供支持
2)要求对新的数据运用知识,由此可能产生新的问题,而需要对知识做进一步的优化
2、统计分析的方法(数据挖掘的主要方法)
统计分析方法是利用统计学、概率论的原理对关系中各属性进行统计分析,从而找出它们之间的关系和规律。常见的统计分析方法包括:
(1)判别分析
(2)因子分析
(3)相关分析和回归分析
(4)偏最小二乘回归
第八章
1、网络信息的微观组织模型
(1)文件
文件是一种历时较长的信息组织方式,其优点是简单方便,除文本信息外,还适合于存储程序、图像、图像、图表、音频和视频等非结构化信息。例如,地理信息系统中巨量的地理图片、气象云图都采用文件形式加以保存和组织。但是,文件对结构化信息组织显得力不从从心。
(2)超文本/超媒体
1)超文本将网络上相关文本的信息存储在许多节点上,节点间以链路相连,节点表示信息单元、片断或组合,而链表示节点间的同义、反义等关系,使用户可以从任一节点开始,根据信息间的联系,从不同角度浏览和查询信息。
2)超媒体以超链接的方式将位于不同页面的各种形式信息(如文字、表格、图像、声音和动画等)有效地连接组织起来,超越了媒体信息类型对信息与检索的限制。
3)利用超文本/超媒体组织信息会引起信息迷航。
(3)数据库
1)数据库在大数据量环境下,优点更为突出。
2)数据库技术的基础是建立在规范文本数据之上的,并利用规范数据之间的逻辑联系建立了复杂而严谨的数据结构,因而它对信息资源有规范要求。
3)数据库自动扩充是个难题,对于网络环境下日益增加的多媒体信息、表格、程序和大文本等非结构化信息资源的组织就显得难度较大。
(4)网站
1)网站是一种用标记语言将信息组织好,再经过相应的解释器或浏览器翻译出的包括文字、图像、声音和动画等多种信息的组织方式。
2)网站由一个主页和若干个网页组成
3)网站组织信息最突出的问题是信息的保存与信息质量问题
2、网络信息的中观组织模式
(1)编目
1)调整传统的MARC格式,使之适应网络信息资源编目的特点
20世纪90年代初期,LC和OCLC经过一系列的试验和研究,认为USMARC和AACR2能够应用于网上资源编目,并提出了修改和完善USMARC的建议,如增设了856字段,建立了从书目信息向全文、多媒体电子资源的链接;采用5XX字段记录资源格式内容,采用753字段描述计算机文件的系统细节等。
2)创造一套全新的编目格式DC元数据
相对于MARC编目的规范和复杂而言,应用DC编目有以下特色:
简单明了、语义互用性、国际认同、可扩展性
3)CORC
OCLC于2000年7月正式推出“合作联机资源目录(Cooperative Online Resource Catalog, CORC)”。
CORC是一个以Web为界面,集编目工具和数据库为一体的新系统。在OCLC原有的主要用于物理形态文献的联机联合目录系统的基础上,研究开发出的主要用于网络信息资源的联机合作编目系统。
(2)学科信息门户
1)以网络学科信息导航为主的学科信息门户
主要限于特定的专业领域,将该领域的各种资源和服务(包括网站、数据库、学术期刊、学位与会议论文、研究机构和学术团体等与学科科研紧密相关的资源)聚集到一个组织体系中,辅以学科专家和信息工作者的资源揭示,为用户提供智能的浏览和检索服务。例如SOSIG、GeoGuide等。
2)以专业机构服务系统为基础的信息门户
根据专业机构性质或其信息服务要求,将各类资源(包括网络资源、数据库、文件系统、知识库和指南手册等)组合在统一门户下,向用户提供服务。
3)基于跨学科门户检索的学科门户体系
即门户的集成,支撑多个学科信息门户之间的整合检索,例如Cross-Roads、Issac Network、Imesh Toolkit和Europe Link Treasury系统等。
4)基于门户体系的数字信息服务机制
将多个分布的学科信息门户作为整个数字信息资源的整合机制和服务渠道,让用户通过门户体系方便地搜寻、调用和利用各种不同的信息资源和服务,如英国JICS的Distributed National Electionic Resources(DNER)和美国NSF的National SMETE Digital Library(NSDL)
3、学科信息门户的概念
学科信息门户是将特定学科领域的信息资源、工具和服务集成为一个整体,为用户提供方便和统一的信息检索和服务入口。
学科信息门户开始萌芽于20世纪90年代中期,发展至今,经历不断深化的若干形式。
4、图书馆系统的逻辑结构
从逻辑结构看,数据图书馆由以下部分组成:
(1)对象数据库:信息资源组织的结果,包括各种类型数据库,如文摘数据库、索引数据库、全文数据库。
(2)元数据库:信息资源组织所要用到的一系列工具
(3)数据加工子系统
(4)查询服务子系统
(5)调度子系统
5、自动分词
自动分词:用计算机将一个句子切分成词或词组,是组成句子的词之间无间隔标志(空格)的语言(如汉语)的自动处理所必需的过程
第十章
1、网络个性化信息服务的特征
(1)差异性
(2)易变性
用户的兴趣取向;服务模式;Web结构
(3)动态性
(4)情景敏感性
2、网络个性化信息推送服务策略
(1)定题信息推送策略
由传统情报服务中的定题情报提供发展而来,它是由用户参与(用户提交自己对信息的需求),ICP(内容服务提供商)根据用户提交的需求提问,定期(阶段或长期)地向用户提供与用户需求相关信息的个性化信息推荐服务。主要面对一些较为成熟的用户、或专业人员、或对自己的需求能够精确表达的用户。
(2)使用挖掘推送策略
系统根据用户搜索网络、查询信息的过程中产生的使用信息,对其进行分析挖掘,获取用户的意图,然后将系统中与用户意图有关的信息发送给用户的个性化推送服务。关键在于捕获用户使用的关键词,跟踪用户的网上游历轨迹,以发现用户的兴趣
(3)热点信息推送策略
将当前人们所关心的热点问题或某个研究领域内的热点问题及相关信息推送给有关用户的服务。主要为对网络和网络资源不熟悉的用户提供的信息推送服务,它是根据用户在网络上游历过程和访问过程的蛛丝马迹,尝试性地推荐用户可能需要的热点信息
(4)个性化定制推送策略
系统为了向用户提供更加符合用户本人个性化要求的网络交互界面和检索结果输出格式而提供的定制信息推送服务。包括用户门户的栏目设定、个人访问页面的内容编排的设置、检索系统交互界面的检索项目和格式的设置、检索结果输出格式和编排要求的设置
3、网络数据库提醒服务的主要方式
(1)RSS方式
RSS是Rich Site Summary或Really Simple Syndication的简称,是一种用于共享网页内容的数据交换格式,由网站直接把信息送到用户桌面的技术
实例:中国知网的RSS定制
(1)订阅期刊
(2)按关键词订阅资料
(2)电子邮件方式
电子邮件式推送是由服务器站点通过电子邮件主动地将有关信息推送给已注册的用户,是获取定制信息的主要方式,利用E-mail实现最新信息推送服务
实例:Springer Link的提醒服务
(1)Journal Alerts期刊提醒
(2)Book Alert书目提醒
(3)Alerts for Librarian 为图书馆员的提醒
(4)Alerts for Booksellers 为书商的提醒
(3)网页定制方式
网页定制方式是在一个网页内给用户提供其所订阅的信息,网站根据用户注册时定制的栏目和内容提供服务,包括页面内容、网页格式和发送形式等
实例:My Yahoo
(1)用户可以根据自己的兴趣和需要存放图片、链接等内容
(2)界面也可以定义
(3)可以将当地的天气、股票和新闻等链接My Yahoo中
(4)专用软件方式
专用软件式需要专门的发送和接收软件,针对性比较强
实例:DIALOG数据库系统
向用户配置使用Live Wire的推送软件,使用户可自动享用来自DIALOG经过精选的信息服务