高校图书馆网络信息服务系统运行的技术保障
信息采集技术包括对象数据采集和元数据采集。
1)对象数据采集主要包括文本信息采集和图像信息采集。文本信息收集主要是指原始纸质文献的数字化。仅仅依靠手工输入和手工校对是远远不够的。要将大量文本信息数字化,需要可靠的扫描技术和OCR(光学字符识别)识别技术。图像信息的获取需要应用扫描技术,重要的现场图像可以通过数码相机、数码摄像机等工具获取,而原本存储在录像带等介质中的图像数据可以通过相应的技术进行数字化。目前文献一般都提供数字版本,只要按照集成数字图书馆系统的要求进行加工、存储和组织即可。
2)元数据是关于数据的数据。元数据最基本的用途是管理数据,从而实现查询、阅读、交换和* * *享受。元数据收集技术是指从数据库系统、文件系统和HTML文件中收集元数据,从而形成本地元数据仓库的技术。
第二,信息处理技术
信息处理技术包括对象数据处理技术和元数据处理技术。
(1)对象数据处理技术是指将采集的对象数据按照元数据标准和描述规范进行索引和分类。
(2)元数据处理技术采集元数据,然后将采集到的数据按照元数据标准和描述规范进行转换和清洗,即对元数据进行标准化和规范化,剔除不合格的元数据。
(3)自动标引和手工标引主要涉及主题标引和分类标引,是信息资源加工的重要环节。自动标引技术是基于叙词表和分类表,为标引人员自动生成主题词和分类。
第三,信息存储技术
目前,图书馆书目信息主要存储在不同环境的数据库中。由于异构数据库不兼容,往往需要编写一些转换程序,大大降低了信息共享的效率。同时,为了在互联网上开展图书馆信息的快速、准确的查询服务,现有的图书馆书目信息数据库已不能满足这一要求,必须增加其他数字化信息。由于目录信息是非结构化的,不适合用现有的数据库来表示。因此,图书馆中的一些数字信息可以用XML来表示和存储。用户的检索请求通过Web服务器的调用程序传送到相应的系统内部服务器。在系统中,所有的信息处理工作都是围绕XML文件系统进行的。当然,前提是将数据库中的信息转换成XML文档,通过相应的工具将图书目录信息生成XML文档,传输到用户的浏览器进行显示,或者传输到其他Web服务器上实现信息共享。
信息存储、信息检索、信息分析都要使用数据库技术。传统数据库技术经历了网状数据库、层次数据库和关系数据库三个阶段。基于信息集成的数字图书馆提供的信息资源不仅包括普通的结构化电子文本,还包括图像、音频、视频、软件等各种类型的信息。这种多媒体信息的存在和网络的发展促进了数据库技术的发展。面向对象数据库技术、非结构化数据库技术和多媒体数据库技术日趋成熟。这个数据库的记录长度是不确定的,可以存储各种信息,所以可以轻松处理多媒体信息。基于信息集成的数字图书馆系统的功能不仅提供一次信息,还提供经过加工的二次信息,还可以对信息资源进行加工和信息分析,提供决策服务。因此,支持管理决策过程的面向主题的、集成的、稳定的、时变的数据存储技术也是建设数字图书馆不可或缺的技术之一。
第四,信息检索技术
信息检索技术发展非常迅速,尤其是基于web的检索方式正在成为一种常见的检索方式,并构成了当今信息检索的基本方法。它融合了超文本技术、网络技术和多媒体技术。万维网的浏览器/服务器模式具有优化的结构和强大的功能,基于Web的搜索模式体现在各种搜索引擎的应用中。搜索引擎是互联网上具有查询功能的网页的总称,目前有数百种。包括WebSearChEngine(万维网搜索引擎)、FTP Search Engine(文件搜索引擎)、Email/Whitepage搜索引擎(电子邮件/白页搜索引擎)、YellwPageSearehEngine(黄页搜索引擎)、UsenetsearehEngine(新闻论坛搜索引擎)、Meta-seare Engine等。万维网是互联网上最先进的网络信息检索系统,也是最受搜索者欢迎的信息检索系统之一。
将人工智能领域的Agent技术应用于互联网智能信息检索,给出了一种新的互联网智能检索技术。智能软件代理是能够为用户执行特定任务的软件程序,具有一定程度的智能以允许用户自主执行某些任务,并以适当的方式与环境进行交互。Agent技术具有主动性、智能性、协作性和移动性。通过建立模糊关系,学习用户的个性化思维,进行模糊推理,为用户提供高效完整的信息服务。将Agent技术与模糊信息处理相结合,可以得到一种更有效的解决信息检索问题的方法。
动词 (verb的缩写)信息服务技术
1)索引技术:一般有内容索引、结构索引和链索引。这些索引的建立涉及到索引的结构、索引的扩展性和分布特性、索引生成的并行化等技术问题。
2)开放式URL连接系统:由于一个连接系统需要与多个源数据库进行通信,所以需要规划连接系统与源数据库之间的通信方式。提议的标准被称为开放URL,用于在URL中传输元数据。与open URL兼容的连接系统称为open URL连接系统。开放式连接为链接器提供了一个独立的系统。在从源点接收到元数据之后,连接系统根据其自身数据库中的数据来确定要提供给用户的目标数据。
3)数据挖掘技术:网络信息挖掘技术,又称数据库中的知识发现,是从大量数据中提取以前未知的、完整的、可信的、新颖的、有效的信息的高级处理过程。它基于已知的数据样本,通过归纳学习、机器学习和统计分析获得数据对象的内部特征,并据此利用信息过滤技术提取网络中用户感兴趣的信息或更高层次的知识和规则。信息挖掘包括数据挖掘和文本挖掘。它使用先进的技术来分析信息资源。
4)信息推送技术:信息推送技术是指按照用户指定的时间间隔或根据事件将用户选择的数据自动推送给用户的一种计算机数据发布技术。推送技术的发展方向将是组播和组播内容交付。RSS技术是信息推送技术之一。RSS是一种XML(可扩展标记语言)格式,用于为内容集成客户端提供选择性和摘要网页内容。更准确地说,它是一个可移植、可扩展的元数据集,描述了基于XML和RDF的资源集合(尤其是网络资源)。RSS作为一种描述和同步网站内容的格式,是目前应用最广泛的XML应用。
5)多语种技术:我们可以通过多语种浏览功能和机器翻译功能为用户提供各种服务。
6)音视频播放技术:利用互联网播放MPEG、MP3、WAVE等高质量音频文件和AVI等视频文件。