信息处理
所谓信息加工,是指根据不同的目的和要求,对收集到的大量原始信息进行筛选判断、分类整理、编目标引、编目组织、存储分析,并使之成为具有一定使用价值的信息的过程。
一般来说,收集到的原始信息是一种初始的、杂乱的、孤立的信息。只有将这些零阶信息进行分类整理,使之成为有规律、有秩序、有系统的高阶信息,才能加以利用;只有通过描述和索引,零级信息才能转化为二级信息,便于信息的存储、检索和传递。因此,信息加工的过程就是在原有信息的基础上,为用户生产出价值含量高、使用方便的新信息,从而增加信息价值的过程。
根据不同的标准,信息处理可以分为不同的方式。
根据处理响应时间的不同,处理可以分为实时处理和批处理。实时处理是指对发送的数据立即处理,立即响应,一般适用于常规操作;批量处理是指将发送的数据存储一定的量或时间后再进行集中处理,一般适用于统计分析业务。
根据处理功能的深度,处理可以分为预处理处理、业务处理和决策处理。预处理是对信息的简单整理;业务处理是分析信息,综合信息辅助决策;决策处理是对信息的统计推断,产生决策信息。
根据加工工具的不同,可分为手工加工和计算机加工。人工处理是利用人工设备处理信息,主要存在于信息处理的初级阶段。计算机处理是利用计算机进行数据处理,对原始数据进行处理,产生表格、图形等结果。
3.4.2信息筛选
信息筛选是信息处理的第一步,其目的是去伪存真,去粗取精,保证信息的准确性和有效性。
信息筛选程序
信息筛选的基本程序主要包括以下几个方面:
(1)信息整理。信息整理是信息筛选和判别的前提,其目的是将零散无序的信息进行规范和组织,便于进一步的加工和分析。
(2)浏览复习。浏览和审核是信息筛选和甄别的中心环节。其目的是去除那些明显错误或无用的信息,保留那些明显真实或有用的信息。对于一些暂时无法确定的信息,暂且搁置,留待进一步处理。
(3)再次复习。对于不确定的信息,应采用咨询或其他科学方法再次进行分析和研究,从而科学地确定其选择,提高信息筛选和判别的准确性。
3.4.2.2信息筛查的重点对象
(1)虚构信息。这种信息完全是虚构和捏造的,没有任何事实依据。主要来自于信息收集者的不良动机,这类信息必须去除。
(2)添加信息。这类信息虽然有一定的依据,但有些情节和内容是信息收集者和传递者通过主观想象而不是以事实为依据添加上去的,需要进行分析和区分。
(3)夸大信息。这类信息往往夸大或缩小事实,是对事实的歪曲,会严重影响信息的真实性和可信度。
(4)有偏见的信息。这种信息是片面强调某个动作的起因或者扼杀某个动作的要素。如果这类信息得不到检查和纠正,就会影响信息的使用价值,甚至给信息使用者造成重大损失。
(5)信息不完整。因为时间长了,不正确的获取信息,或者因为信息来源本身无法获取,仅仅通过个别现象或特征获得的信息是不完整的信息。这类信息一般需要进一步补充收集。
(6)模糊信息。这类信息来源于信息收集者的道听途说、含沙射影,往往带有“说过”、“听说过”、“大概”、“可能”、“有迹象”等字眼。这种信息可信度差,必须再次收集核实。
(7)拼凑信息。这种信息在收集、加工和传递过程中,往往将不同地点、不同时间、不同条件、不同性质的信息组合成同一地点、同一时间、同一条件、同一性质的同一信息。总的来说,这种东拼西凑的信息还是没有根据的。
3.4.2.3信息筛选法
(1)感官判断法。感官判断法是指信息处理者在浏览和审查原始信息的过程中,依靠自己的知识、技能和经验,直观地判断信息的真实性和可信度的方法。
(2)对比分析。对比分析是指信息处理者在筛选和辨别信息的过程中,对从不同渠道收集到的信息进行前后左右、相同信息的对比分析,以确定信息的真实性和可信度的方法。
(3)专家判断法。专家判断法是指对一些一时无法选择的信息,由专家来决定其价值的方法。
(4)集体讨论法。集体讨论法是指集体协商的方法,通过集体智慧来确定个人无法得出结论的一些信息的选择。
(5)现场核查法。现场核实法是指指令信息采集人员或信息处理人员深入现场,对有疑问的信息真实性进行核实的方法。
(6)数学会计方法。数理核算法是指信息处理人员在对原始信息有疑问时重新计算的处理方法。这种方法可以及时纠正由于信息收集和计算错误、笔误或传输过程中的错误而造成的信息失真。
3.4.3信息分类
信息筛选是信息的粗加工,信息分类是信息的精加工。只有对信息进行分类整理,才能更好地存储、检索、传递和利用信息。
3.4.3.1信息分类基本程序
(1)确定分类方法。目前,信息分类的方法很多,包括区域分类、内容分类、主题分类、时间分类和综合分类。采用哪种分类方法直接决定了信息材料的排序。因此,确定分类是信息整理的基础和前提。
(2)实施信息整理。这是信息分类的第二步,即将信息资料分门别类,供后期工作使用。
(3)整理信息。信息分类后,同一类别的信息资料的摆放也存在先后排列的问题。通过整理信息,信息可以成为有序的信息系统。
3.4.3.2信息分类的具体方法
(1)地区分类。地区分类是指根据不同地区的信息划分方法。
(2)时间分类。时间分类是指按照时间顺序划分信息的方法。时间分类也可以用年、月、日来划分。
(3)内容分类。内容分类是指根据信息中包含的不同内容进行分类的方法。比如,按照行业,信息可以细分为农业信息、工业信息、商业信息、服务信息、旅游信息、企业信息、基本建设信息、金融信息、财务信息等等。
(4)综合分类。综合分类是根据时间、地域、内容对信息进行综合划分的方法。根据不同的组合,综合分类可分为时域分类、区域时域分类、内容域分类、内容-时域分类、区域时间-内容分类、区域内容-时间分类、时域内容-域分类和时间-内容-域分类。
信息描述
信息描述又称信息描述,是指按照一定的管理规则和技术标准,对信息的外部特征和部分内容特征进行分析、选择和记录的过程。通过信息描述,形成反映原始信息的内容特征和外部特征的记录,是条目或项。目录是一种文件报告和检索工具,它按一定的顺序排列许多项目。条目是一类文献的缩影,目录是一批文献的缩影。
3.4.4.1信息描述标准化
文献著录标准化是指在一个国家或国际范围内,对文献著录的原则、内容和格式的约束性规范。为了开发和利用文献资源,需要获得一种一致的书目信息语言来描述文献的特征以及报道和检索文献的方法。20世纪60年代,许多国家在本国实现了文献著录的标准化。在此基础上,国际图书馆协会和机构联合会(简称IFLA)特别工作组于1971年开始制定国际文献著录标准,并于1974年正式发布国际标准书目著录(ISBD),被世界各国广泛接受。国际标准书目成功地解决了以下问题:
(1)使文献描述项及其排列顺序可以互换,即实现了文献描述的国际统一。
(2)克服了语言障碍,使各国文献的描述易于识别。即使不懂某一种语言的读者也可以通过符号系统来识别描述项。
(3)有助于将一般书目转换成机读目录的形式。
为建立和完善我国统一的文献报告制度,开展国际书目信息交流,更好地开发和利用文献信息资源,我国在全国文献工作标准化技术委员会第六分委员会(目录著录分委员会)和中国* * *图书馆学会的共同努力下,于7月正式出版了国家文献著录标准系列中的《文献著录通则》,1983。此后,各种子规则相继出台,包括普通图书、连续出版物、地图、档案、古籍、检索期刊、参考文献的著录规则。
3.4.4.2机读目录格式
Marc (Machine Readable Catalog)是机读目录的简称,是以代码形式和特定结构记录在计算机存储介质上,并被计算机识别和读取的目录。
从65438年到0965年,国会图书馆开始开发机器可读的目录。MARCⅰⅰ磁带生产于1966。1969年MARC ⅱ磁带正式出版,随后陆续出版了专著、连载出版物、档案和手稿、可视资料、乐谱、地图等MARC数据文件。因为MARC格式是由美国国会图书馆开发的,所以称为USMARC(也叫LCMARC)。1977年,IFLA第一次出版了《UNIMARC通用机读目录格式》,此后不断修订。
CNMARC是中国机读目录格式,由中国国家书目组织根据UNIMARC制定。作为中国人民的文化行业标准WH/T0503-96出台。这符合ISO2709的规定。基于UNIMARC,保留了UNIMARC中定义的所有字段,并补充了中文出版物特有的字段定义。例如,它增加了以下字段和子字段:091统一书号;092订单号;093专利号;094标准号;690《中国图书馆分类法》;692中国科学院图书分类;905收藏信息等。
3.4.4.3杜宾科尔标准
杜宾核心标准是DC的简称。DC元数据的格式由OCLC(Online Computer Library Center,Inc .)和NCSA(National Center for super computing Application)联合召开第一次研讨会(即DCLC/NCSA元数据研讨会)制定,旨在寻求一种简洁、灵活、非专业馆员容易掌握和使用的信息资源描述格式,以提高网络信息资源的开发利用率。操作对象仅限于网络上的电子文本资源。会议产生了13个元数据项,这些元数据项以会议地点杜宾命名。在9月的第三次研讨会上,1996,DC元数据进一步将处理对象扩展到图像资源。为了全面描述图像资源,增加了描述项和权限管理项两个描述项,并修改了部分描述项的名称,产生了15个描述项。1997 10在芬兰赫尔辛基举行的第五系列研讨会上,进一步明确了DC元数据格式的主要功能侧重于信息资源的描述或说明,而不是信息资源的评价,因此15元数据项分为以下三类:
(1)资源内容描述类元数据项。该类中有以下元数据项:
标题:由资源的创建者或发布者给定的资源名称。
创建者:资源的创建者。
Subject:可以揭示资源对象的主题内容或主题内容的关键字。
描述:资源内容的文本描述,包括文档对象的摘要或可视化作品的内容描述。
语言:资源对象使用的语言类型。
来源:二次资源的来源信息。常规元素只包含当前资源的信息。如果有必要显示当前资源,该项目可以包括第二资源的日期、创建者、形式、标志或其他元数据。
关系:次要资源的识别及其与当前资源的关系。该元素允许相关资源和资源描述之间的关联。例如,编目自(是的版本)、翻译自(基于)、摘录自(是的一部分)、格式转换自(是的格式)等等。
覆盖范围:资源知识内容的时空特征。空间范围是指物理区域,如经纬度、标准化地名等。时间范围是指资源的内容(时间段)而不是资源生成的时间(时间点);时间描述采用与日期项相同的格式。
(2)知识产权描述元数据项。该类中有以下元数据项:
创建者:承担创建资源知识内容主要责任的个人或机构。
出版商:负责将资源转化为当前形式的人,如出版社、大学学院或公司实体。
贡献者:指未列在创作者要素中,对资源的知识内容做出了重要贡献,且贡献次于创作者的个人或组织(如编辑、文案、插画等。).
权利:权利管理声明,或指向权利管理声明的标识,或指向提供资源权利管理信息内容的服务的标识。
(3)外部属性描述类元数据项。该类中有以下元数据项:
日期项目:指与创建资源或使资源可用相关的日期。
类型:资源的类别,如小说、诗歌、报告、论文、词典等。
标识符:唯一标识资源的字符串或数字。例如,网络资源标识中的URL和URN,以及其他通用的唯一标识,如国际标准书号(ISBN)或其他规范名称,都可以用作标识符。
格式:资源的数据格式,用于指示显示和执行该资源需要什么软件或硬件,如文本、JPG图像、应用程序等。
信息索引
信息标引又称信息披露,是对信息的主要内容和其他形式特征进行选择、概括和提炼的过程。包括选择信息表单特征,分析信息内容的特征,并将它们转换成诸如反映信息内容主题的标志的特定内容。
3.4.5.1信息索引程序
信息标引的过程一般包括三个环节。
(1)主题分析。即分析信息中包含的话题,主要包括话题的数量分析,即信息包含多少话题;主题结构分析,即每个主题有多少个主题概念因素;主题内容分析,即具体说明信息包含哪些主题,每个主题有哪些概念因素。
(2)主题标引。将话题分析的结果转化为话题识别。根据对信息主题的揭示程度,主题标引有四种策略:①整体标引:即一个信息实体的整体主题一般用一个标识进行标引。②综合标引:即对一个信息实体的所有局部主题或不同主题及其概念因素进行详细标引。③补充标引:即除了对一个信息实体的总体主题进行总标引外,还对一些局部主题及其概念因素进行单独标引。④关键标引:即对信息实体中与信息系统的性质、任务和目的相关的主题部分进行标引。
(3)检查和审核,即对上述主题分析和主题标引的过程和结果进行检查和审核,最终正式形成信息披露的结果。
3.4.5.2信息索引法
根据标引过程中给出的标记的不同形式和性质,信息标引通常可以分为分类标引和主题标引两大类。
(1)分类标引。分类标引是对信息的内容或形式特征进行分类识别的方法。通过分类标引,可以将主题属性为* * * *的信息类集合起来,按照各类信息之间的主题关系,将所有信息组织成一个有层次、有组织的整体。从现代分类法的编制方法来看,分类方法主要有等级分类法、刻面组合分类法和混合分类法:
1)分层分类。这种分类是以文献内容的学科性质为基础,按照知识范畴的逻辑顺序,由一般到具体,由简单到复杂,逐层划分的层次体系。其主要特点是:按主题和专业集中文献,从知识分类的角度揭示各种文献在内容上的差异和联系,提供一种从主题分类中检索文献信息的途径。
2)刻面组合的分类。这是一种基于分析和综合原理的分类类型。它的基本思想是:任何复合题目,无论多么复杂,都可以分解成相应的基本概念;同时,它们也可以通过相应的基本概念的组合来表达。因此,不必在分类法中详细列出所有主题,只需在类别表中按类别列出各种基本概念,并分配相应的编号即可。
3)混合分类。这种分类是上述两种分类优点的综合。在详细列举类表的基础上,广泛使用各种组合方法。如国际十进分类法。
上述层次分类法从古至今一直广泛应用于图书馆文献的分类和检索,在图书情报领域至今仍广泛使用。其优点是:强调知识的系统化组织,符合人们认识事物的习惯,方便用户按学科体系检索相关文献信息;类目的树形结构适用于文献的排架管理和检索工具的排列组织:通常使用阿拉伯数字和拉丁字母进行标识,具有通用性,使国际统一分类实现资源共享成为可能。当然,层次分类体系也有局限性,如其架构的局限性和直接特异性差;不适合多角度索引和检索;类别体系是固定的,是预先列出的,不能及时反映新学科、新事物,很难修改和补充。
(2)主题标引。主题标引是使用标准化或非标准化的自然语言作为信息主题标识的方法。根据选词原则、组合方式、规范措施和编制方法。主题法可分为标题形态学、变形学、关键词法和叙事形态学。
1)标题词法。标题形态学是利用标题词(标准化的事物名称和名词术语)作为信息主题内容的识别和检索标识的方法。标题词的来源主要是标引对象的名称或标题中常见的定型名词。标题词的编制称为标题表,标题词法的主要特点是预先编制表格。标题词以固定的组合方式组织在词汇表中,按照建立的组合进行检索。标题词汇表的作用是从意义、词形、词与词之间的关系和用法等方面管理和控制优化的标题词。保证一个事物只用一个标题词来表达,一个标题词只表达一个事物或意义,避免使用过程中的混乱。标题形态学具有良好的直接性和特异性,通用性强,适合于特征检索,但灵活性较差。
2)变形记。《变形记》主张用最基本的、不可分割的词汇单位词作为主题词,可以从信息内容中提取出来,然后标准化,表达一个独立的概念。比如“计算机软件”不是单位词,而“计算机”和“软件”是单位词。在英语中,单位词往往是一个词。《变形记》的突出特点是:强调词汇的单位化;强调后期结合。虽然《变形记》提高了主题法的灵活性,但由于过分强调词汇单位化、词汇加工方法不合理、容易产生错误组合、误检率高等原因,实用性不强。
3)关键词法。关键词法是直接从信息资料的标题、摘要或正文中提取能表达主题概念的有意义的信息单元(关键词)作为主题词,然后按词序依次排列进行信息检索的方法。关键词排序可以形成主题检索的索引体系,例如《科学引文索引》中的“旋转主题索引”,其关键词是从文献的标题中提取出来的。关键词法不受词库控制,快捷简单,适合计算机组织和检索信息。但缺点是关键词法的用词不规范,影响了信息的查全率和查准率。
4)叙事。叙词表是从叙词表中选取叙词表,通过概念组合来描述信息材料的主题,使标引和检索达到更高程度的索引的方法。词典编纂的显著特点是多个描述符可以形成任意逻辑组合,构成多种检索问题。叙事学吸收了上述几类学科方法的优点,具有直观、具体、灵活、标引准确、检索方便等优点,在文献检索中得到了广泛应用。目前国内外大多数检索工具和数据库都使用叙词表。常用叙词表有INSPEC叙词表、原子能科技中文叙词表、国防科技叙词表、地质中文叙词表、中文叙词表。
信息存储
信息是抽象的,必须附着在某种载体上才能表现出来。将信息附加到载体上的过程就是存储信息的过程。
信息存储的意义和作用
信息存储是指将经过处理的信息按照一定的规则记录在相应的信息载体上,并按照一定的特征和内容属性将这些载体组织成系统的检索系统的过程。信息存储的意义和作用如下。
(1)有利于* * *。信息存储后,用户可以享用信息库,反复使用,提高了信息的利用率。
(2)检索方便。将处理后的信息存储起来形成信息库,为用户检索所需信息提供了极大的方便。
(3)有利于信息的集中管理,增加信息资源的拥有量,开发高层次的信息资源。
总之,在存储信息时,一定要充分考虑检索的方便性和高效性,做到有条不紊,分类合理,检索清晰,取之容易。
3.4.6.2信息存储的主要技术
传统信息存储技术是指纸质印刷存储技术,现代信息存储技术主要包括缩微胶片存储技术、音像存储技术、计算机存储技术和光盘存储技术。它们具有存储容量大、密度高、成本低、存取方便等优点,因此被广泛应用。
(1)纸张存储技术。纸质存储技术是最常用、使用时间最长的存储技术。但它有很多缺点,如存储信息密度低、体积大、占用空间多、纸张易燃烧、受潮、发霉、虫蛀、风化等。,而且不容易保存。
(2)缩微存储技术。缩微存储技术是指用相机将印刷品的内容缩微到胶片上,然后再冲洗成缩微胶片进行存储。缩微胶片存储技术的主要优点是:①存储密度高,可以节省90%的用纸信息存储空间。②储存方法简单,成本低,经济实惠。③保质期长,通常在环境中可达50年,在标准条件下可达数百年。④微电影忠于原著,不容易出错。与其他存储方式相比,其错误率为0。⑤利用缩微技术可以对规格不统一的原始文件进行规范化管理。缩微技术还可以与计算机技术和通信技术相结合,实现自动检索。它的缺点是:只有借助微型阅读器或微型阅读器复印机才能阅读,无法对照阅读,所以保存条件非常严格。
(3)音视频存储技术。视听存储技术是指以录音或录像的方式记录和存储信息的一种信息存储技术,包括录音存储技术、录像存储技术和胶片存储技术。
(4)光盘存储技术。光盘存储技术是利用激光和计算机将各种信息数字化,转换成光信号并记录在光盘上存储信息的一种新型存储技术。光盘存储技术具有以下特点:①存储密度高、容量大;(2)价格低廉,易于复制;(3)经久耐用,储存寿命长。光盘密封良好,不应受到灰尘、有害气体和电磁场的影响。而且采用激光进行非接触式接入,使用寿命超过10年。它的主要缺点是误码率比较高。
(5)计算机存储技术。计算机存储技术是指利用计算机的内部和外部存储器来存储信息的技术。根据其在计算机中的作用,计算机的内存可分为内存和外存。其中,内存直接与CPU打交道,主要特点是速度快、容量小、价格高;外存主要是内存的备份和补充,被人们广泛使用。其特点是存储容量大,成本低,可永久离线存储信息。
3.4.7信息分析
信息分析是信息组织过程中不可缺少的一部分,是通过已知的信息来提示客观事物运动规律的过程。其主要任务是信息研究者借助一定的方法和手段,在更深、更全、更全面、更适用的层面上将原始信息概括成全新的信息内涵,以满足用户解决特定主题的需求。
3.4.7.1信息分析功能
信息分析有四个基本功能:整理、评估、预测和反馈。
(1)排序功能:收集整理信息,使之由无序变为有序。
(2)评价功能:评价信息的价值,从而去粗取精,去伪存真。
(3)预测功能:通过分析已知修改稿的内容,获得未知或未来的信息。
(4)反馈功能:根据用户的实际消费效益,对预测结论进行审核、评估、修改和补充。
一般来说,这四个基本功能是密切相关的。信息整理和评估是信息分析的两个基本功能,是为实现预测和反馈功能做准备。预测和反馈是信息分析的两个特征功能,是信息整理和评价功能的进一步扩展和延伸。
信息分析方法
信息分析方法是信息分析的工具,是实现信息分析的手段。虽然信息分析的内容千差万别,规模和范围也各不相同,但它们的共同目标都是围绕着具体的决策问题。通过对问题发展历史和现状的深入分析和研究,揭示其发展规律,预测其发展前景和趋势,这就决定了各种分析方法的共同特点和属性。信息分析方法主要包括定性分析和定量分析。
(1)定性分析法。定性分析法,即逻辑法,是以逻辑推理和辩证分析的技术为基础,根据已知信息,通过比较、分析综合、归纳推理等一系列逻辑手段,揭示事物发展规律和因果关系的研究方法。定性分析的优点是推理严密,直觉强。但主要缺点是:其结论只是一种没有定量解释的定性倾向,不够具体和详细,不能完全适应技术经济或工程项目、市场预测等需要定量研究的课题。
(2)定量分析方法。定量分析方法,即数学方法,是运用基础数学、数理统计、应用数学以及其他一切数学处理和计算的研究方法的总称。这些方法的突出特点是:能够对事物进行定量描述,并显示其发展的具体程度;在用数学方法研究事物之间的关系时,研究者直接接触的是公式或模型等事物的同态系统,而不是事物本身。但是,定量分析方法也有其适用条件和局限性:数学计算中使用的边界条件是人们根据客观事物抽象或假设的,在确定最终结论时要审查或验证这种抽象或假设是否合理或符合客观实际;数学方法中使用的各种参数数据来自客观统计和主观评价,因此数学方法研究的结果只在信息分析研究的结论中具有相对意义;客观事物往往是多参数、动态的复杂系统,而任何客观事物的同态系统本质上都是一个近似的、静态的、简化的系统。
由此可见,逻辑方法和数学方法各有千秋。在信息分析研究中很难将它们完全分开。一般来说,定性分析是定量分析的基础,旨在为定性分析的结论提供论据,确认定性分析的结果。在具体的信息分析活动中,他们倾向于将两种方法结合起来。