档案之窗

扫一扫关注

当前位置: 首页 » 技术 » 档案管理 » 综合管理 » 正文

信息网络环境下的档案信息组织

放大字体  缩小字体 发布日期:2018-07-20 11:33:04    浏览次数:25    评论:0
导读

信息网络环境下的档案信息组织一、信息网络环境下的信息组织方式(一) 自由文本方式( Fr eet ext )主要用于全文数据库的组织, 是对非结构化的文本信息进行组织和处理的一种方式。它不同于二次文献数据库的组织, 无需前控, 不须用规范化语言对信息进行复杂的前处理, 不是对档案特征的格式化描述, 而是用自然语言深入揭示档案

信息网络环境下的档案信息组织

一、信息网络环境下的信息组织方式

() 自由文本方式( Fr eet ext )

主要用于全文数据库的组织, 是对非结构化的文本信息进行组织和处理的一种方式。它不同于二次文献数据库的组织, 无需前控, 不须用规范化语言对信息进行复杂的前处理, 不是对档案特征的格式化描述, 而是用自然语言深入揭示档案文献的知识单元, 根据档案全文的自然状况直接设置检索点, 能够完整地反映出一次文献的全貌, 它是通过计算机自动进行档案信息的处理和组织的。

() 超文本方式( Hyper text )

是一种将网上相关文本信息有机地编织在一起的信息组织方式。它以节点为基本单位, 节点间以链路相连, 将文本信息组织为某种网状结构, 使用户可以从任一节点开始, 根据网络中信息间的联系, 从不同角度浏览和查询信息。这是一种非线性组织方式, 能提供非顺序性的浏览功能, 比传统的信息组织方式更加灵活方便, 用户在查询过程中可以随时转换到自己感兴趣的信息,符合人们的联想思维方式。超文本方式与多媒体技术的结合, 称为超媒体方式( Hypermedia ) , 它将文字、表格、声音、图形、图像等多媒体信息以超文本格式组织在一起, 使人们可以通过高度联接的网络结构在各种信息库中自由航行, 找到任何媒体所载的各种各样的信息。

() 主页方式( Homepage )

有点类似于档案全宗的组织方式, 它将有关某一机构或某个人物的各种信息集中组织在一起, 是对某个机构或人物的全面介绍, 介绍的详略程度由建立主页的单位或个人自行决定。

() 联机编目方式

入网的档案机构根据统一的规则和格式进行编目, 各单位生成的书目数据通过网络进行实时传送和交换, 形成一个逻辑上的书目库, 实行书目数据的规范化生产和大规模生产。网上联机编目可以减少重复劳动, 提高编目工作的效率和质量, 有利于国内外的交流和合作, 实现档案目录信息资源的共享。

二、分类法在网络信息组织中的作用

分类法在传统的手工检索中一直起着举足轻重的作用, 这是其他任何一种检索语言都无法替代的。尽管叙词法在计算机检索系统中的应用较之分类法更为广泛, 但这并未从根本上动摇分类法在知识和信息组织中的传统统治地位, 尤其在中国这样一个仍然以手工检索为主的国家, 分类法更是有着十分广泛的应用基础。随着信息网络的发展, 信息量和信息种类大大增加, 除了传统的档案信息外, 还包括大量的图形、图像、声音、视频等电子信息, 信息组织的对象逐渐多样化, 其范围也随之扩大, 传统的信息组织方式已不能满足需要, 其中占据主导地位的分类法不可避免地受到挑战, 与此同时面临着新的发展机遇, 随着分类法在信息网络中的使用增多, 沿用了百余年的传统分类法在网络环境下焕发了青春, 越来越多的人开始重新认识分类法的作用。

() 用于联机浏览检索

在信息网络中, 用户可以通过计算机终端直接查询各种数据库, 各行各业、不同文化层次的人都可以直接利用网络的信息资源, 用户成分逐渐多样化、复杂化。由于大多数终端用户没有经过专门训练, 对信息组织的手段和方式不够熟悉, 缺乏必要的信息检索技能, 让这些用户用布尔逻辑构造检索提问式, 制订检索策略, 确实有点勉为其难, 因此, 越来越多的用户通过浏览检索来确定其不清晰的情报需求, 以便根据需要随时调整检索范围。

随着浏览检索在联机检索中的重要性逐渐突出, 分类法在联机检索系统中的应用也逐渐增多。分类法具有较强的系统性和族性检索功能, 其分类体系便于人们浏览一个学科或一个专业范围的情报资料, 逐步确定自己的检索范围, 因此比叙词法更能适应浏览检索的需要。在现有的联机公众查寻目录(OPAC) , 已有一些系统增加了“ 浏览周围书架” 的功能, 对通过任何途径查到的条目, 均可由此进入分类系统, 扩大或缩小检索范围。

分类法用作联机浏览检索时, 须对它作某种程度的改造, 使之更加适合浏览检索的要求。据报道, OCLC 研究部正在进行一项改造杜威十进分类法( DDC) 使之成为因特网( Inte rnet ) 的浏览检索工具的研究, 该项研究采用OCLC Internet 资源数据库NetFirst 数据库作试验模型。NetFirst 数据库共有55 000条记录, 每条记录都包含有DDC 的分类号, 研究人员根据DDC类目在Net Fir st 数据库中出现的频率, 提高或降低用于联机检索的DDC 类表中某些类目的级次, 使之比标准的DDC 类表的类目更具描述性, 以适应浏览检索的需要。

() 用于非文本信息的组织

一般的文本型数据库多采用叙词法作为信息组织的主要手段。这是因为用自然语言语词作标识的叙词法能直接专指地表达文献的主题概念, 比较适用于文本信息的组织。但如果用它来揭示和描述非文本信息, 则有点不敷使用。这是由于非文本信息如数值、图形、图像、声音信息等为非结构化信息, 不像书目信息那样格式化、规范化, 其内容特征难于用文字来表达。随着多媒体技术的迅速发展, 非文本信息在网络信息资源中所占比重越来越大, 如何对这些信息进行有效的组织和管理成为亟待解决的问题, 分类法的聚类功能及其代码化标识为之提供了一条可能的途径。比方说, 我们可以对难于用主题词直接表示的非文本信息特征进行粗分类, 将同类信息集中在一起, 赋予分类号标识, 再结合其他方式使之有序化。

() 用于超文本系统的管理

超文本系统将网上信息组织为某种网状结构, 用户在查询过程中可随时转换到自己感兴趣的信息。这种方式非常灵活方便,但却有较大的随意性, 不少用户在漫无目的的泛泛查询中徒然浪费了许多宝贵的时间, 这就需要对它进行适当控制, 而直接反映了概念之间相互关系的分类法为之提供了有效的控制手段。

分类法的语义关系网络与超文本系统有某种相似之处, 将它用于超文本系统, 可以起到指南的作用, 对用户的检索过程和检索范围进行控制, 为不同专业知识水平的用户提供查询信息的捷径。由于超文本系统提供的是非顺序性的浏览功能, 因此, 那种线性排列的等级体系分类法是不太适合用于超文本系统的管理的, 在这方面, 分类主题一体化词表是比较理想的选择。分类主题一体化词表是一种将分类表和叙词表结合在一起进行统一控制的检索语言, 一般以分类表作主表, 既保留了完整的等级分类体系, 又通过参照系统反映了概念之间错综复杂的关系, 能满足多种检索要求。分类主题一体化词表的完善的关系网络可为超文本系统直接利用, 用来设计和管理超文本的链路, 并为具有不同检索要求的用户提供最经济有效的检索途径。

() 作为网络信息组织的通用工具

用自然语言语词作标识的主题法系统由于受语种的限制, 难于达到国际通用性。而分类法以号码作标识, 其等级体系反映了概念间内在的逻辑关系, 每个概念在这个分类体系中都有相对固定的位置, 不会因所用语种的不同发生变化。此外, 分类法的等级体系具有很大的伸缩性, 一种分类表可供不同单位在不同类目等级上使用。分类法的这些特性使得它在现有的检索语言中最有可能成为国际通用的语言, 成为网络信息组织的通用工具。

事实上, 目前国际上著名的几部分类法如《国际十进分类法》( UDC)、《杜威十进分类法》(DDC) 、《美国国会图书馆图书分类法》( LCC) 等都在谋求网络上的应用, 并已取得相当进展。例如, 一些图书馆已在用DDC 组织和查询万维网(WWW)上的信息资源, DDC 正在努力向通用的多语种浏览检索工具方向发展, 力求既能用来组织和检索文献机构的馆藏, 又能用来组织和查找Internet 上的信息资源。

值得注意的是, 目前用于联机检索的大多为传统的大型体系分类法, 这或许是由于下面几个原因:

(1 ) 这些分类法已经沿用了相当长的时间, 广泛应用于各个文献工作机构, 并被翻译成各国文字, 在世界上产生了比较广泛的影响, 直接将它们用于网络信息的组织, 对现有的信息组织体系影响较小, 容易被人们很快接受。

(2 ) 这些分类法几乎都是综合性分类法, 其类目范围覆盖各个学科专业领域, 具有通用性。

(3 ) 体系分类法的系统性较之组配分类法要强得多, 其严密的等级体系直接反映了知识分类的成果, 更适用于联机浏览检索的需要。

(4 ) 这些分类法大多已有机读版, DDC 的机读版Electronic Dewey 1993 年出版, 1994 年出修订版, 1996 年又将同年出版的DDC 21 版制成用于视窗环境下的机读版发行, 称之为Dewey for WindowsUDC 的机读版也于1994 年出版, 并制成光盘出售。这说明分类法的计算机化已取得相当进展, 为它们在网络上的应用创造了前提条件。

() 促进分类主题一体化

分类法在信息网络中的应用将促进分类主题一体化的发展。近几年来, 分类主题一体化有了很大进展, 越来越多的分类主题一体化词表编制出版, 但一部一体化词表的编制出版周期较长,要推广使用更需相当长一段时间。而在联机检索系统中, 分类主题一体化检索则较易实现。美国国会图书馆最近制订了一个有关分类数据的机读目录标准格式, 在这一著录格式中, LCC 的分类号与美国国会图书馆主题词表( LCSH ) 的主题词和人名记录相对应, 有助于编目人员确定合适的主题词和分类号, 并可以用来编制分类号- 主题词对应表, 实行分类主题一体化检索。另外, 在机读版的DDC 记录中, 也包含有与DDC 类号相对应的LCSH 的主题词, 在其电子版的相关索引中还直接选用了LCSH的主题词。这些做法在一定程度上对分类主题一体化起到了推动作用。

通过对分类法在信息网络中的应用领域、应用现状及前景的分析, 我们可以描述用于网络的未来分类法的主要特征:

(1 ) 机读化。这是分类法进入网络的必要前提。这里所说的机读化不只是将分类法输入计算机, 还要对分类法作适应于网络的改造。例如, 用于视窗环境的机读版DDC 包含有四个系统定义的配有多种视窗的检索入口以及四个用户定义的检索入口, 大大方便了检索, 用户甚至可以在DDC 的机读数据中自己增加必要的注释。

(2 ) 国际通用性。在网络中应用的分类法必然会跨越国界,达到国际通用性, 这主要表现在两个方面: 一是作为网络信息组织工具的分类法几乎都是多语种的; 二是它们具有更少的政治和宗教倾向性, DDC 21 版就对DDC20 的宗教类作了较大的修订, 旨在降低其基督教倾向。

(3 ) 兼容性。体现在各种分类法之间的兼容互换及其与主题法的兼容上。目前世界上几部大型分类法都在寻求联合, 例如,UDC 与《布利斯书目分类法》(BC) 正在探讨合作修订医药类的可能性, 计划借用BC 的主题结构编制一新的UDC 医药类表,BC 同样也可借用UDC 的词汇或结构。与此同时, UDC DDC也在计划合作编制地区表, 希望在国家及地区概念的表达上达到一致。分类法与主题法的兼容即所谓的分类主题一体化, 如前所述, 分类法在网络上的应用会推动分类主题一体化。

(4 ) 灵活性。传统的分类法具有相当的稳定性, 一般要使用好几年才作一次修订, 即使修订也往往是小敲小打, 一般不会从根本上改动其结构体系, 且从修订到出版的周期很长, 这就使得分类法存在滞后现象, 许多新学科、新事物、新概念得不到及时反映。而网上计算机化的分类法则具有很大的灵活性, 可以随时进行结构的调整和类目的增删改, 并能根据网络的需要作较大的改造。

三、超文本与超媒体系统

超文本和超媒体检索是利用计算机进行联想检索的一种方式。

普通的文本多为文字材料, 其知识单元按线性顺序排列, 只能进行顺序检索。而超文本系统是用非线性方式把知识单元及其关系组合在一起构成一种网络结构, 利用计算机进行快速扫描、追踪、查询、交流, 以实现联想检索和浏览检索功能。

() 超文本和超媒体系统的特点

超文本和超媒体系统与普通的信息系统相比, 具有以下特征:

(1 ) 采用了动态的、开放式的设计方法。允许用户借助于链路从一个节点随时转换到另一个节点, 可随时增添、删改和组建超文本的知识网络空间。添加新的信息, 只需键入并链接到其他信息节点即可, 无须重新设计记录格式。

(2 ) 采用非线性排列方式, 可以揭示各种相关信息之间的内在联系。传统的信息系统对信息的组织处理方式简单、孤立, 只是对信息特征的简单描述, 没有深入揭示包含于信息中的知识间的内在联系, 其知识单元按线性顺序排列。而超文本系统是按知识单元及其关系建立的知识网状结构, 可以根据知识片断及其关系进行非顺序性的浏览检索, 符合人们的联想思维方式。

(3 ) 可以将文字、图形、图像、声音等多媒体信息进行综合处理, 可以展示图、文、声并茂的立体信息。

(4 ) 是一种人- 机交互的用户友好系统。用户利用计算机可以增删信息, 加注评语, 修改或重建知识网络。

(5 ) 检索效率高。将计算机存储、表现信息的能力与人脑筛选信息的能力组合在一起, 可以随时扩大、缩小和改变检索范围, 实现多途径检索, 具有很高的检全率和检准率。

() 超文本系统的结构与原理

超文本系统是利用计算机实现知识网络的检索和动态组合的, 建有专用的数据库, 并配有窗口系统。

窗口系统由窗口屏幕、键盘和鼠标器进行操作, 实现人- 机交互。超文本数据库由节点和链路组成, 节点表示知识单元, 链路表示这些知识单元之间的关系, 它将相关的知识单元联结起来, 构成一个关系网络。超文本系统的工作原理如图7-1 所示。

在超文本系统中, 每个文档中都包含了若干个被醒目显示的, 用以指向别的文档的参照项, 当某个参照项被触发时, 通过数据库中的链路, 系统马上就可转换到包含有该参照项的另一文档并在屏幕上显示出来。这种参照项是嵌入式的, 不改变原文的顺序, 用户既可以阅读完整的一份文档, 也可以随时停下来选择一个可导向某一新文档的参照项进行联想检索, 并可随时返回来继续阅读。

() 超文本技术与叙词表的结合

超文本与叙词表在结构和使用方式上有诸多相似之处,

, 超文本的节点和链路类似于叙词及其参照系统, 超文本允许从任一节点开始根据需要从一个节点过渡到另一个节点, 进行非顺序浏览, 叙词表的参照系统也有相似的功能。超文本与叙词表的相似性使得两者的结合成为可能。

1 . 将叙词表转换成超文本形式

将叙词和非叙词转换成节点形式, 将参照系统转换成语义关系链, 并增加一些自由词节点, 将叙词表用超文本形式组织起来并进行联机显示, 这样, 触发任一节点即可进行浏览检索。

2 . 将超文本技术用于叙词表的管理

许多超文本软件都具有增加、删除、修改节点和链路的功能, 可以为词表的动态管理提供更好的技术环境。

3 . 利用叙词表将普通文本转换成超文本

叙词表中集中了大量的专业词汇和通用概念, 显示了概念之间的各种语义关系, 提供了多种检索途径, 可以用作将普通文本转换为超文本的参考, 尤其是可用词表的语义关系网络设计超文本的链路。如何为不同专业知识水平的用户提供不同的路径是超文本制作中的难点, 叙词表的参与无疑为解决此问题提供了一条捷径。

四、网络信息组织中的知识表示问题

如前所述, 信息网络中的信息组织已不再仅仅是对信息特征的简单描述, 而是深入到知识层次, 具体表现为各种知识库的建立。事实上, 传统的分类表、叙词表作为一种概念标识系统和知识组织的重要方式, 其结构和功能与知识库十分相近, 所不同的是, 知识库是用人工智能技术组织起来的, 除了存储和表达各种知识外, 还可进行推理操作。随着人工智能、自然语言处理技术的发展以及分类表、词表本身的现代化改造, 分类表、词表的用途将不再限于文献的标引和检索, 而逐渐成为各种智能情报系统和专家系统有效存取知识的重要工具。

() 概念语义网的建立

概念语义网由分类法的类目、规范化的主题词和自由词, 加上一系列有关规则构成, 它是由专家系统支持的, 其知识库中包含有一个能保证它正常工作的内部控制机制。在概念语义网中,一批在语义上密切相关的类目和词构成一族, 这些词或词组与所属类目的语义亲和力大小的不同通过内部控制机制反映出来, 每一个规范词对应一组自由词, 每一个自由词可能与几个规范词发生联系。在实际运行中, 由标引人员对档案主题内容进行初步分析, 并将有关信息如档案题名、作者、文件类型、题录等输入给专家系统, 专家系统经分析、判断、推理等内部处理后给出分类号和标引词。

() 标引模式的制定

手工标引中采用的是离散性、非结构化的标引方式, 这种标引方式容易造成信息的失真, 这就要求进行结构化标引, 制定出适应于各学科、专业以及文献特点的标引模式。标引模式化的意义在于可以提高语义表达能力, 减少标引的盲目性, 为标引的完整性、一致性和准确性提供保证, 大大降低标引过程中的信息失真度。在制定标引模式时应考虑以下几点:

(1 ) 要考虑不同类型的档案在表达和描述主题时具有的不同特点;

(2 ) 要力求最大限度地、不失真地再现档案主题内容的各个方面;

(3 ) 要充分考虑不同的检索要求;

(4 ) 要便于系统的组织管理。

以强大的知识库为背景的专家系统在档案信息组织中的应用, 将在很大程度上代替标引人员繁重而复杂的劳动, 大大提高标引水平和检索效率。


 
(文/小编)
免责声明
• 
本文为小编原创作品,作者: 小编。欢迎转载,转载请注明原文出处:http://www.dawindow.com/tech/201807/49.html 。本文仅代表作者个人观点,本站未对其内容进行核实,请读者仅做参考,如若文中涉及有违公德、触犯法律的内容,一经发现,立即删除,作者需自行承担相应责任。涉及到版权或其他问题,请及时联系我们kf@dawindow.com。
 

Copyright © 2018 档案之窗(dawindow.com)     深圳司捷科技有限公司    版权所有       粤ICP备18047471号-1