数字档案长期保存的元数据需求及建设策略研究
Abstract:Meta-dataandlong-termpreservationofdigitalarchivesresourceshasacloserelationship。Itisconvenienttofindthegapbet论文网weenmeta-dataresearchanddigitalresourceslong-termpreservationoftheconstructionprojectthroughintroducingthefunctionofmeta-datainthelong-termpreservationofdigitalarchivesresourcesandhowthoseprogramdemand。Thusweputforwardthevalueofmeta-datadescriptionfunction,sensitiveinformationandsoon。
Keywords:meta-datadigitalarchivesresourceslong-termpreservation
引言
数字档案资源的长期保存既要求确保数字档案资源的长期存储,也要求保证数字档案资源的永久获取。元数据作为描述数据的数据,其本身以及与其相关的技术是数字档案资源长期保存的关键,因此数字档案资源长期保存的元数据研究就显得尤为必要。为了更好地利用元数据满足数字档案资源的长期保存需求,相关学者提出了保存元数据这一概念并开展了以保存元数据为核心的项目研究,比如PREMIS和METS等,这些项目的开展可以推动元数据更好地解决数字资源长期保存过程中涉及的管理。技术问题等,为本文探讨数字资源长期保存的元数据建设策略提供了借鉴。
1元数据在数字档案资源长期保存中的作用
1。1维护数字档案资源的真实性。档案是真实的历史记录,因此维护数字档案资源的真实可靠是数字档案资源长期保存过程中的重中之重。元数据可以通过建立与数字档案资源真实性相关的元数据结构来保证数字档案资源的真实性[1,即在数字资源形成和使用阶段描述与记录数字资源及与之相关的责任者。业务过程。法规。时间。人员使用行为等信息,并在描述与记录这些相关信息的同时通过数字签名将其与数字档案资源固化为一体,进行封装保存,从而起到说明与保证数字档案资源真实性的凭证作用。
1。2维护数字档案资源的完整性。元数据对数字档案资源的监管贯穿了数字档案资源的整个生命周期。因此,为了保证数字档案资源的内容。结构和背景信息均没有缺损,它可以持续动态地记录和保存用户对数字档案资源的使用行为,包括对数字档案资源的编辑。复制。删除等[2。形成的这些元数据记录不可更改和删除,与数字档案资源绑定在一起,因此数字资源保管单位可以通过这些元数据记录说明所收集。长期保存的数字对象完整性及其变化情况,特别是在接受保存。提供利用前后的完整性变化。
1。3维护数字档案资源的安全性。元数据可以通过对权限。版权。使用过程等方面信息的保存和描述来限制和监管相关人员对数字档案资源的传输和使用行为,从而实现维护数字档案资源安全性的目的。比如,通过权限的控制可以避免数字档案资源内容的泄露和损坏。通过版权的控制可以促进数字档案资源规范化的运转。对与使用过程有关的信息的记录和保存便于有效追责,形成对相关人员的约束等。
1。4维护数字档案资源的可获取性。为了维护数字档案资源的可获取性,一方面,元数据可以通过不断完善元数据元素尽可能达到对数字档案资源的全方位描述,保证数字档案资源的准确性。比如,随着社会维权意识的增强,与权利信息。技术信息有关的元数据元素被不断加入到元数据保存框架中[3。另一方面,通过建立元数据框架抽取数字档案资源中有关于数字档案资源标示符。创建日期。结构类型。复杂对象技术结构。文件描述。已知系统要求。安装要求。存储信息。查找搜寻工具和提取方法。存取类型等方面的元数据单元并将其封装在一个数据包中,例如,OAIS就将数字资源对象和与它们相关的元数据纳入到AIP之中,这些元数据不是直接和数据束缚在一起,就是和系统有逻辑联系。通过类似于AIP这样的封装数据包,与数字资源有关的存放在存储介质中的物理数字信息,数字资源的保存数字格式与处理信息,数字资源的生成处理。利用环境,数字资源的内容校验。身份验证。版本演变。知识产权管理机制等都能得到完整的保存及再现,从而实现数字档案资源的长期存取。
2数字档案资源长期保存对元数据的要求
2。1标准化。统一规范和统一标准主要是指在数字档案资源长期保存过程中,元数据元素的选取。元数据保存框架的建立等必须标准化。规范化。元数据标准化是数字档案资源进行长期保存的必然要求,能够保证数字档案资源在环境频繁变化的情况下保持其真实性。完整性。可用和安全。例如,档案信息包唯一标识符的构成规则若是没有规范的标准,那么与唯一标识符相关联的档号。题名。编码。档案信息包等要素就很难去定位。识别和解析,从而增加了数字档案对象的长期保存的难度。因此,数字档案资源对元数据的标准化要求很有必要。
2。2易于捕获。易于捕获是指元数据要便于获取,即数字档案资源长期保存所需要的元数据不依赖于人工添加,可以较大程度以自动捕获的方式从系统。数字资源本身。其他描述记录等目?硕韵蠡袢U庵肿远?生成的元数据一方面可以有效保证数字档案资源的真实可靠,另一方面也可以提高数字档案资源长期保存项目的效率水平。2。3较强的识别能力。较强的识别能力是指数字档案对象能够被元数据发现和识别,这体现在两个方面。一方面,元数据有能力对不同层次的数字档案对象进行综合描述,保证从单个文件到全宗的时间。唯一标识符。关键字。存储格式等都能被有效描述。另一方面,元数据需要有能力识别和检索出用户需要的数字档案对象,这就要求考虑到用户查询所需要的最小的元数据需求,即用户多使用描述元数据来进行查询,如标题。档号等。
2。4灵活性。笔者认为,元数据的易操作性体现在三个方面。首先,元数据需要具有可扩展性。元数据并不是一成不变的,需要依据随着数字档案资源长期保存研究的不断深入。实践活动的开展。不同机构的需要等在元数据元素的数量。元数据语义化表达等方面进行扩展,例如,保存元数据在权利元数据。重要属性元数据。特殊类型数字资源及学科化特色的保存元数据[4等方面需要有所扩展,因此元数据的可扩展性就显得尤为必要。其次,元数据需要具有可更改性。元数据的可更改性主要是指当元数据对数字档案对象的描述出现错误或是不能满足用户的要求时,再或者元数据的格式需要进行调整和转换时,我们可通过人工修改使得元数据对数字档案对象的描述更为完善,更能满足数字档案资源长期保存的要求。最后,元数据应该具有可封装性。元数据的可封装性是指数字档案对象保管机构可以通过一定的封装方式将元数据与数字档案原文进行打包形成提交信息包进行移交,在封装的过程中,元数据不能损坏和遗失并且可再获取。从而保证元数据与其描述的数字档案对象进行一对一绑定,实现数字档案对象资源长期保存的需要。
3数字档案资源长期保存的元数据建设策略
3。1元数据标准规范化。数字档案资源长期保存会涉及不同方面的元数据标准,不管是元数据封装标准METS。VERS,还是数字技术保存标准PREMIS,文件管理描述元数据标准ISAD。EAD,等等,都需要数字档案对象保管机构依据自身的建设需要和国内外大环境等因素选择合适的元数据标准,明确可接受的元数据的范围以及必不可少的元数据类型。以描述元数据标准。技术元数据标准。元数据封装标准等为代表的各种元数据标准的规范化是数字档案对象长期保存的必然要求,没有规范化的元数据标准,数字档案资源的长远保存和长久存取将会遭遇困难,因此做好元数据标准的规范化是数字档案资源长期保存的基础。
3。2增强元数据对数字档案对象的识别能力和捕获能力
3。2。1重视元数据的?C合描述能力和分级描述能力。笔者认为,元数据的描述功能是元数据帮助数字档案资源长期保存中的关键。一方面,数字档案对象保管机构要具备足够的元数据来对数字对象进行综合描述,应涵盖数字对象的主题。形成时间。流水顺序号或唯一标识符等基础管理和定位要素;存储格式。存储载体。保存技术条件等长期保存要素;关键字。读取软件等检索利用要素等。只有综合考虑到不同的描述角度,大量的元数据元素才能从各个方面保证数字档案资源真实性不受质疑以及长期存取的可行性。另一方面,数字档案对象保管机构应采用元数据对数字对象的不同级次进行描述,例如全宗。类别。案卷。文件组合。文件等。不同层级的数字档案对象所要求的描述角度有所差异。例如,对单个文件的描述倾向于题名。关键字。责任者。时间等比较低层次类型的元数据,而元数据对于全宗的描述则倾向于对全宗的历史发展过程和管理历程等高层次的元数据。
3。2。2重视敏感信息的识别。数字档案资源包含大量敏感信息,涉及个人隐私。国家安全。版权信息,等等,因此数字档案资源长期保存中如何使用元数据识别敏感信息也应该受到重视。笔者认为,通过将语义技术与元数据相融合可以充分提高元数据的交互性。目前,已有少数组织在保存元数据项目中融入语义技术,其中在图书馆。档案馆。博物馆领域,CIDOC概念参考模型成为广为推崇的交互性的本体标准。在元数据保存框架中应用CIDOC等语义技术模型,可以增强对本体和关联数据的描述效果,拓展了保存元数据可描述资源类型,从而实现对数字资源内容的深入挖掘,发现数字档案资源中的敏感信息。
3。3重视元数据的捕获能力
3。3。1针对不同数字档案对象有选择地捕获元数据元素。元数据元素并不是越多越好,我们要针对不同描述对象捕获最合适的元数据元素。以图像资源和视频资源为例,图像资源需要捕获与分辨率。颜色相关的元素[5,视频资源需要捕获与播放格式。字幕信息。音频背景相关的元素,而这些元数据元素对单纯的文本资源是不需要的。因此为了避免数据冗余,提高数字资源管理的效率,针对不同对象捕获适合的元数据元素就显得尤为必要。
3。3。2针对不同元数据元素选择不同的捕获方式。以题名。关键字。责任者。时间等为代表的低层次类型的元数据,通常可以通过电子文件管理系统自动捕获。数字档案资源保管单位只需要按照自己的需求在系统中设定好需要捕捉的元数据类型和格式等就可以轻易实现元数据的自动捕获。而对于一些高层次类型的元数据,例如上文提到的对全宗的历史发展过程和管理历程进行描述的元数据,经常会需要自动捕获和人工创建相结合,因为系统很难捕捉到能概述数字档案对象管理过程的元数据,故而一些高层次类型的元数据元素就需要人工进行修改和补充。
3。4实现对元数据的灵活管理。目前业界广泛施行的OAIS元数据参考模型可以很好地实现元数据的灵活管理。OAIS作为一种能够为数字档案资源的长期保存提供概念框架。功能框架。信息模型和一定扩展基础的开放档案信息系统[6],对元数据的更改。封装。扩展等管理行为都可以通过AIP。SIP。DIP等不同类型的信息包实现。即OAIS模型支持档案保管机构在数字档案资源的接收。存取等过程中通过对信息包的处理来实现对元数据的灵活管理。
4结语
总体而言,元数据是数字档案资源长期保存的重要部分,有效维护数字档案资源真实性。完整性。安全性和可获取性。同时,以保存元数据为代表的元数据研究的开展更是能够满足数字档案资源长期保存的相关需求,例如,对数字档案对象的有效描述。对数字档案对象和其背景信息的有效封装并实现对封装信息包的有效管理,等等。不可否认的是,元数据在推动数字档案资源长期保存建设方面仍有不足,但笔者相信随着元数据技术的进步以及图书情报和其他领域学者的不断努力,越来越多的数字档案资源长期保存中的问题可以通过元数据解决,元数据也定能推动数字档案资源长期保存项目建设更加完善。
基金项目:国际社科青年项目:数字档案安全及长期保存策略研究(13CTQ050)。
数字档案长期保存的元数据需求及建设策略研究