保存中国的数字记忆(大家手笔)
马费成
随着互联网技术的普及,数字信息资源呈现井喷式增长的态势。数字信息资源对知识积累、文化记忆和经济社会发展等发挥着重要作用,对数字信息资源的保存成为保护人类文明记忆、提高一国国际竞争力的重要因素。
国际数据公司(IDC)公布的研究报告显示,2006年全球数字化信息总量为161EB(1700亿GB),2013年达到4100EB(4.4万亿GB),7年间翻了近25倍。预计到2020年,这一数值将再翻10倍,达到44万亿GB的海量,约为地球所有海滩上沙粒数量的57倍。然而,数字信息资源在快速增长的同时也在迅速消失。例如,网络信息的平均寿命只有44天,博客的平均寿命只有38.2天,而一个新闻网页的寿命则只有短短的36小时。每时每刻都有无数有价值的数字信息资源在无声无息地消失。数字信息资源的大量消失,既有自然灾害破坏、存储媒介不断更新、保存经费投入不足等外部因素,也与其自身的脆弱性、载体依赖性以及未来价值不确定性等有关。
联合国教科文组织的《保存数字遗产宪章》指出,“如果不着手解决目前所面临的有关威胁,数字遗产将会迅速丢失,而且不可避免”。目前,很多国家都在研究对数字信息资源进行保存的对策。我国数字信息资源保存虽然起步较晚,但发展速度较快,数字信息资源保存已被纳入相关战略规划之中,相关部门已实施了一系列数字信息资源长期保存项目。例如,北京大学的“中国WEB信息博物馆”项目、中国国家图书馆的“网络信息采集与保存”实验项目等。但我国目前数字信息资源的保存能力还难以满足经济社会发展需要,主要表现为与数字信息资源保护相关的法律法规有待健全、战略规划和宏观指导有待加强、经费投入不够、社会整体保存意识不强,这些都不利于我国数字信息资源的长期保存。
制定行之有效的数字信息资源保存方案,可从制度和技术两个方面入手。在制度方面,加强顶层设计,明确数字信息资源保存方针;建立完善的国家数字信息资源长期保存系统;明确完备统一的数字信息资源保存标准;建立数字信息资源呈缴制度,完善相关法律法规。在技术方面,目前已出现了一些具有借鉴意义的数字信息资源保存技术。一是在多重备份的基础上进行适时迁移技术。多重备份是在原有技术条件下实现数字信息资源的存储和重写,防止因载体性能或某种外部因素所带来的数字信息资源遗失。适时迁移主要是将数字信息资源由稳定性较低的媒介向稳定性较高的媒介迁移,以确保数字信息资源长久保存。二是仿真与封装技术。仿真是指在新的系统环境下建立一个兼容原始数据、设备及其管理系统的运行环境,使原来的数据、设备和系统能在现行的软硬件系统上稳定运行。封装技术是指在对数字信息资源进行包装的过程中,将其所需的运行环境(包括硬件和软件)一起打包,使数字信息资源在新的技术环境下得以顺利运用。三是系统性整体保存技术。将数据、产生数据的原始软件以及操作系统和软件平台一起存储,为日后应用此数据信息时提供运行支撑。四是数据恢复与数据考古技术。主要是从原始的数字节流中恢复数字信息资源的原貌,并保证数字信息资源的可读性和可用性。在对现有数字信息资源进行长期保存的同时,还要加强对以传统媒介为载体的信息进行数字化处理并长期保存,构建具有中国特色的数字信息资源长期保存系统。
(作者为武汉大学信息管理学院教授)