摘 要:随着计算机和互联网的发展和普及,传统的书籍文献资料被数字化的进程大大加快,电子文献的形式和种类不断变化和更新,甚至文献的传播方式也在不断创新。在数字 文献 事业迅速 发展 的今天,我们必须注意到,不只是古籍文献有版本的差异,数字文献也存在版本方面的优劣,甄别数字文献版本对于规范 电子 文献标准,提高数字文献质量,方便读者查阅等都有重要作用。
关键词:数字文献 版本学 电子古籍 古籍整理
一、为什么要提出数字文献版本的概念?
随着计算机和互联网的发展和普及,传统的书籍文献资料被数字化的进程大大加快,电子文献的形式和种类不断变化和更新,甚至文献的传播方式也在不断创新。我们知道,传统的古籍文献因为各种原因,存在着很大的区别,同样的书籍,不同的注疏,不同的钞本,不同的刻本校勘,流传到现在都有非常大的版本差异。这个问题在古籍版本学方面有专门的论述,可以 参考 黄永年先生的《古籍整理概论》、《古籍版本学》 ①等书籍。
之所以要提出数字文献版本的概念,是因为:一、古籍文献本身存在版本方面的差异,这主要是数字文献在进行数字化加工的过程中选择的底本②依据不同造成的,这种情况和实体古籍鉴别方法基本相同;二、电子文献在制作完成以后,成为数字图片或文档,这些数字文献存在被修改的可能性,不同的人对同一实体文献进行数字化加工后,肯定会出现良莠不齐的不同版本,这主要是在加工过程中受到制作者的知识水平、工作严谨程度等因素影响的,加上录入方式的区别,制成的数字文献或多或少都会存在各种问题。举个例子,不同的人在录入“魏徵”两个字的时候,可能会有“魏征”、“魏徴”、“魏徽”等多种差异,很明显,对于文献中的人名,后面的几种录入都应该视为错讹版本;三、文献在传播过程中,很多人会根据自己的爱好,或者处于各种目的(包括篡改版权等不道德行为),或者添加注解,甚至有人采用字体转换工具(比如繁简转换、编码转换)改变文档,这样就会导致同样的文档出现不同的电子版本。姚伯岳也认为“近代图书的版本问题丝毫不比古籍中的版本问题简单,有的甚至更加复杂。一书多种不同版本的现象大量存在,横排本、竖排本、初版本、再版本、删改本、伪装本、普及本……”[[1]]。如果没有数字文献本版概念的存在,我们就没办法去解释这种现象,很显然这些原因都不是古籍文献本身原因所引起,我们必须单独来探讨。
所谓的数字文献③版本是指同一本或(同书不同版次)的原始文献底本(主要指古籍文献)经过数字化加工以后存在的不同电子文档形式、文献内容具有差异的电子文献数据,包括具体内容的差异、字体编码(简繁)的差异、电子文档格式(存放形式)的差异。例如某人手头上有一本中华书局出版的阮刻本的《史记》,发行时间是1999年第1次印刷,那么经过数字化处理后,就有可能存在多种数字文献版本:原书原样翻印的《史记》和在此基础上被人校订删改的《史记》、只是做了字体区分的简体《史记》和繁体《史记》、不同的数字文献输出格式PDF格式和DOC格式《史记》,等等,我们可以把这些所有的数字文献《史记》版本视为同一底本的不同数字文献版本。合理的对数字文献版本加以区分,对于选择善本、指导阅读,以及下载收藏很有很多帮助。
二、那么,学会鉴别数字文献的版本有什么用处呢?
首先对于我们甄别底本,发现实体纸本④文献的谬误,脱落,错排等很有帮助。原始书籍可能因为各种原因出现错字、脱漏、避讳、残缺等,在数字化时选用底本不当,没有使用校勘性善本,引起文献内容谬误而无法阅读等情况,经过数字化处理后利用电子检索程序进行本校、对校或他较,会很容易发现这些错误并快速给予识别更正。如果是纸本文献本身的错误,不仅对于校正数字文献加工有好处,对于校勘纸本文献、辨识版本优劣也是有帮助的。
其次,对于同一底本的数字文献,其大致内容应该相同,在检索和查阅文献的时候应该尽量使用不同底本的数字文献,这样更容易发现问题,对于写作和研究可以起到事半功倍的效果。同一底本的不同文献,由于差异较小,经过一些对比软件工具或者程序⑤甚至肉眼就可以发现差异,择优筛选后保留较好的本子或自己批校的版本即可。
第三,对数字文献版本有所了解后,在网上下载和查找相关数字文献资料时可以避免做重复劳动,相同的版本,或者相同底本的版本可以视需要下载。特别是对于一些很大的文献资料,保留优良版本的电子文献可以节省不少电脑的磁盘空间。
第四,对于电子文献加工制作者而言,如果网上已经存在相同版本的电子书籍,自己就没必要再去加工整理,或者只需做二次加工校勘即可。同时,出于对版权保护的目的,可以对网上流传的数字文献版本进行鉴别,有助于维护自己的合法版权,避免自己加工整理的文献流失或遭剽窃。
第五,有助于推动互联网资源的整合和净化。由于 网络 的迅速发展,网络资源不断膨胀,但是原创资源依然稀缺,大量重复资源在网络泛滥。试问,当你从搜索引擎检索出来的文献资料全部是相同内容,你是否会对互联网感到满意?有了统一的版本概念,并能有效甄别,那么对于网络资源的整合和利用则大有裨益。
三、既然如此,如何鉴别电子文献的版本呢?
对于影印扫描文件,版本的鉴别主要还是鉴别底本,因为这些数字文献基本保存了原文献的原貌,除了不能触摸实物、无法鉴别纸张墨迹刻工外,基本可以用古籍版本学的鉴别方法鉴别此类文献书籍。这类资料主要包括:图片文件(tif,gif,jpg,bmp,png文档)、扫描书籍(pdf,caj等格式文档)、复印资料(直接复印原书),这类电子文献主要是图像电子数据[[2]]。
我们重点介绍文本型[[3]]数字文献的鉴别。文本数据主要是经过文字录入深加工的数字文档,这类文档必须有汉字字库的支持才能显示? 饕袷接校?/span>HTM类网页文档,DOC或WPS经过排版的文本,没有经过排版的TXT、RTF等格式文本,某些非图片类型PDF文档[[4]]
1、 文档标题。很多网站在制作发布电子文献版本时都会将出处附注在标题或者简介中,简单查看标题、简介就可以区分是否同一版本。例如A网站有《金刚经》电子书一本,在简介中已经注明了来自国学网站,那么该书肯定是后秦·鸠摩罗什译的电子定本⑥,如果在B网站也发现了带有同样出处的《金刚经》电子书或者其它格式的电子文献,均应该属于同一底本,同一数字版本。
2、 文档大小。同一类型的文档,比如均为DOC、TXT或者RAR、 ZIP文档,只要大小相同⑦,应该是同一版本无疑。
3、 文档版式。数字文献都有版本样式,尤其是HTML类的网页格式,直接可以在浏览器查看,排版一致的大都属于同一版本。比如国学网的二十五史网页版主要采用蓝色显示正文,浅红色显示三家注,白色隐藏附注标记,如果其他网上流传有相同版式,甚至相同网页背景,那么初步断定该版本应该来源于国学网站。
4、 底本对照。如果手头有现成的纸本或文献,任意找出几行几段进行比较。例如,你有纸本文献书籍《铁琴铜剑楼藏书目录》,在网上也下载到了这本书的电子版,那么你只需要翻看序跋,简单断句即可识别是否和手头的纸本书籍属于同一版本。
5、 简繁编码互转对照。直接利用手头的简体版或者繁体版,使用文字编码转换工具或者网站进行转换,将转换后的结果进行对比,如果相同,则一定是一个版本无疑。文献古籍一般不能直接使用转换工具进行直接转换,因为文献中的很多繁体,异体字经过电脑整体转换肯定出现问题。
6、 查找关键字。由于汉字简化时存在一些问题,尤其是合字现象的错误使用,那么如果直接将多个繁体字转换为同一个简体字,在阅读时就会出现歧义。对于简体字的“于”、“着”、“几”、“后”、“干”、“叶”、“万”、“复”、“余”等[[5]]多字合一的现象,或者古代人名、字、号均被简化的现象,在古文献中如果不加区分,那么肯定是直接使用软件转换工具直接转换而成的,这类版本无论是简体字还是繁体字,都可以视为同一版本。例如一本电子文献的《礼记》简体版,有“其不善而着其善”,“诚则形,形则着”、“书其贾数而着其物,若今时题署物”、“故先王着其教焉”等等字样,由于正确理解应该是“着”字,但是直接转换为简体后就全部为“着”,由此可以断定此简体版本是直接使用简繁转换工具转换而成的,甚至是没有经过任何校对和二次加工的,在阅读引用时就应该慎用。古籍文献中“叶”对应的简体字是“叶”,在古籍中不能算作错字或别字,应该保持“叶”的原样,无需改成“页”字。
7、 缺字处理。一般情况下,对于底本中缺失文字,可以使用“□”代替,但是由于 计算 机中文字字库的差异,即使当前的GB18030-2000汉字集和Unicode汉字超大字符集也不能囊括所有的汉字。不同的 电子 文献 版本采用不同的方式应对缺字现象,有的使用图片填补,有的使用? 偈痹熳郑械挠帽鹱只蜃楹献只蛩得魑淖执妫焖俣ㄎ缓凸鄄煲恍┥У娜弊智颍苋菀锥隙ǜ玫缱游南椎挠帕雍托?毙Ч币睬至说缱游南椎陌姹静钜臁?/span>本文由教育大论文下载中心WwW.JiaoYuDa.CoM整理
8、 保真原则。所谓“保真原则”,即数字化古籍产品应具有“文物存储性”,具有重现古籍原貌的功能,具体表现是数字化古籍产品应该形成数字图形版, 它主要是为了满足版本和书史研究、文物鉴赏、文字校勘、原件对照等特殊需要, 可以认为是印刷版阶段“影印本”的数字化[[6]]。国学网“古籍定本工程”,文渊阁本《四库全书》、《四部丛刊》都有不同程度的保真原则,这类电子文献属于校勘比较精审的电子文献,同时拥有图片和文本两种存储方式,既有保存了古籍原貌,又可以检索查询非常方便,但是对于文献本身的错误则没有直接修改,对于专业研究价值较高。这类电子文献整理投入成本较大,可以作为电子文献版本中的善本,有很高的收藏价值。
数字文献的版本学涉及文字学、 历史 学、图书馆学、计算机学等较多的一级学科内容,对于学科知识的融汇要求颇高,单纯地从一个学科出发,可能难以理解数字文献版本的一些问题。数字文献版本的鉴别,对于古籍文献的使用和检索,对于快速查找版本优劣取舍,以及二次加工整理校勘都有莫大的帮助,尤其在当前电子文献盗版盗版现象严重的情况之下,用于规范和标准化电子文献的制作,推进电子文献学的 发展 和进步都有鞭策和促进作用。
注释:
① 传统古籍版本学相关着作:
《古书版本常谈》,毛春翔着,1962年中华书局出版。
《古籍版本鉴定丛谈》,魏隐儒、王金雨编着,1984年印刷 工业 出版社出版。
《 中国 古籍版本概要》,施廷镛着,1987年天津古籍出版社出版。
《版本学概论》,戴南海着,1989年巴蜀书社出版。
《古籍版本学概论》,严佐之着,1989年华东师范大学出版社出版。
《古书版本学概论》,李致忠着,1990年书目文献出版社出版。
《中国古籍版本学》,曹之着,1992年武汉大学出版社出版。
《校雠广义?版本编》,程千帆 徐有富着,1992年齐鲁书社出版。
《古籍版本学》,黄永年着,江苏 教育 出版社2005年出版。
《中国版本文化丛书》,任继愈主编,2002年江苏古籍出版社出版。
一些讨论版本学的文章大多都收入《图书馆情报学档案学论着目录》可利用查阅。
② 和古籍版本学中的底本概念相同,和“工作本”相对,即指影印或校勘首选的本子,制作电子文献时底本一般应该选择校勘性善本文献。
③ 亦可简称电子版本。
④ 不仅限于纸本文献,也有可能是甲骨文,竹简,帛书,金铭文,碑刻,拓本等文献。
⑤ TextDiff、UltraCompare,WinMerge、Beyond Compare、WinHex等软件均有文档比较功能。
⑥ “古籍电子定本工程”主要是在古籍文献数字化制作过程中,对古籍数字化整理起到规范化、标准化的作用的一个古籍整理软件平台,主要由首都师范大学电子文献研究所与北京国学时代文化传播股份有限公司完成。
⑦ 大小相同,文档内容不同的情况可能存在,不过不常见,有些网站列出了MD5校验,只要MD5校验码一致,则文件肯定相同(注:排除MD5碰撞的可能性)。
《数字文献版本鉴定信息管理论文》
本文由职称驿站首发,您身边的高端学术顾问
文章名称:
数字文献版本鉴定信息管理论文
文章地址:
https://m.zhichengyz.com/p-23305