分享到:
文化学综合论文 最近更新
岭南文化论文:珠玑巷与岭南移民的历史关系
永州文化论文:永州名人柳宗元与元结作品传播
浅谈孟非主持风格与《随遇而安》
论文:浅谈中国传统文化的精髓
东方文化研究论文:浅析东方文化的圆满
文化论文:高校大学生网络阅读文化现象浅探
流行歌曲论文:五月天阿信歌词创作研究范文
中华文化研究论文:中华文化的导向作用及发展走向
历史系论文:从秦灭六国透析人性特点
文化研究论文:文化形态与内涵综述
浅论中国文人的素质修养
广东凉茶文化现象调查报告 凉茶文化调查报告
论中国隐士文化内涵
东西方古典爱情诗的差异比较分析
文化毕业论文:现代社交礼仪的必要性及现实意义
沟通方式对沟通质量的影响
《周礼》在谢氏城堡中的文化遗存
论电视相亲类节目的社会文化内涵
欧美文化之没落及中国现代化出路
论互联网时代公民价值观的培养
试论中国古籍数字化与人文学术研究

  【提要】本文从人文研究角度出发讨论古籍数字化意义及解决方案,强调了在数字化时代传统古籍整理工作的重要性。史文认为古籍数字化能为人文研究提供便捷、准确的查询工具,但要实现这一目标,必须对传统古籍整理工作进行变革,要求建立数据库统一的规范,包括分类法、著录格式都要有一定的修改,以建立国家标准,并使古籍数据库与数字图书馆的其他数据库保持整体的统一性。文章对计算机技术也给予了同样的重视,分析了人文研究对计算机技术的要求,计算机技术为古籍数字化准备的条件,并讨论了两者的有效结合。
  
  【关键词】人文学术研究、数据库、知识发现、中国古籍数字化解决方案、图书馆自动化

 

  中国古籍的数字化是一个非常复杂的跨学科课题,本来应由专家来解决,绝非学识浅陋如不佞者所应妄言的。但是,计算机产业界的专家对于计算机技术在人文学术研究上的应用缺少了解和兴趣,而学术界的专家都忙于各自的名山事业,两方面又无良好的沟通,所以创获甚少。此前虽有学术机构曾进行过类似课题的研究,获得了初步的成果,但旧的思路和成果已很难跟上计算机技术飞速发展的步伐[1]。鉴于目前中国古籍数字化问题的日益紧迫和相关专题研究的相对滞后,笔者不揣谫陋,撰此小文,以期引起有关专家就例如数字化、网络化时代对人文学术研究提出怎样的机遇和挑战,如何利用计算机及网络技术推动人文学术研究的发展以及如何规划、评估古籍(以至一切图书文献)的数字化方案等问题的深入讨论。

 

一、古籍数字化——现代学术研究的基础

  我们中华民族创造了无比丰富的历史文化遗产,对于世界文化具有巨大贡献。古代典籍是中国历史文化遗产最为重要的物质载体,面对蕴藏于浩如烟海的古籍之中的文化思想,究竟应该如何解读,如何履践,不免令人有“一部十七史,不知从何说起”的感觉。胡适之先生认为传统的经史研究存在范围太狭窄,注重功力而忽略理解,缺乏参考比较的材料等积弊,故以清代三百年间第一流人才的心思精力,都用在经学的范围内,却只取得了一点点的成果,关键是缺少对古籍的系统整理,又不注重学术成果的积累,两千四百多卷的《清经解》,大多是一堆流水烂帐,没有条理,没有系统,人人从“粤若稽古”、“关关雎鸠”说起,怪不得学者看了要望洋兴叹了[2]。针对清儒治学方法的缺陷,胡适之先生着重提出,必须系统地整理古籍,包括索引式、结帐式和专史式的整理。此后,学界编纂了多种引得、通检、索引、汇编等工具书,部分完成了索引式整理的目标,拜前辈学者之赐,我们查阅古籍不知享受了多少便利。但是我们也发现,中国古籍汗牛充栋,经过系统整理的毕竟只是少数,方便的检索工具也还嫌太少,离胡适之先生的标准还有相当的距离。即使是已有索引的古籍,我们用来解决具体问题时仍会感觉到种种不便。至于结帐式的整理,则尚未受到学术界的普遍重视,而在未有结帐式整理之前,所作的专史研究,其完整性、可靠性都值得怀疑。刘家和先生在《〈崔述与中国学术史研究〉序》中说道:“记得从前有一位学术前辈说过:‘上穷碧落下黄泉,动手动脚找材料。’这已很不容易。而现在是要‘上穷碧落下黄泉,以求有所新发现’,这就更是难上加难了。由此我想到了美国科学哲学家库恩(Thomas Kuhn,1922—1996)的一篇文章《必要的张力:科学研究中的传统和创新》(The Essential Tension:Tradition and Innovation in Scientific Research)。他说,科学的发现,既需要发散思维,即对于传统具有突破性的创新思维,又必须有向心思维,即深入传统的思维。这是因为,没有前一思维,就会限于传统而失去创新的可能;没有后一种思维,就不能深知传统中的问题与病因所在,就不知到底为何需要突破,应该从何突破,即使突破也破不到点子上,何来创新?所以他概括地说:‘成功的科学家常常必须同时扮演传统主义者和离经叛道者的角色。’库恩讲的是科学发展的要求,其实对于史学的发展来说,这几乎是同样适用的。这就是要‘上穷碧落下黄泉’,要有微观与宏观、传统与创新两极之间的张力。”[3]确如刘家和先生所说,经常保持这种张力是推动学术创新的要素,如果认真反省一下就不难发现,在人文学术研究中,我们有时忽视对古籍文本的深入解读,导致研究结论发生偏差;有时又被前人的成说所左右,不能有所推进。为了中国现代学术的自主、自立,促进中外学术的对话,我们必须比以前任何时候都更加致力于中华元典以至全部古代典籍的深入解读,以求在此基础之上作出更大的学术突破。有人看不起古籍点校或是索引、目录、汇编的编纂,可又有谁能说自己的名山事业从未受惠于点校本《二十四史》、《资治通鉴》或是《二十史朔闰表》、《中国历史地图集》、《十三经索引》、《二十四史人名索引》这样经典的点校本或检索工具呢?人文学术研究是个人的事业,一个人的精力和时间是有限的,而人类知识的积累又绝非一个人所能把握的,如果我们不能大幅度地提高自己的学习效率,而是将有限的时间、精力都花费在浩繁、琐碎的翻检工作之中,那么还谈何学术进步呢?为此,我们需要有经过认真梳理的、反映全部前人研究成果的古籍文本供学术界使用,需要有便捷、高效、准确的查询工具为人文学术研究服务。
  古籍数字化是一项重要的人文学术研究基础工程,不仅需要全体学术研究者和计算机专家的勤奋和努力,更需要现代化技术的支持。我们认为,利用计算机及网络技术进行深入的古籍整理工作,在当今数字化时代势在必行,它必将大幅度地提高我们学习中国古代文化的效率,定会将学者的时间和精力从艰苦而繁琐的爬梳、翻检工作中解放出来,用于推动人文学术研究的发展,对此我们充满了希望。同时我们还应认识到,古籍文献的数字化实际上也是全部中文文献数字化事业的一个复杂特例,它所积累的经验和取得的成果必能广泛地应用于后者,而中文文献的数字化又是数字化图书馆事业的一部分,是国家知识基础设施(National Knowledge Infrastructure简称NKI)的一部分[4],具有十分广阔的应用前景。此外,积极建设网上中文资源库,打破某些国家或某种语言对网络资源的垄断,这将有利于中外学术文化的交流,树立中国人的学术自信心和自尊心。

 

二、古籍数字化的理论思考

  当前,衡量个人电脑的性能标准已不再是中央处理芯片(CPU)的时钟频率,而是看它的整体可用性如何。软件亦是如此,应用放在了越来越重要的位置上。由于缺乏利益驱动,计算机软件在传统人文学术研究领域的应用还远未提到中国计算机产业界的议事日程上来,这不能不说是一种遗憾。目前,台湾中央研究院已建立起十余个重要的古籍资料库,并逐渐开放于网络[5]。近期日本出版了一本《电脑中国学》(东京好文出版社,1998年11月),书中探讨了计算机技术应用于中国研究的问题,并且提供了大量与中国研究有关的网址,其中绝大部分是属于台湾学术机构的。本来应由最具人才资源和技术优势的大陆学术界完成的事业,却被台湾学术界抢先了一步,不能不说又是一重遗憾。最近,大陆出版界推出了几种大型的电子版古籍[6],引起了社会的普遍关注。然而此类电子读物大多难以差强人意,究其原因就在于我国的计算机产业界很少有人专门从事计算机技术在传统人文学术研究领域的应用研究,对中国古籍及其研究方法也缺乏必要的了解。同时,文史研究者不能勇敢地迎接数字化时代对人文学术研究提出的挑战与机遇,积极地参与古籍的数字化工作,则是另一个重要原因。问题的关键在于人文学术研究向计算机提出怎样的要求,当代计算机技术又为古籍数字化准备了哪些条件,两者究竟如何契合。
  笔者认为,古籍数字化的理论问题比技术问题更为重要,因为一旦理论发生了偏差,技术越高明,则解决方案越是难以成功。而此种理论是基于对人文学术研究一般过程和计算机数据处理基本原理的认识之上的,所以只有学术界与计算机产业界的密切合作,才能达成尽善尽美的结果。笔者认为,以人文学术研究的角度来看,古代典籍一方面是古代先贤完整地表述思想体系的“撰述”,另一方面又可看作是保存古代历史断片的“记注”[7]。研究先贤的思想,固然要尊重其“撰述”的完整性及其内部的逻辑,将其还原于它的时代语境之中,作“同情之了解”;而研究历史则如艺术家一般,将零星的断片(即史料)小心地补缀成一件完整的艺术品。无论何种研究,每当我们将零星的断片按照一定规则重新排列、组合以后,都会有一种豁然开朗的感觉,因为我们由此发现了那些材料在原有脉络(context)之中难于发现的字面之外的第二甚至第三重含义,以及它们之间的各种内在关联,我们对这些含义和关联作进一步的分析或综合,总会有新的发现及解释,这就是人文学术研究的一般过程。其具体操作过程往往是突破文献的原有结构,将原文献划分为若干基本单位,提取其中指向内部含义的关键词,依照它们的属性进行排序、筛选、统计和分类,比较相关文献中的关键词,寻求他们之间的相关性。这一过程在手工查阅纸本文献的时代,需要学者具有深湛的功力,否则很难得到完美的解决,因为纸本古籍大多缺少必要的索引,而纸本检索工具既不能随读者的要求提供多种排检方式,又无法按照读者的要求产生再生资源,可用性有限;此外,研究者对文献本身的认识是随着研究工作的深入而逐步清晰起来的,其工作初期往往难以明确提出与自己的研究题目完全切合的全部关键词,而是要在较大范围内进行模糊查询或渐进式查询,这更是纸本检索工具所不能解决的。当然我们也看到,传统的点校本古籍为数字化古籍提供了基本样式,纸本检索工具为数字化古籍的查询积累了有益的经验。中华书局版《二十四史》,尤其是《前四史》的点校,可称古籍整理的优秀范本,它吸收了此前的全部前人校勘的成果,为学术界提供了准确、可靠的古籍文本。洪煨莲先生主持的哈佛燕京学社编纂的引得丛书、谭其骧先生主编的《中国历史地图集》、中华书局出版的《二十四史人名索引》、上海图书馆编纂的《中国丛书综录》等,都是嘉惠士林的工具书。引得丛书的语词逐字索引堪称同类索引的典范,《二十四史人名索引》严格的规范控制使读者获益匪浅,《中国历史地图集》所具备的古今地名对照、地名方位查询等检索功能,绝非其他类别的工具书可以替代。数字化古籍一方面应继承纸本古籍及检索工具的优点,一方面又要克服其原有缺陷,淋漓尽致地发挥电子媒体的优势。鉴于中国古籍中知识发现的复杂性及其广阔的应用前景,笔者认为古籍数字化事业对计算机产业界是一个严峻的挑战,无论是系统、软件在中文环境下的易用性,还是信息产业的运营和服务的水平,都须经过古籍数字化事业的检验才是真正的合格。
  虽然我们一再强调计算机技术一日千里的发展,但还是有必要检讨一下其为古籍数字化所作的技术准备。首先,网络技术的飞速发展使信息资源的共享成为可能。几年前网络通信还是少数人的奢侈品,如今信息高速公路已经修到我们每个人的家门口,将世界连接为一个名副其实的地球村。依托这条无远弗届的信息通衢,人类的知识传播和知识创新势必发生新的跃迁。国际互联网提高了电子文献的检索效率,扩大了服务范围,具有便捷的信息传递方式,节省了远程通信费用[8]。其次,新一代高性能计算机的海量存储和秒级运算能力十分惊人,以至普通人已难于预测它明天的发展。海量存储设备已逐渐普及,我们再也不必在空间和时间的矛盾中苦苦挣扎了。电脑CPU的时钟频率一路突飞猛进,1GHz的CPU也指日可待了。复次,新的国际计算机信息处理标准的制定和实施为建构全球统一的信息处理系统奠定了坚实的基础。我们知道,最初的计算机使用的字符集是为人熟知的ASCII码,即基本拉丁字符集(ISO646),仅有96个拉丁字母和符号。随着计算机技术在世界各国的普遍运用,多文种信息处理的要求也应运而生,基本拉丁字符集显然已无法满足这种需求,各国所运用的地区性编码又为全球信息处理一体化设置了障碍。于是在国际标准化组织(ISO)引导下,由国际计算机界、语言文字学界的专家共同制定了通用多八位编码字符集(ISO/IEC10646)。我们现在所使用的中文版Windows95就是实现该标准的一个子集,它采用了中国信息标准化委员会1995年11月制定的汉字内码扩展规范(GBK),收入汉字两万多个[9],虽然目前还不能完全满足古籍数字化的要求,但毕竟为汉字信息处理的国际化和标准化开辟了道路,为中国准备了一把开启数字化时代大门的钥匙。再次,新的计算机应用技术,如非键盘输入技术[10],中文数据库技术[11],多媒体压缩与传送技术、安全保密技术、自然语言理解技术[12],尤其是数据挖掘技术的出现,为古籍数字化事业提供了有力的支持。数据挖掘技术又称数据库中的知识发现(Knowledge Discovery in Database,简称KDD),是指从大量数据中提取出可信的、新颖的、有效的并易于理解的知识的高级处理过程[13]。它已广泛应用于市场行销、产品制造、通信网络管理、金融投资、自然科学研究等许多领域[14]。我们相信,数据挖掘技术运用于人文研究领域,必将创造出更卓越的业绩。非键盘输入技术使文献载体转换方式发生了一场革命,例如自动识别输入技术(ODR)使海量信息输入的工作量大大降低,清华紫光公司所研制的非特定人手写识别软件仅用三个月时间就将一部《文渊阁本四库全书》输入计算机内,为同类工作积累了宝贵的技术财富[15]。最后,面向对象的编程工具的出现使人性化应用界面的编制变得轻而易举。
  如上所述,计算机的特长正在于海量数据的存储、运算(包括排序、筛选、统计和分类)和传输,更可深入文献内部,实现知识的发现,这与人文研究工作的一般过程,即关键词的查询、排序、筛选、分类、统计及其相关性的分析十分相似。既然如此,那么我们就发现了计算机科技运用于人文学术研究领域的基本契合点,我们只须以某种方式沟通两者的语言,就可以充分地发挥计算机的优势,大幅度地提高人文学术研究的效率,为学术积累和学术评论提供更为便利的条件和优化的环境,同时,也就找到了比较完善的古籍数字化方案。
  目前对于数据库厂商来说是一个千载难逢的良机,无论是近期的国家古籍整理与规划小组的古籍光盘工程、北京图书馆的数字化图书馆工程,还是未来的国家知识基础设施工程,肯定会带来计算机网络工程、系统集成、数据通信、软件开发以及服务方面的巨额需求,谁先期投入这一事业,制定出一系列行业标准,谁就占据了相关产业的制高点,分得最大的市场份额,必将成为全国以至全球的信息产业界业巨子。

随机推荐
《旧唐书》书名小考
从“思想世界”到“历史世界”——余英时《朱熹的历史世界》述评
吴简“户调分为九品收物”的借鉴与创新
依归与超越
九十年代文化研究的方法与语境
论《阿Q正传》的心理描写特色
论互联网时代公民价值观的培养
法国敦煌学的新进展——《远东亚洲丛刊》“敦煌学新研”专号评介
别出心裁的断代经济史--读何德章著《中国经济通史》第三卷
美丽总是愁人的——读沈从文

设为首页 | 关于我们 | 广告联系 | 友情链接 | 版权申明

Copyright 2009-2014 All Right Reserved [粤ICP备05100058号-11]