分享到:
文化学综合论文 最近更新
岭南文化论文:珠玑巷与岭南移民的历史关系
永州文化论文:永州名人柳宗元与元结作品传播
浅谈孟非主持风格与《随遇而安》
论文:浅谈中国传统文化的精髓
东方文化研究论文:浅析东方文化的圆满
文化论文:高校大学生网络阅读文化现象浅探
流行歌曲论文:五月天阿信歌词创作研究范文
中华文化研究论文:中华文化的导向作用及发展走向
历史系论文:从秦灭六国透析人性特点
文化研究论文:文化形态与内涵综述
浅论中国文人的素质修养
广东凉茶文化现象调查报告 凉茶文化调查报告
论中国隐士文化内涵
东西方古典爱情诗的差异比较分析
文化毕业论文:现代社交礼仪的必要性及现实意义
沟通方式对沟通质量的影响
《周礼》在谢氏城堡中的文化遗存
论电视相亲类节目的社会文化内涵
欧美文化之没落及中国现代化出路
论互联网时代公民价值观的培养
汉文化资料库不同层次的实用要求
 汉文化资料库,是一个非常大的概念。它可以是包括诸如文字的、图像的、声音的等等各种表现形式的、古往今来的所有汉文化资料在内。我这里仅就古文献这一层面,并从一名使用者的角度来谈一点不同层次实用要求的意见。

                    一

  就目前我看到的已制作出来的汉文化古文献数字化资料,数量已不在少数。当然与全部传世古文献相比,也还只是很小一部分。然仅就这些已制作出的古文献数字化资料来看,其中有不少重复的制作,也有不少并不完全符合该古文献实际功能和使用者需要的制作。这也许是由于现在市场经济机制的关系,互相封锁,互相竞争,有些重复很难避免。但更多的原因可能是制作者对各类不同性质古籍的使用价值了解不够所造成的。这里人力、物力、财力的浪费是非常可惜的。因此,如何从整体上来规划汉文化古文献资料库的建设,应当说已经提到日程上来了。
  这里,我想就目前已制作成成品流通、销售的部分大部头丛书类古籍,作一些简单的评析。这些大部头丛书类古籍(包括传世的和新编的),也正是眼下制作汉文化数字资料库的一个热点。
  这类古籍数据库中面世最早的大概是《古今图书集成》,接着是《二十四史》(或加《清史稿》为《二十五史》)、正续《资治通鉴》、《全唐诗》等,再下来便是部帙巨大的《四库全书》、《四部丛刊》等。其他,如“北京大学图书馆与超星公司超星数字图书馆合作推出古籍专题图书馆”中,也提供了大量的古籍丛书类的数据资料库。如:《四库全书存目丛书》、《四库全书禁毁书丛刊》、《续修四库全书》、《四库未收书辑刊》、《丛书集成》、《二十四史订补》、《二十五别史》、《二十五史三编》、《中国野史集成》、《中国野史集成续编》、《北京图书馆藏珍本年谱丛刊》、《北京大学图书馆藏稿本丛书》、《北京大学图书馆藏善本医书》、《善本戏曲丛刊》、《明清抄本孤本戏曲丛刊》、《古本小说丛刊》等等,都是部头大、史料价值相当高的原始文献。上述电子文献中,像《二十五史》、《全唐诗》、《四库全书》等,还先后出了好几种版本。
  此外,佛教经典文献的电子化进程,也是十分值得人们注目的。除了散见的单本佛教经典外,现在可以看到的制作成电子数据库的整部大藏经有:《佛梅大藏经》、《大正藏》(1—55卷、85卷) 、《中华大藏经》、《永乐北藏》、《龙藏》、《高丽藏》,以及即将面世的《佛光大藏经》等。道教经典总集《道藏》和《藏外道书》也已有图像版在“北京大学图书馆与超星公司超星数字图书馆合作推出古籍专题图书馆”中流通。
  在这些数据库中,大部分只是图像数据,一部分是电子文本数据(如《二十五史》、正续《资治通鉴》、《全唐诗》、《佛梅大藏经》、《大正藏》等),再一部分是图像数据与文本数据对应合成(如《四库全书》、《四部丛刊》、《高丽藏》等)。其中技术表现手段,互有短长,各有特色。如果从制作质量(主要从图像清晰、文字校对质量、缺字处理和解决等方面来衡量)和技术表现手段(主要从系统兼容、浏览界面、检索技术、显示速度等方面来衡量)来比较一下的话,有两件作品值得提出一讲。一是由北京书同文数字化技术有限公司制作的电子版《四部丛刊》,一是由台湾中华佛学研究所制作的电子版《大正藏》〔CBETA 电子佛典(大正版)〕。
  这两部作品从制作质量方面来讲,都是上乘的,文本校对精细,缺字的解决也比较完善。如,《四部丛刊》是用造字和图像字配合,直接显示在文本中;《大正藏》则全部制作成图像字,而在文本中则以组字形式(按一定规则组成)表达。这样在纯文本中缺字完全以组字形式出现,人们据此可构思出此字字形来,而在超文本或Word文本中,则可通过点击组字部分,连结显示该图像字。再有《四部丛刊》中的原书图像也是相当清晰的。
  再从技术表现手段方面来讲,这两件作品也都相当优秀。《四部丛刊》设计了相当美观的浏览界面,电子文本的页面设计得与原书的页面基本一样,每页的行数和每行的字数,乃至双行小注,都一一对应。(按,这里说“基本一样”是以比较苛刻的要求来说的,因为虽说每一页面都能做到行数和每行的字数完全对应,但其中有相当多的页面在处理上还比较粗糙,字体大小变换不当,致使每行字填不满本行的空间,损害了页面的统一与美观)而且,电子文本页与原书图像页之间的连接,一点转换,非常方便,使得使用者在对电子文本产生疑问时,马上就可以调出原书加以核对。这对供研究使用,特别是古籍校勘使用的电子资料库来说,是一项非常重要的内容和功能。本书的检索功能也是相当完美的,书名、作者名、任意字词的检索都极其方便,而且可以快速将检索条目提列出来,给出统计数,并当点击某一条目时,又能迅速连接显示该条目所在之页面。然本书在技术上最大的突破点,是在它的超平台通用性,它可以在英文Windows、繁体中文Windows和简体中文Windows系统上通用,更关键的通用性是它突破了由于输入简、繁体(无论是GBK码繁体还是BTG5码繁体)汉字之间的不相容给检索带来的麻烦,实现了无论输入何种内码繁、简体汉字,它都能自动识别、转换,检索出你所要求的字词条目。目前,不同内码的汉文资料库在不同汉字系统中的显示问题,相对来讲已经不是很大的问题了。然在检索方面用不同内码输入,造成不同汉字系统之间无法实现检索,则还是一个严重的问题。所以《四部丛刊》系统在这方面的突破,把不同内码的汉文资料库在不同汉字系统中的应用,变成了现实。
  《大正藏》在技术表现方面,根据不同使用者的不同需要,通过几种不同层次的电子文本版本来予以体现。它总共提供了6套版本,即:XML版(纯文字档,XML标记)、普及版(一般文字档)、APP版(“行末句点”格式之文字档)、RTF版(RichText格式,可在WORD或是WORDPAD中浏览)、HTMLHe1p版(具有目录、全文检索多功能)、HTML版(可以直接使用网络浏览器阅读)。使用者可以根据自己的需要来选择,或再一次开发。它在技术上的处理是考虑得非常细致的。如它在普及版和APP版中,在每行行首都注明了册数、经文编号、页码、栏位、行数等信息,方便读者复核。又如,在HTMLHe1p版中,页面处理上的特点是,首先以大正藏的栏位为基准,每一栏处理成一页显示,以清眉目;其次为消除使用者来回翻页的麻烦与检索的方便,设计者将每页的最后二行重现在下一页的前面,并以蓝色字体显示。同时,这一版本还提供了线上佛学词典(两部),极为方便周到。
  从以上所列的成果看,汉文化电子资料库的技术表现手段和形式,已经基本成熟了,有些还达到了相当高的水平。当然如果要精益求精,则还有许多技术手段有待提高和完善。从总体上来讲,我认为,目前汉字古文献的电子化工作中迫切需要解决的有三个问题:一是字库(字符集)问题,这是一个极大的专门问题,本文暂且不谈。二是文本的准确性和可靠性问题,什么时候我们的古籍电子文本也能在学术论著中被引用,成为一个被承认的版本,这才能真正体现出电子资料库存在的价值和意义。三是资料库的分类分层次的问题,这也是本文要着重讨论的问题。
随机推荐
一个思想的生活史分析——以汪士铎歧视妇女的思想为例
评所谓“国学热”
日本耻感文化论——文化中的历史与历史中的文化
敦煌吐鲁番研究的典范——季羡林《吐火罗文弥勒会见记译释》读后
现代创新必须和历史传统相统一——探析费正清的东亚与中国发展观
文化研究的“去经典化”
如何拯救学术本身——关于新启蒙主义及道德论争的几点感想
“文化”概念的破学科效应
秦汉史与西方汉学
不可救药的误读——读《留东外史》

设为首页 | 关于我们 | 广告联系 | 友情链接 | 版权申明

Copyright 2009-2014 All Right Reserved [粤ICP备05100058号-11]