台湾大学数位人文中心工作情况:涂丰恩讲座纪要

                                                                                            

                                                                                               肖奕

                                                                              (中国科学院文献情报中心)

 

       2017年5月15日,哈佛大学东亚系博士候选人涂丰恩为CBDB项目成员举办讲座,介绍其在台湾大学数位人文中心(前典藏中心)的工作情况。首先,涂丰恩介绍了台湾数字人文发展的背景。台湾政府在先前相关工作的基础上,于2008年实施“数位典藏与数位学习国家型科技计划”,该计划是把政府机关与学术机构的文化藏品与历史档案进行数字化。

        接着,涂丰恩就围绕中心所做的数字人文工作情况阐述了几个案例。首先是台湾的“台湾历史数位图书馆”,这个系统实现明清台湾行政档案数字化。但在系统建设过程中,相关机构对这项工作表达了一定程度的不满,为此,涂丰恩指出,在数字人文工作开展、数位典藏数据库建设过程中,负责这些工作的机构往往遇到版权认可等相关问题。然后,涂丰恩介绍中心建设的古契约文书资料,这批文书主要用于研究土地买卖的问题。文书所涉及的历史因素是,在日本统治时代,台湾总督府为了进行土地管理,到各地收集文书,以确定土地的所有权。这两项工作均为中心在2011年以前开展的。涂丰恩还介绍了中心所完成的台湾淡新档案资料系统建设工作。台湾历史数位图书馆可以呈现档案在台湾各个地区的分布情况。进一步,由档案反映的史实来看,在相当长的一段时间内,清朝政府对当时的台湾没有进行特别的治理,而林爽文事件的发生使中央关注台湾。   

        中心的另一个系统所建设的资料是契约文书,这些契约文书主要由当时的地方人员撰写而成,然后,涂丰恩介绍了契约文书的基本内容,包括契约交易的地点、金额、契约涉及相关人员,指出这个系统可以帮助学者研究契约文书如上下手契的关系。契约中的图往往蕴含丰富的历史故事,研究者可以利用这些图像开展相关研究。此外,研究者还能利用技术呈现上下手契的脉络;相较而言,明清档案的使用可以展示地方官员交流的方式,重现历史上政策讨论的脉络。

        接着,涂丰恩介绍中心相关成员所开展的关于《红楼梦》章回数量的实验。一名博士后研究员利用技术对数据库的相关资料进行统计和测验,以探求各章回在用词和写作风格方面的差异。这名博士后发现,“不敢言语”这四个字在《红楼梦》的前八十回只出现一次,而在后四十回出现很多次。涂博士认为,尽管这样的尝试并不能推翻学界已有对《红楼梦》的结论,但却是相当有意思的做法,提出可将类似的技术应用于评估包括台湾四大报纸的社论风格,或台湾历任总统讲话的用词变化等有趣尝试中。最后一个数据库案例为《清实录》。清朝当时设专人站在皇帝旁边的人记录上谕,史学界可利用技术来辨别资料,以反映不同皇帝的用语差异。

       随着中心相关工作介绍的结束,讲座的在场观众围绕涂丰恩所介绍的内容陷入热烈的讨论,对其中的例子提出了自己的疑问,涂均一一给予解答。在自由讨论环节结束后,涂丰恩介绍他在台湾大学数位人文中心工作的一些体会。第一,不同成员对历史资料的重要性抱持不同的态度,史学研究者所视为的相当重要的事情,中心的资讯工程系成员则未必认同;第二,跨学科领域合作非常重要。对于一些历史资料所呈现的现象,来自资工系的合作者会感到困惑,史学研究者只要进行初步观察就能了然于心。因此,参与数字人文研究的各方学者应多多交流,对资料有充分的了解。

       在讲座的最后,涂丰恩认为,图书馆界、人文学者、技术专家三方应发挥各自的优势,展开紧密合作。对于拥有技术专长的人员来说,学习和掌握人文学科领域知识是一件吃力的事情;相较而言,人文学科领域的学者在掌握技术的过程中则会相对感到轻松,这是因为工具的实现使得人文学者无需掌握精深的程序知识。对图书馆而言,在数字人文工作开展过程中,图书馆的重要角色在于获取数据资料,让更多感兴趣的用户从事数字人文研究。