CBDB 开源社区志愿者张璇访谈录

 

CBDB

 

       202299日,哈佛大学中国历代人物传记资料库(China Biographical Database project, 简称CBDB)项目对CBDB开源社区志愿者、Bloomberg L.P. 高级工程师张璇女士进行了主题为历史学https://sites.harvard.edu/digitalchina与计算机技术融合的访谈。张璇从2021年起作为志愿者参与CBDB项目工作,参与的子项目包括《宋史·张商英传》的信息众包录入https://projects.iq.harvard.edu/cbdb/cbdb-crowdsourcing-projects,明代书信计划https://github.com/cbdb-project/crowdsource-webapp 开源平台的维护,取消基于BERTLSTM的地方志职官志自动标记模型字数限制的机制设计 https://github.com/cbdb-project/LGtagging_LSTM. 除此之外,由张璇主导建设的子项目有中国古代重要实体(官名、地名、人名、入仕方法、亲属关系类型等)词表 https://github.com/cbdb-project/named-entities-for-premodern-chinese-history-research, 以及将数据从LoGaRT 后台源文件转化为Markus输入文件工具的建设 https://github.com/cbdb-project/LoGaRT2Markus.

       访谈首先讨论了人文学者在数字人文研究过程中学习计算机编程语言的作用和可行性。张璇介绍了自己在COVID 大流行期间举办面向人文爱好者的诗词风格探索在线工作坊。工作坊的举办者教授大家利用 Google Colaboratory 平台通过预先为大家准备的 Python 示例代码对诗词作品中高频词出现的位置和次数进行分析(图一),对计算结果进行词云可视化,以此探究写作风格。

wang anshi word cloud

图一 王安石诗词中的高频词

      另一个案例是张璇基于CBDB别名数据建设的历史人物别名查询工具 https://github.com/MerakDipper/CBDB-Examples. 同样也是基于Colaboratory Python 示例代码。(图二)


CBDB

 

图二 历史人物别名查询工具

 

       在这个项目的基础上,熟悉 Python 编程语法的使用者还可以根据自己的需求分析各历史时期人物姓名用词的风格变化。在这两个案例中,不少没有编程基础的历史爱好者顺利地在示例代码的基础上实现了使用 Python 对自己感兴趣问题的探索。

        对于人文学科学者学习计算机语言的可行性,张璇认为,语法和英语相似的编程语言 Python; 部署和调试都相当直观的开发环境Jupyter Notebook;以及一些接口可以直接输出结果、功能命名符合直觉的Python包较容易掌握。将它们运用于人文科学研究相对容易。但大多数机器学习框架需要使用对直觉不太直观的方式编程,且需要线性代数、统计等前置知识,对人文学者比较有难度。

       在谈及学术计划如何让大众参与以及与大众互动的问题时,讨论了CBDB众包项目,该项目使来自全世界对中国古代史感兴趣的学者和爱好者都有机会参与到CBDB项目建设中。近年来,中国历代人物传记资料库一项重要的工作目标是使CBDB更加大众化。CBDB众包项目希望大家不只是CBDB数据的使用者,同时也是让CBDB更符合自己需要的建设者。结合CBDB受众需求和自身的经历,张璇提出学术项目可以针对潜在有兴趣的人群在特定社区内宣传,让更多人参与并受益于人文项目的学术成果。

       近年数字人文快速发展,帮助更多人文学者学习并运用计算机技术探索学术问题,是数字人文工作坊的重要功能。在谈及数字人文工作坊的组织形式与教学方法时,张璇认为工作坊需要培养受众的兴趣,进而使人文学者建立起对数字人文技术使用和探索的热情。在工作坊的设计中,可视化是最重要的解释和呈现手段。CBDB资深项目经理王宏甦结合20226月费正清研究中心与CBDB项目合作举办的Digital China 工作坊https://sites.harvard.edu/digitalchina, https://fairbank.fas.harvard.edu/research/blog/lessons-from-the-first-digital-china-bootcamp 实践提出,完成阶段性学习之后,工作坊参与者尽早转变为教学者对掌握学习的内容帮助非常大。张璇也举出了自己工作中类似的例子赞同学习者转变为教学者对掌握知识和技术的帮助。

CBDB

 

 

执笔:于昊

编辑:王宏甦

摄影:付小康