CBDB访问学者工作报告会:《纪年便考》数据挖掘与明代书信计划

       2022年7月11日下午,中国历代人物传记资料库项目(CBDB)在CGIS Knafel K450举行了工作报告会。

jinianbiankao

mingdaishuxin

       在报告会中,首先由来自浙江大学的CBDB访问学者陈雅飞博士介绍《纪年便考》数据挖掘子项目。该项目数据挖掘材料是主要记录高丽朝后期及朝鲜朝的人物,成书于1897年的史料《纪年便考》。选择《纪年便考》是因其记载较为系统、结构规整。同时藏書閣项目(Jangseogak Digital)已将《纪年便考》原始文献整理为文本,且完成基本信息的标记和基础的消歧工作。这为我们的工作省去大量数据清理的时间。

CBDB

(摄影:康立坤)

       在处理数据过程中,陈雅飞介绍其所采用的主要技术方法包括利用Visual Studio Code、Markus和Gephi等软件进行处理分析,将文献中的人物姓名、字、号、性别、入仕方式、师承关系等信息进行提取和标准化,并在此基础上通过Gephi软件对人物社会网络关系进行可视化表达。

       陈雅飞最后总结,通过上述工作不仅为CBDB人物数据库补充了大量14至19世纪来自高丽朝、朝鲜朝的历史人物信息,同时由于获取了这些人物在元朝活动信息的记载,使得从人物身份转变角度观察两国间的政治互动成为可能。

       随后,来自扬州大学的CBDB访问学者陈士银教授介绍了CSA明代书信计划。该计划通过与台湾汉学研究中心合作,获得大量明代书信的元数据(metadata)。CBDB将这些元数据导入用于识别社会关系网络的众包平台CSA (Crowdsourcing System for Association Data ), 并启动CSA明代书信计划(Ming Letters Project)。据陈士银介绍,截止2022年6月,该计划已经收录1,650位明代人物,超过52,399封书信信息,另有约50,000封书信信息待收录。

       陈士银介绍该项目的工作思路主要包括辨别书信,完成编码;考订收信人,检查札记;补正人物,并将文字数字化等内容。并将研究成果与CBDB项目进行结合,增补CBDB中所缺失的人物信息。通过对明代书信资料的研究,丰富明代人物网络关系,并可通过特定的人物和书信对相关领域进行深入探索,发掘传统史料中缺失的信息。

CBDB

(摄影:孔凡晶)

       交流会最后,CBDB资深项目经理王宏甦对上述两项工作的意义补充道:《纪年便考》人物信息的发掘与研究,对从当时士人的视角记述人物关系,对推动地方社会研究具有重要意义;而明代书信计划项目的架构对世界其他书信网络研究具有开创和借鉴意义。在总结本次交流会的同时,王宏甦还介绍CBDB项目的常见的工作组织形式:主要包括人文专家组(进一步划分为复杂数据干预组与数据审核组)、数据挖掘工程组、数据科学开发组、开源社区开发组。王宏甦认为:对于数字人文项目而言,除了程序开发、数据建设等方面的内容外,更重要的是具有人文学科背景学者的判断和领导。同时也希望访问学者通过一年的访学,对相关技术方法及数字人文项目的建设与架构具有更加深入的了解。

 

附录:陈雅飞_《纪年便考》数据挖掘子项目报告幻灯片

 

作者:于昊

编辑:王宏甦

CBDB 紀年便攷기년편고 project.pptx7.98 MB