CBDB 2021-2022 年度访问学者工作报告会纪要

        2022年7月29日下午,中国历代人物传记资料库项目(CBDB)与费正清中国研究中心在CGIS Knafel K350 举行了CBDB 2021-2022年度访问学者工作报告会。

        浙江大学谷玲玲博士以《明清女性作者信息整理与研究》为题目,介绍了对《闺海吟》一书所收录的每位女性的姓名、亲属关系、社会关系和著作等内容的信息提取过程。由于《闺海吟》一书,收录了8600多位女性作者的传记和作品信息,共120多万字,是迄今为止收录古代才女人数最多的一部著作。在信息提取的基础上将《闺海吟》的信息与CBDB、明清妇女著作库进行人物匹配,同时从多个维度分析了《闺海吟》和CBDB中女性的数据。

CBDB

报告人:谷玲玲    拍摄者:陈士银

       苏州科技大学周扬波教授在报告《宋代传记资料数据挖掘——以诗社和儿童为例》中,介绍了为CBDB补充的两批宋代传记资料内容:一是包括400多名诗人在内的98个诗社名单,二是根据现成年谱提取的400多名儿童的教育经历。其中部分数据在CBDB中已有现成,但不少仍存在问题需要纠正。其他数据都是通过输入系统,逐个或批量补充。这些数据可以通过GephiQGIS两种软件可视化,是宋代士人社会网络分析的重要素材。

CBDB

报告人:周扬波    拍摄者:谷玲玲

        成都信息工程大学孙莎岚教授在报告《关于<明画录>文本数据的整理》中介绍了基于数据完备、内容系统、体例规整的特点,提取《明画录》作为明代画家人物信息数据挖掘的基础性文本的过程。在这一过程中,充分运用了CBDB ACCESS进行人物查找,可更为准备地进行人物消歧;同时结合基本古籍库的衍生文献与CNKI、读秀的研究成果以甄别原始文献的错误以及数字化文本的错误。目前已获取828位来自《明画录》的画家,941条别名信息,634条传记地址信息,以及他们之间的245条师承社会网络关系,这批画家数据应该是CBDB对明代画家最系统的一次补充。在上述数据的基础上,运用QGIS分析对比宋明时期的画家聚集趋势,以及运用GEPHI分析明朝画家群体的师从关系,从而形成人物社会关系网络的可视化表达,进而从个体研究转向群像研究。

CBDB

报告人:孙莎岚    拍摄者:孔凡晶

       东北师范大学孔凡晶老师以《CBDB与哈佛燕京古籍珍善本的关联》为报告题目,介绍了三种方式开展CBDB与哈佛燕京古籍珍善本的关联,以补充CBDB中近两万条著述记录的作者信息及为CBDB收录更多的权威著述信息。“关联”主要从两个角度展开:燕京古籍珍善本作者信息与CBDB人物关联、燕京古籍珍善本书目信息与CBDB著述关联。具体方法包括:1、应用HOLLIS API提取古籍书目信息。原理为逐一提取CBDB人物主表BIOG_MAIN中姓名字段,与图书馆HOLLIS馆藏系统中书籍作者名匹配,进而提取匹配成功的书籍名称和HOLLIS ID,写入CBDB相应的数据表;2、利用哈佛燕京书单提取古籍书目信息。原理为设计书单作者名与CBDB人物姓名匹配算法,将匹配成功的书目信息,写入CBDB相应的数据表;3、利用FUZZYLOOKUP(模糊匹配算法)提取中华书局提供的哈佛燕京古籍书目信息。分别设置书名和作者名的匹配度,按匹配度从高到低排序,并人工消歧。

CBDB

报告人:孔凡晶    拍摄者:周扬波   

       浙江大学钱礼翔博士以《营造明人的文集世界——明代文集数据整理与研究》为题目,首先介绍了明代文集数据的来源与量级;随后介绍了明代文集数据的内容与评估;最后介绍了明代文集作者、书名、卷数等信息处理与明代文集数字化研究。在上述过程中运用了GIS、计量统计、社会关系网络等方法,并得出五点结论:第一,弄清了明代的畅销作家;第二,从长尾理论分析了冷门作家;第三、弄清了卷数刻印最多的作家是谁,要花多少钱;第四,弄清了明代哪些地方的作家最多;第五,梳理了文集出版与明代出版史关系。

CBDB

 报告人:钱礼翔    拍摄者:于昊   

       北京大学黄珊蕙博士在报告《地方志中的数据挖掘与分析——以江西通志中的职官志与驿站为例》中,介绍了职官志数据挖掘和分析,探索性的驿站数据提取、修正和分析以及结论与潜在研究三个部分。首先,黄珊蕙博士介绍利用爱如生与LoGart地方志分析平台,处理了雍正版的《江西通志》四十六至四十八章5100条从汉代至清代的职官数据,包括姓名、别名、官职、籍贯、入仕等信息。其次以江西通志的邮驿章节作为分析文本,对驿站数据进行提取、修正和分析;最后通过对《江西通志》中的数据挖掘与分析,黄珊蕙博士认为通过混合方法进行补充性分析会是最高效可靠的。而关于在此基础上的潜在研究,则可以考察通过古今地名比较,对铺驿名称进行模糊检索匹配,引入坡度等其他自然要素信息进行拟合,进一步提升精准度。同时可以进行空间网络分析与空间相关性分析,以更好地检验各因子的影响因素程度。

CBDB

  报告人:黄珊蕙    拍摄者:孙莎岚  

       浙江大学俞沁博士以《中国历代人物传记数据库(CBDB)指数年(index year)计算管见》为题目,介绍了中国历代人物传记数据库(CBDB)所首创的“指数年(index year)”时间概念,创造性地以一个估算的具体年份数值替代历史人物模糊的年代范围,借此将更多人物纳入到数据库时间维度的计算之中。指数年被定义为人物生年,或凭借“20条规则”(20 rules)结合本人及其亲属的重要时间点推算而来的人物生年。“20条规则”基于统计数据库内大量已知确切时间信息归纳而来,其优先级以降序排列,因而具有理论上的可靠性,以此为据编写程序批计算了262千余个人物的指数年。对抽取的样本数据结合史料调查的结果证明,应用优先级较低的规则比多次循环利用推算的接果更易出错。因此,存在多种可能的计算路径时,应当尽量选择优先级较高的计算规则以减少误差,并设立核查点,一旦计算结果越过了预设的差值界限便放弃以此数据为依据计算他人时间信息,以遏制错误在数据库中扩散。无论在历史研究还是历史数据库的建设中,时间信息始终是时空分析最重要的尺度。

CBDB

报告人:俞沁    拍摄者:孔凡晶

       复旦大学于昊博士以《CBDB地名考订》为题,介绍了作为CBDB数据库所收录人物信息中的重要内容——籍贯地信息,可利用GIS将其可视化的表现在地图上。但对于明代人物数据信息而言,由于存在军户现象,因此考订明代卫所及其他军事机构的地理位置成为完善CBDB数据库,尤其是CBDB地理化表现的重要内容。报告人通过配准中国历史地图集中的相关地图、考订明代军事机构现今的地理位置等方式,考订CBDB明代卫所及其他军事机构位置信息,并在此基础上对历史时期城址、军事防御设施和道路的延续性进行思考。

CBDB

报告人:于昊    拍摄者:陈雅飞

       首都师范大学李杨博士以《基于CBDB的基督教来华传教士的数据探索》为题目,首先介绍了关于数据库人物信息,李杨博士认为CBDB的主要目标不是做人名辞典,而是做人物关系。因此从人物个体角度看,人物信息可能是不充分的;但从群体角度看,正是名不见经传的传教士群体,还原了更接近于当时历史情境的社会网络,使研究者可以发现那些与我们直觉和惯常认知不同的问题,真正回到历史现场,而不是去不断地重复经典人物信息。其次,由于CBDB刚刚开始积累传教士数据,因此对基督教中国这一领域的相关数据平台做了调研,并将之总结成三类:数字图书馆型数据库、叙事导向型数据库、多重关系型数据库。最后在数据应用角度,从数据透视和地理信息可视化方面做出探索。

CBDB

报告人:李杨    拍摄者:钱礼翔

       北京大学康立坤博士以《<经义考>“三礼”数据》为报告题目,介绍《经义考》是一部中国经学文献的专科目录,首录御注、敕撰的经学书籍 3卷,再录经学文献27297卷。由于其文本体例规范,易于数据挖掘。《经义考》“三礼”部分中有人物传记信息的人物多为名不见经传的士人,对这部分数据的提取有益于补全CBDB数据库人物传记数据。在为CBDB补全数据之余,通过数据分析还发现了两个有趣的现象。其中,数据来源的结果显示朱彝尊征引最频繁的文献来源是黄虞稷、《闽书》与陆元辅,其中黄虞稷与陆元辅均为朱彝尊在翰林院的同僚,好友,这一数据验证了这一史实。再将数据导入QGIS中进行分析,得到了《经义考》“三礼”中有人物传记信息的士人的祖籍排在第一位的为永嘉。朱彝尊于康熙元年曾避难于永嘉,对永嘉颇有感情,曾作有关永嘉诗词六十余首,这一现象或可表明朱彝尊在辑选著作及人物传记信息时的倾向。

CBDB

报告人:康立坤    拍摄者:陈雅飞

       参加本次报告会讨论的还有哈佛大学Peter K. Bol (包弼德)教授,CBDB项目经理王宏甦、费正清研究中心研究员鄧國亮,以及哈佛大学访问学者马敏教授、何朝晖教授、刘凌波教授、叶桦教授。

 

编辑:于昊

审校:王宏甦

演讲内容部分来自报告人所各自撰写之摘要

 

附件:

1、CBDB访问学者工作报告会议程

2、孙莎岚_关于《明画录》文本数据的整理(幻灯片)

3、孔凡晶_CBDB与哈佛燕京古籍珍善本的关联(幻灯片)

4、李杨_基于CBDB的基督教来华传教士的数据探索(幻灯片)

 

cbdb_visiting_scholars_report_session.pdf420 KB
孙莎岚_关于《明画录》文本数据的整理.pptx4.35 MB
孔凡晶_CBDB与哈佛燕京古籍珍善本的关联.pptx17.9 MB
李杨_基于CBDB的基督教来华传教士的数据探索.pptx4.4 MB