CBDB数据库唐代地名更新工作进入尾声

邢云

复旦大学

Tang Dynasty Placename Updates (唐代地名信息更新)

Yun Xing

Fudan University

PDF SLIDES          MP3 AUDIO RECORDING

 

2018年11月9日,CBDB工作组十一月工作讨论会在哈佛大学CGIS北楼召开。本次讨论会由项目管理委员会主席包弼德(Peter K. Bol)及项目负责人贝明远(Lex Berman)主持,来自复旦大学的访问学者邢云(Xing Yun)向大家介绍了CBDB唐代地名的信息更新工作进展。

20181109-1_xingyun

CBDB目前已有2500多条唐代地名数据,本次更新工作将把近年出版的《中国行政区划通史·唐代卷》中的地名信息增补到CBDB中,以完善CBDB数据库唐代地名部分。

更新工作以计算机编程与人工检查相结合的方式进行,主要通过预处理、筛选及导入三个环节实现增补目标。

在预处理环节中,通过正则表达式及python程序,将原始文本中的地名、级别、所属关系及年代信息抽取为数据表格形式 ,转换数据表格使其具有与CBDB地名表相似的结构形式。

在筛选环节中,通过python程序,将从书中获取的6083条记录与CBDB唐代2564条地名数据的名称、起止年代、隶属关系进行逐一比对,根据比较结果分类打上标签;同时人工检查6083条对应关系,去除647条无效对比后,利用程序对5436条有效比对进行精确筛选分类,并再次进行人工查验。

在导入环节中,通过python与人工检查相结合的方式补充并确认所有地名地理坐标信息,最后按照筛选环节的分类结果分别制定各类地名合理的增补入库策略,检查无误后对CBDB数据库进行更新。

 

20181109-2_guo_tang_cbdb_match

 

此项工作目前已经进入尾声,项目组计划在总结唐代地名更新工作经验的基础上,建立数据库信息增补的标准化工作流程,以便后续进行其他朝代及其他类项信息的更新完善。

在本次讨论会上,工作组还对数据库更新的两种模式——人工与计算机编程的效率及适用性进行了讨论,并对CBDB数据库宋代数据完善方式、明清社会关系资料的发掘,及数据库未来的交互式开发模式进行了探讨。

(纪要整理人 骆文 CBDB访问学者)

20181109-3-2_xingyun