Mapping and Geocoding Historical Chinese Placenames

袁钰莹 Yuying Yuan
北京大学 Peking University

Mapping and Geocoding Historical Chinese Placenames

PDF SLIDES          MP3 AUDIO RECORDING

 

2019年2月21日,CBDB工作组二月工作讨论会在哈佛大学CGIS北楼召开。本次讨论会由项目管理委员会主席包弼德(Peter K. Bol)及项目负责人贝明远(Lex Berman)主持,来自北京大学的访问学者袁钰莹(Yuying Yuan)向大家介绍了中国历史地图绘制和CBDB唐代地名地理编码的工作进展。

基于CHGIS V6的数据,1350年至1900年的50年间隔州县级行政地图已经绘制出来并发布在WorldMap网站上(http://worldmap.harvard.edu/maps/chgis)。

map sample

 

结合近年出版的《中国行政区划通史·唐代卷》中的地名信息和CBDB中已有的唐代地名数据,还有3250条唐代地名缺乏经纬度信息,需要进行查找补全。该项工作以计算机编程与人工处理相结合的方式进行,主要通过在TGAZ、DDBC(Dharma Drum Buddhist College)和高德地图中查找地名对应的经纬度信息,对匹配结果进行人工检查和判断,及正确数据结果导入三个环节实现经纬度的补全。

在地名经纬度查找环节中,通过正则表达式、python和网站API调用访问,将查询对象的地名、所属关系及年代信息作为判断条件进行查找匹配,并将查询结果和对应的原查询数据共同保存为数据表格形式。

就目前的初步查询匹配结果,TGAZ和DDBC数据库中均未找到经纬度的地名有1054条,和高德地图查询结果的对比正在处理中。之后会对匹配结果进行汇总并进行人工检查,判断其匹配结果的正确性,将正确结果增补进CBDB的数据库。

geocoding result

 

此项工作目前已经进入尾声,本次唐代地名地理编码工作的经验可以为建立数据库信息增补的标准化工作流程提供经验,以便后续进行其他朝代及其他信息的更新完善。

在本次讨论会上,工作组还对数据库数据录入和修正中可能遇到的文字编码问题、以及文本处理中python编程和正则表达式的使用进行了讨论。

(纪要整理人 袁钰莹 CGA访问学者)