2023

 

CBDB 2022-2023 年度访问学者工作报告会纪要

 

2023106日是2022-2023年度中国历代人物传记资料库项目(CBDB)报告会的日子。作为一年一度的传统,今年有10位学者在CGS Knafel K354进行了报告。

议程:

https://projects.iq.harvard.edu/sites/projects.iq.harvard.edu/files/cbdb...

报告人:陈钰琪 摄影:熊恺妮

 

来自北京大学的博士生陈钰琪以题为 《过去世界的地理编码 》的报告拉开了系列讲座的序幕。她提到,年代学帮助历史学家在时间长河中航行,而历史地理学则将事件与对象锚定在广阔的地景中——从战争遗址、族群和封国的迁徙路綫到人物的出生地。以CHGIS爲代表的历史地理数据库已在这一领域取得重大进展,但仍有大量宝贵的历史地理信息散落于繁杂的文本之中。尤其是早期中国的地理数据,大部分仍未数字化。如今,借助大型语言模型的语义理解能力,从自然语言文本中批量提取结构化的历史地名幷对其进行地理编码已经成爲一种可行的尝试。利用 ChatGPT,钰琪从早期中国历史地理的工具书中提取了自西周至春秋战国时期近千个地名,幷将其编码爲现代地理坐标,编制了CBDB首份先秦地名表。

PPT: https://projects.iq.harvard.edu/sites/projects.iq.harvard.edu/files/cbdb...

报告人:熊恺妮 摄影:纪凤仪

 

来自湖北教育学院的熊恺妮教授以《从OCR到数据结构化------湖北文人总集的数据处理与分析》为题目,介绍了她关于湖北诗词编纂的项目。首先熊教授介绍了她在CBDB的工作进度:《湖北诗徵传略》基本完成数据处理,处于预录入阶段;《湖北文徵》处于消歧和coding阶段;《汉南诗约》完成OCR识别。其次她向大家展示并评估不同OCR软件(ABBYYBAIDU API,台湾中央院,古籍·酷)的识别效果,以及根据数据结构化处理的不同方法、耗时以及识别效率如何选取合适的OCR工具。最后基于《湖北诗徵传略》的数据,熊教授进行了时空分析向大家分享了她的阶段性成果。

PPT: https://projects.iq.harvard.edu/sites/projects.iq.harvard.edu/files/cbdb...

报告人:李威乐 摄影:熊恺妮

 

 

浙江大学博士生李威乐以《“全宋文“中墓志数据抓取及处理的前期工作方法》为题目, 介绍了他在CBDB的工作主要致力于《全宋文》墓志数据的抓取。报告的第一部分介绍了 本报告首先介绍《全宋文》和“墓志”等相关概念。在前人对“全宋文”中墓志的提取与编号的基础上,威乐先用正则表达式抓取墓主的信息,再评估CBDB系统内墓主信息是否完善。在确认墓主信息完善的前提下,他进一步用正则表达式抓取女性亲属、男性亲属、子女亲属等亲属信息。其中又包括姓名、居住地、亲属类型、官职、入仕信息、亲属的亲属等详细信息。目前,男性亲属信息的抓取正在进行中。

PPT: https://projects.iq.harvard.edu/sites/projects.iq.harvard.edu/files/cbdb...

报告人:纪凤仪 摄影:熊恺妮

 

 

北京大学博士生纪凤仪在报告《基于明代游记文本的数据挖掘与分析》中介绍了她如何利用已有的游记和特征工程原理,确定了关键的关键词,并制定了正则表达式模式。这有助于在地方志文本抓取更多游记文本,同时获取作者信息与地点信息,幷进行人工检验。在进行游记文本标点与命名实体识别时,凤仪还使用了自然语言处理的相关技术。此外,她还使用正则表达式来查找补充特定的共同旅行者信息,并建立旅伴社交网络。她所构建的游侣社会网络的构建是对CBDB数据的补充。

 

报告人:刘建国 摄影:李威乐

 

来自河南科技大学的刘建国教授以《基于CBDB的来华遣使会传教士数据整理与研究》为题,介绍了他基于CBDB输入系统的来华遣使会传教士数据直接录入的整理与其在华活动的考述。刘教授的数据录入整理以来华遣使会传教士JVAN DEN BRANDT的法文原版"LES LAZARISTERS EN CHINE (1697—1935) "及其汉语翻译版本《1697—1935年在华遣使会士列传》(耿升译)爲主要参考资料。基于CBDB的来华遣使会传教士批量数据,刘教授发掘了这些传教士在华活动的一些总体特徵:虽然他们在中国的活动区域非常广泛,但在京、津、冀、沪和宁波地区的力量最强,活动最频繁;入华遣使会士非常注重在中国各地的原住民中培养高级神职人员(司铎);遣使会的宗旨是向乡间贫苦民衆派遣布道使者、在贫穷和偏僻地区创建修院,由于生活和工作条件较差,寿命低于50岁的遣使会士占有很大比例。同时,遣使会士在华的墓地主要分布在北京的栅栏和正福寺墓地,河北正定府的柏棠墓地,宁波的大方井与江北墓地,四川的凤凰山墓地和武昌的红山墓地等。

 

 

报告人:向帆 摄影:李威乐

 

清华大学向帆教授以 《聆听石头:从雕刻者到采石者》 为题,介绍了她在CBDB工作的阶段进展。作爲一个数字视觉设计者,向教授提到在CBDB学习数据库建设可能有点像雕塑家野口勇来到在筑波采石场,他说:“要聆听石头。" 因此,她的本次报告就好比是两个雕塑作品的故事,一个是雕塑家完成后的回溯,另一个是刚刚开始采石的体验。在第一个故事中,向教授回溯了中国古代家族森林的可视化,那些独特的形态爲公衆”看见历史“提供了可能;第二个故事则关于向教授刚刚开始的苏州园林人物数据库的建设所遇到的问题和设想。虽然彙报的题目关于角色转变,彙报的核心是:如何描绘关係。

 

报告人:张玮 摄影:熊恺妮

 

 

浙江大学博士生张玮以《解锁潜能:当可视分析遇上CBDB》为题,探討可視分析(VA)在數位人文(DH)領域的重要性以及其與中國傳記數據庫(CBDB)的深度融合。可视分析的目标是支持从大型数据库中发现知识并发展研究假设。在此背景下,各学科汇聚在一起,追求共同的研究问题或目标。张玮的报告分为了三个部分。在第一部分:CBDB 数据可视化中,张玮分享了她在数字人文可视化项目中的经验,重点介绍了如何赋能基于CBDB的历史研究。在第二部分:CBDB 数据品质控制,她深入探讨了为 CBDB设计的数据品质控制方案,建立了规则以确保数据的准确性和一致性。在最后一部分:CBDB 数据融合中,张玮探讨了如何从中国传统绘画中提取数据,用以构建绘画历史数据库,以丰富大家对历史的理解。

 

 

报告人:姜勇 摄影:李威乐

 

 

浙江工商大学的姜勇教授介绍了他的项目《浙商群体传记资料的编撰与研究》。一部近代史,一半浙江人。浙江人在中国近代史上的地位非常特殊。俗语说:“广东人革命,湖南人流血,江浙人出钱。”显而易见,在这个时期,浙江商人群体崭露头角,在历史舞台上发挥了积极作用。在“实业救国”思潮和五口通商的影响下,浙江商人群体抓住了历史机遇。他们在中国的工商领域取得了令人瞩目的成就,对近现代中国産生了积极影响。但是,关于近代商人的传记材料较爲分散,而且形式多样,数据提取相对而言更爲複杂。姜教授的项目先后利用ChatGpt3.54.0等工具,以及正则表达式对这些多样化的传记材料进行分析和数据提取。力争较爲全面的展示浙江商人群体兴起的历史背景、过程,从事的业务领域、经商地域、经营范围及其亲属关係、社交网络、社会组织等。

 


 

报告人:王依艺 摄影:熊恺妮

 

浙江大学博士生王依艺发表了题为 《与ChatGPT互动:“清秘述闻”的数据挖掘与处理》的报告。她解释说,《清秘述闻》及其两部续书系记述清代科举考试制度的著作,系统性地记录了顺治二年至光绪三十年间一百十三科会试、乡试全部主考、同考官以及各省学政的姓名、籍贯、科第出身。此外,它还包括了殿试三元和各省乡试的解元姓名、籍贯,以及各科会试和乡试的题目。在研究过程中,yiyi首先运用正则表达式批量撷取《清秘述闻》中考官与考生的传记类信息,将其从规律性的文本转换爲结构化、标准化编码的数据表格。其次,采用数字人文的方法解决数据消歧的问题:设定逻辑规则,利用《明清进士题名碑录》数据进行人物入仕信息的消歧;对话ChatGPT以编写满足特定需求的代码,例如批量从维基百科中抓取人物信息、文本分词(兼用基于词典与2-gram方案)以匹配信息点、自动查找匹配近似文本(相比Fuzzylookup更能满足对比近似文本的需求)等,以解决各类消歧问题。Yiyi认爲ChatGPT的出现极大地降低了研究者们在数字技术应用于人文学科的门槛和成本,它使人文学者独立处理庞杂且琐碎的文本数据成爲可能。在结尾,yiyi提到在未来,经过整理和消歧的数据将用于进一步的地方志数据挖掘,幷进行计量统计以及建立师生关係网络等分析,以深入研究相关主题。

 

报告人:韩玉凤 摄影:李威乐

 

来自清华大学博士生韩玉凤发表了题为《“全宋诗”社会网络分析 》的报告。她的项目旨在进行《全宋诗》人物社会网路分析,以深化对宋代诗人社会关係网的理解。她的主要方向是《全宋诗》的作者信息和诗题中的人物信息。在本次汇报中,玉凤的核心主要围绕《全宋诗》作者消歧工作展开。具体工作涉及多个环节,包括整合和分析《全宋诗作者小传》数据,处理《全宋诗》与CBDB数据库匹配或不匹配的人物数据,编写《全宋诗》PDF分页核查代码及进行人工校对等。这些工作旨在打造一套完整、可靠的数据库。最后,玉凤展示了使用上述数据构建出的一个较为精准的宋代诗人社会网络,并阐述了她的进一步分析。

在公开讨论环节,哈佛大学Peter K. Bol (包弼德)教授进行了精彩的总结,并对发言者的相似性进行了评论。其他参会者和访问学者也提出了宝贵意见。整个报告会由CBDB高级项目经理王宏甦先生和费正清中国研究中心研究员邓国亮博士主持。

 

 

编辑:肖文昕

 

审稿人: 王宏甦

 

演讲内容部分来自报告人各自撰写之摘要