数据分析和中国历代人物传记资料库(Python and CBDB)

                              CBDB Seminar

                            November, 22, 2019

 

       2019年11月22日,CBDB2019届访问学者——来自北京大学信息管理系的严承希博士带来了题为“数据挖掘和中国历代人物传记资料库”的报告,旨在指导大家更好地运用计算机手段在CBDB数据库上作文本挖掘与处理,完善和推进相关研究。

       由于这是一场面对文史哲专业的讲座,大部分在座的听众对数据挖掘和编程十分陌生,甚至从未有过接触。所以在一开始,严承希博士就细致耐心地向大家介绍了Python的基本理念和流程:安装与配置——包管理——变量与运算——条件与循环——函数与模块——正则表达式。并介绍了学界相关研究的最新进展,以及相关应用Jupyter。随后大家在他的指导下成功安装了软件,并跟着严承希博士开始尝试初步的应用。在程序运行中,严承希博士详细介绍了几个常用的公式和其对应含义,如“if”“in”“and”等,以及如何用表达式提取学术研究中需要的数据库文献的信息。以CBDB数据库为例,运用Jupyter将CBDB导入后,可以运用拟定好的程序批量、快速地获取文史学者在研究中所需要的各类要素信息,并对其进行分析,如面对唐代墓志铭文献,在完成脚本化处理以后,如果以数据挖掘的角度介入,可以批量识别出墓志铭中出现的三种信息要素:人名、官职和地点,并找出他们之中的联系。同时,面对社交网络分析,可以在CBDB中导入某个人的全部社会关系,通过Python来计算、展现他们的社交关系远近,如:A是通过几个中间人而和B产生联系的,A和B两人有什么共同的社会关系,和A交往最密切的人是谁?这些都对文史工作者研究古代文人的文学交游、师承关系和文学谱系有着十分重要的帮助。

       此外,为了让大家以更简单地方式掌握社交网络分析的相关应用,严承希博士还介绍了Rawgraphs应用,这是一款可以网页版使用的社交网络分析运用,操作更简单上手,在导入需要分析的文件后,可以选择应用程序中合适的模板作为模型,如波浪图、扇形图、网络图等,并根据自己的文件中内容的实际情况设定X坐标和Y坐标,调整模型的颜色、大小和比例,将其更好地呈现出来。

       严承希博士本月的讲座让在座的聽眾都产生了耳目一新的感觉,第一次接触数据挖掘的应用,大家上手的过程都比较慢,但是严承希博士十分耐心讲解,大家慢慢都能运算出一些简单地程序,对Python和Jupyter的运作有了初步的了解,相信在之后的学习和研究中,能够运用一些简单的数据挖掘方式介入自己的研究和CBDB的工作。

yanchengxi

       Writer: Huang Yimei

       Editor: Liu Yunou