梁晨「量化歷史數據庫構建與研究──李-康研究團隊介紹」演講紀要

 

梁晨「量化歷史數據庫構建與研究──-康研究團隊介紹」演講紀要

徐力恆哈佛大學「中國歷代人物傳記資料庫」項目博士後研究員

tsui01@fas.harvard.edu

201611

 

梁晨是南京大學歷史學院暨中國民國史研究中心副教授,也是香港科技大學「李-康(Lee-Campbell李中清、康文林)研究團隊」的成員。梁教授現於哈佛大學費正清中國研究中心訪問,為期一年。「中國歷代人物傳記資料庫」項目趁此機會,於2016年10月14日邀得梁教授發表題為「量化歷史數據庫構建與研究──李-康研究團隊介紹」的演講,並與項目組成員交流,討論合作計劃。

活動在CBDB項目經理王宏甦的主持下開始。梁教授首先追溯李-康研究團隊的形成和特點。團隊主管李中清教授於1980年代聽聞遼寧省檔案館藏有一批旗人戶口冊,認識到其史料價值,於是開始摸索構建數據庫,開展尤其是在人口史方面的量化研究,逐漸得到不同學者的加入。該團隊長期以來進行的工作是按照史料的特點出發。過去,他們是基於人口和教育檔案構建量化數據庫,用於研究;後來,重點轉移到近幾年處理清代《縉紳錄》記載的官員群體。這種歷程反映了不斷發現可資利用的史料,並根據其特點轉移研究重點的特色。

NA

梁教授也介紹了李-康團隊的人員構成,以及平時協作研究的模式。他指出科技的進步使得分散各地的團隊成員間的協同合作成為可能。團隊內部既定期進行網絡視頻會議,又集體構思、撰寫論文。他認為,這種合作研究的模式代表了進行歷史研究的新方式。此外,團隊的成員一直包括可靠、高效的手動輸入人員,確保數據質量。他們正以每天一萬條的速度輸入《縉紳錄》材料。

李-康團隊所建立的數據庫不是文獻型的,而且史料的記錄相對格式化,所以使用兼容性高的微軟Excel軟件來錄入和保存,使得統計軟件利用其中數據也相對方便。梁教授分享說,建立數據庫之後進行的輔助性工作往往是非常耗費精力的,例如在研究民國大學生來源時,在考證各中學的具體建置情況就需要耗費很大精力。

梁教授演講的另一重點是李-康團隊近年的研究計劃——對清代《縉紳錄》的數據化和研究工作。他們全面調查了中外各大圖書館的《縉紳錄》版本和館藏,制訂了系統地對《縉紳錄》文獻進行電子化的計劃。錄入工作已經進行中,預期全部完成之後,《縉紳錄》量化數據庫的數據規模會達到四、五百萬條,成為研究清史、社會史等課題的重要資料。

梁教授還提出李-康團隊和CBDB項目合作的幾個可能方向。首先,是唐代到清代教育精英的地域分佈和歷史演變。由於兩個項目都搜集了極大量中國歷史上精英人物的資料,應該利用這些前所未有的數據進行長時段的歷史分析。第二,是清代進士的數據整合和分析。《明清進士題名錄索引》已經納入CBDB之中,並且項目正在處理清代的硃卷,挖掘其人物數據,所以這些數據如能和《縉紳錄》的人物進行連接,有望重現清代進士群體的歷史面貌。第三,是清代科舉家族和民國大學生群體的連接分析。由於李-康團隊已經錄入了大量民國大學生學籍卡的資料,所以可以和CBDB中清代人物進行深入比較,分析跨時代的家族流轉情況,探索社會轉變下精英家族的變動幅度。第四,是暫名《互聯網時代的中國歷史:教學與研究導引》一書的共同編寫。近年數字人文、大數據等概念在學界有比較大的影響,兩個研究團隊合作編寫教材,分享他們在教學和研究上的經驗,能起培育後進的作用。

最後,梁教授和CBDB項目成員進行交流。李-康團隊最初和CBDB團隊建立聯繫,是在2016年1月於北京舉辦的「數位人文新動向——中國歷代人物傳記資料庫暨Digging into Data工作坊」。雙方在工作坊上首次見面商討合作計劃,並達成了許多共識。雙方團隊在未來還會有更多交流與合作。除本次演講外,梁晨教授駐訪哈佛期間將和CBDB成員進行更多交流。