对中国古代文学和历史文献的文本分析： 刘昭麟教授哈佛-燕京图书馆讲座纪要

肖奕

中国科学院文献情报中心

2017年6月

2017年4月18日，国立政治大学教授、于哈佛大学访问CBDB项目进行研究的富布赖特学者刘眧麟在哈佛大学燕京图书馆作了题为“关于中国古代的文学和历史文献的文本分析”（Text Analysis for Literary and Historical Texts in Classical Chinese）的讲座，得到不少CBDB团队成员的参与。

刘昭麟教授首先介绍了对古代中国历史与文学著作进行文本分析的背景。他认为，数字化文本的日益普及，使研究者能够在搜索引擎的帮助下识别和研究多种来源渠道的资料，文本分析工具可帮助研究者考察文本内容。比如，研究者能够通过远程阅读（distant reading）的方式比较诗人写作风格，在多位诗人之间建立社交网络甚至比较诗中的意境。尽管研究者无法保证利用工具能提取必然有用的数据，但电子工具确实能够帮助他们减少耗费在从大型语料文本（如中国的地方志、《唐代墓志汇编》等）中提取传记信息上的时间与精力。接着，刘昭麟教授介绍了开展此次古代中国文学和历史文本分析工作的团队，团队成员包括哈佛大学的成员和来自台湾和中国大陆的学者和学生。

进一步，刘昭麟教授介绍了文本分析的多个应用方面，包括面向精读（close reading）用户界面的信息检索、基本统计分析、语义分析、信息提取（如命名实体、传记信息、关键论述）、情感分析、文体测定、语言分析、分类、主题建模等。而在此次讲座中，刘昭麟教授主要介绍面向近距离阅读用户界面的信息检索、文本的基本统计分析、中国古代诗歌分析、从历史文献中提取重要信息等方面的内容。

在信息检索部分，刘昭麟教授以《红楼梦》和《全唐诗》为例介绍工作细节。在对《红楼梦》的分析中，刘昭麟教授介绍到，团队能够利用工具突出显示宝玉、黛玉名字以及与名字有关的语境和关键词条。在基本统计分析方面，刘昭麟介绍到，团队利用工具将《红楼梦》部分章回中宝玉、宝钗、黛玉名字出现频率进行可视化展示，并利用同样的技术显示《全唐诗》李白的诗中“春风”和“秋月”出现的频率。接着，刘昭麟教授展示了《清末筹备立宪档案》中各项政治活动名称和《清季外交史料》相关机构名称出现的年度比重。在“《红楼梦》中谁最爱笑”部分，刘昭麟教授介绍到，研究团队将《红楼梦》部分章节宝玉、黛玉和宝钗笑的次数和比重以可视化的方式展示出来，比过去做同类研究有效率得多。

中国古诗研究方面，刘昭麟教授先介绍中国古诗包括《诗经》、汉赋、《全唐诗》、《全宋词》、《列朝诗集》、《楚辞》等，以表格的方式列出这些古诗的字母缩写和时间跨度，并指出，在样本的基本统计方面，统计结果取决于样本来源的质量和用户判断条目的方式，而在实际工作中，研究者可以暂时忽略一些现代汉语中已经不用的极少量汉字。

在诗人用词偏好（word preference）分析方面，团队将全唐诗中常见的双字词组（bigram）按照出现频率高低的顺序进行排列，比如，李白、杜甫诗中能够代表风和月的词组分别有“春风”、“秋风“和“秋月”、“明月”，进而呈现各个诗人的用词偏好；在颜色分析方面，刘昭麟教授介绍到，团队分析后发现唐诗和宋词最常见的颜色分别为白色和红色，并认为可以进一步探讨造成这种结果的社会和个人因素；刘昭麟教授还介绍了计算诗人在其诗作中所使用的颜色词（如“白日”、“白发”）出现频率的工作。

在情感分析方面，刘昭麟向在场观众介绍了古诗中表示特定情感的词语，如“白发”、“白头”，指出这些词语能够反映诗人生命太短而无法实现更多抱负的心理；进一步，在社交网络分析方面，团队利用每首古诗出现的人物名字来推测诗人之间社交状况，并用可视化的方式呈现出来；在用词和写作模式方面，刘昭麟教授指出团队可利用中国历代人物传记数据库（CBDB）中表示时空信息的数据，如诗人的生卒年，把诗人及其使用的词汇定位到时间轴上。

在刘昭麟教授的古诗写作风格模式判别工作中，由于统计成果取决于可用资源的质量和人们提取条目的方式，因此，对于古诗写作风格的判断犹如大海捞针。尽管如此，团队还是可以利用相关技术呈现诗中所描绘的常见景象的共同搭配，并提供反映原始著作与版本变化的文本线索，供研究者追踪。这种方法可以应用到《诗经》、《汉赋》、《楚辞》等文本的分析中。然后，刘昭麟教授还介绍了排名与相对频率的差异和ZIPF法则，指出包括《诗经》、《汉赋》、《全唐诗》、《全宋词》等在内的中国古诗中的汉字的Zipfian分布（Zipfian distribution）显示了惊人的相似度。

进一步，刘昭麟教授介绍了团队在历史文献分析方面的工作，历史文献主要为方志和《唐代墓志汇编》。在方志分析方面，团队首先对方志文本进行标记（tagging），以便开展文本挖掘与文本分析、传记信息挖掘和社会网络分析等工作；团队还利用姓名、地址、年号等组成的元数据模型标注了地方志文本文献。对于唐代墓志的分析，团队在标注的基础上，从墓志中提取出有关朝代、性别、姓氏、字、年岁等信息，以便用户使用。最后，刘昭麟教授围绕团队所开展的构建用户界面、对文本的基本统计分析、对中国古诗的分析以及从历史文献提取有效信息等有关工作进行了总结，与与会观众开展了讨论，回答了在场人员的热烈问题。

meeting

China Biographical Database Project (CBDB)

对中国古代文学和历史文献的文本分析：刘昭麟教授哈佛-燕京图书馆讲座纪要