CBDB能否做更多统计研究?张三千讲座纪要

肖奕

中国科学院文献情报中心

 

      2017年五月,哈佛大学统计学系博士生、“中国历代人物传记资料库”(CBDB)项目成员张三千于哈佛大学CGIS Knafel为利用统计学知识从事研究、对CBDB和数字人文研究感兴趣的人员开展了题为“我们CBDB能否做更多统计研究?”的讲座。

       首先,张三千了解在场的每位人员的基本情况,包括之前从事过的统计学研究和这个过程中遇到的问题、每位人员的基本信息以及参与此次讲座的目的。其中一名哈佛-燕京图书馆的馆员回复道,她为古籍图版进行OCR的时候,通过分词的方法可以发现每个OCR出来的文本可分为三个部分,第一部分是分词器通过动态词图扫描识别出来的内容,这部分是能在词库里面找到的词;第二部分是在分词的基础上通过一个模型猜出来的词,第三部分是剩下的内容。她发现,在做完文本划分后,这三个部分的OCR错误率呈现一个明显的规律,但是她不知道怎么能够进行接下来的校对工作和其他的分析。CBDB的项目经理王宏甦也介绍了自己之前做过地方志方面的研究,比如根据佛寺和道观数量在康熙和乾隆年间变化情况,研究时间维度下宗教对当时社会的影响,以及它在地理上的扩张有没有受少数民族聚居区或不同文化的影响。因此,他从事过数值方面的分析,但没有太多有关统计学研究的经验。

        然后,张三千就开展空间分析使用的工具与相关操作方法询问在场观众。一名人员表示自己在研究中可能会做聚类、分组(group)、动表图。另一名观众表示,使用何种工具和操作取决于具体的学术问题。接着,讲座进入正式环节,第一部分张三千讲授的是制表(tabulation)。张三千希望在场人员认识和统计推断(inference)的区别,指出研究者大部分工作停留在数据整理阶段,数据整理并不一定牵涉推断方面的问题,并以其与CBDB项目经理王宏甦所整理的《全唐诗》数据为例介绍。他们作了表格,然后进行计数,了解每位诗人所撰写的诗里有“河”字的诗的数量。张三千表示,从表面上看,这样的数据本身没有什么意义,只是把文本变成数据的一个过程,不涉及统计推断的研究。但有了这些用字数据,研究者就可以提出问题,从而更接近统计推断。

        由此,讲座进入第二部分推断。张三千举例子介绍参数推论(inference on parameter)的内容,指出《全唐诗》的诗人多喜欢用某个字这样的问题在统计学者看来是具有不确定性的,因为研究者看到只是表面事实,而并没有发现潜在内容。因此,研究者应当根据自己的数据,回去研究潜在参数的影响。影响具有不确定性,因为研究者并不知道诗人在诗作中一定会写“河”这个字。在应用模型(models)的过程中,研究者会想了解诗人会写什么样的诗,会在什么情况下写这种诗,这都关乎不确定性。接着,张三千介绍预测性分布(predictive distribution)。一个具体例子是若诗人再写一首诗,某个字出现的频率有多大。差异假设检验(hypothesis test of difference)的内容可用于判断如诗人们是否同等喜欢用“河”字这样的问题。张三千尤其强调数据质量(data quality)的重要性;而对“李白和杜甫是否一样喜欢用‘河’字”的问题,张三千表示,统计学对于研究“多大的差异能算‘不同’”有自己的理论框架。

       讲座的第三部分是关于开展统计研究工作的一些要点。首先是样本量问题。张三千指出样本规模对于推断很重要。第二是“潜在因素可能掩盖单变量分析中的关系(confounders may mask relationships in univariate analysis)”。张三千认为,在观察数据时,不能只看两个变量之间的单方面(univariate)关系,因为可能会存在很多潜在关系。第三个要点为关联不等同于因果关系(association is not causal)。

        讲座进入第四部分,张三千主要介绍统计方法在在场人员的研究中所提供的帮助,举例指出,若一位历史学家提出有关变量A和变量B可能存在关系的猜想,统计学可以帮助学者利用数据来判断这一论述是否成立。另外,若研究者有一些研究结论和一些变量,统计学可以帮助研究者认识这些变量如何与结果相关联。至于统计学无法做的事,张三千也举例进行说明——对于一个有100个变量的数据集,统计学家无法考察这么多可能的关联并找到统计上显著相关的变量,所以也就不能得到有关关联的结论并据此构建理论。在这个部分,张三千就在场人员“在准备数据的时候如何保证数据是符合统计学的要求”的问题进行了详细说明。她认为,研究者应当保证数据是透明的,最好的方法保存原始数据(raw data),同时保证数据处理(data processing)是自动化的过程,这样可以在需要时重新生产数据(reproduce data)。进一步,数据的来源也非常重要。历史学的数据通常不像统计学中那样是随机样本,比如《全唐诗》收录的诗不一定完全覆盖某位诗人所撰写过的全部诗集,这种缺失的数据这是研究者无法彻底解决的问题。最好的方法是在获取数据后,研究者应当清楚了解自己的研究建立在何种样本上,数据的统计结果只在所取样本的范围内有效,不能普及到其他范围。

       讲座的第五和第六部分分别关于贝叶斯法则(Bayes’ Rule)和贝叶斯推断(Bayesian Inference)。贝叶斯法则是利用条件概率进行研究——条件概率是指在一个事情发生的概率在其他事情上的表现,可以用来做逆推(inversion)。举例子:P(|王之涣) = 0.667P(|李白) = 0.105。如果现在出现了一首诗,里面有用到“河”这个字,我们可以提出问题,问这首诗的作者更可能是谁,以及I.e.P(李白|)P(王之涣|)哪个值更大。接着,张三千详细介绍Bayes’ Rule的计算式。由贝叶斯法则延伸到贝叶斯推断,张三千介绍了贝叶斯推断的特点,包括(1)在做推断时可以连贯一致地整合科学研究成果和先前的科学知识;(2)可以处理非常复杂的模型。张三千接着介绍贝叶斯定理有代表性的分层模型(hierarchical model),介绍了这个模型的特点和应用实例。该模型的特点是能够在不同观察结果中交换信息,其应用覆盖政治学、流行病学等多个领域。在讲座的最后,张三千解答了部分观众的问题,并表示可以日后组织大家精读数字人文论文,讨论其中如何利用统计工具。