“跨界与融合:全球视野下的数字人文” 会议综述(下)

朱本军  聂华

(北京大学图书馆)

Crossing Boundaries and Engaging Communities: Digital Humanities in a Global Perspective

——A Conference Report on “The 1st Peking University Digital Humanities Forum”

Zhu Benjun   Nie Hua (Peking University Library)

 

(原载《大学图书馆学报》2016年第5期第16-21页,此处经过编辑节选)

 

        数字人文最受人文学者青睐之处在于数字技术与人文领域的紧密融合。本次论坛对数字人文在历史学、语言文学、艺术学的相关应用议题进行了深入的探讨。

 

史学与大规模史料的深度挖掘

 

        史学文献数字化与数据库建设。数字技术应用到史学,最直接的体现是史料数字化和数据库建设。截至目前,这方面的工作成果大量存在,最典型的特点是将实体文献扫描为数字文献,并通过数据库来集中揭示。王晓光教授在《全球视角下的数字人文:概念与实践》报告中列举了一些重要的古籍文献资料数字化项目,如国家图书馆的“华夏记忆”项目、北京大学主持的“中国历代典籍总目”项目和“中国基本古籍库”项目、首都师范大学电子文献研究所的“国学宝典”项目、首都师范大学国学传播中心的“古籍电子定本工程”等。浙江大学图书馆黄晨研究员在《CADAL数字人文合作举要》报告中所列举的CADAL项目及其一系列子项目如“民国文献大全(~1949)”、“浙江大学 & 哥伦比亚大学甲骨文数字化项目”等,伊利诺伊州立大学香槟分校史蒂芬·多利(J. Stephen Downie)在《HathiTrust研究中心:探索更多的合作机遇》报告中重点提及的HathiTrust项目等,都属于数字化和数据库建设项目。

        史学文献文本化与数据集建设。对史学文献进行文本化,并在此基础上建设结构化数据的数据集,是一个最为基础的工作,但是目前这样的数据集目前并不多见。本次会议提到的两个典型的数据集,一个是社会科学院邱源媛副研究员在《史学数字化研究中的人文思维——以清代旗人户口册研究为例》报告中提到的香港科技大学李中清-康文林团队所开发的《中国辽宁多代人口数据集(China Multi-Generational Panel Dataset,Liaoning)》及其相关数据,另一个是哈佛大学徐力恒博士在《数据驱动的史学研究——中国历代人物传记资料库(CBDB)的建设与使用》报告中所介绍的“中国历代人物传记资料库”。CBDB的主要工作是将分散在史料中人物相关的非结构化文本数据进行结构化标引,如将人名(别名、字号)、时间、地址(籍贯、任官地点等)、职官、入仕方法、著作、社会区分、亲属关系、社会关系等标引转化为结构化的数据,并大规模著录,形成了一个超大规模的数据集。人文学者可以很方便地利用数据进行地理空间分析、社会网络分析、群体分析和统计分析。

 

语言文学与文本处理、知识探索

 

       北京大学数据分析研究中心许京奕博士认为,在语言学领域,单纯的数字化、文本化已然是一个过时的思路,基于规模文本和教学科研需要进行文本深度挖掘和智能分析能更显数字人文的意义。

       在《古籍数字化与史料知识深度挖掘》报告中,许京奕博士介绍了北京大学中文系在这方面所做的几项重要探究:一是“全唐诗分析系统”“全宋诗分析系统”,其最重要的工作不是简单地止于对5.7万首唐诗和25.4万首宋诗文本进行文本化入库,而是在此基础上结合人文研究、创作的需要建立一系列的数据模型或数据集(如建立了二十八种诗歌模型、音韵库、诗人信息库等),并通过数据模型对诗歌的全文文本进行标注和分析,方便人文学者进一步研究。以“全宋诗分析系系統”为例,不仅可以做普通的全文检索,还可以自动识别宋诗中的重出诗,以及自动分析标注人文学者自作诗的格律。二是“古籍研习平台”,不仅仅止步于将二十五史、十三经注疏、诸子集成等史料文本数字化入库,而是在此基础上建立文献知识网络(如建立文献间关系、建立文献内关系),方便人文领域的用户查找、研习文献。三是“古汉语文本自动句读系统”,并不止步于将史料文本悉数入库,而是基于语句切分、语词切分、汉字聚类、搭配关系统计和机器学习,让计算机对任何一篇古文进行智能点读,准确率能达98%以上,可有效节省人工点校的时间。

 

 

人文艺术与数据可视化呈现

 

        数据可视化呈现为人文研究提供新视角。王晓光教授在《全球视角下的数字人文:概念与实践》报告中列举了人文领域很多重要的数据可视化项目,如历史档案领域可视化分析研究的“淡新档案诉讼关系图”、文学领域地理信息可视化研究的“宋人与宋诗地理资讯系统”、考古学领域的GIS结合应用研究“地理资讯科学研究专题中心”、基于GIS的城市发展历史可视化展示、地图与文献相融合的可视化展示项目“BibleMap”、多源历史文献数据的融合可视化探索项目“The Overland Trails”等。徐力恒博士在《数据驱动的史学研究——中国历代人物传记资料库(CBDB)的建设与使用》报告中以CBDB数据的使用为例,探讨如何通过数据驱动史学研究,认为可视化可以帮助史学研究提出一些新问题,譬如,历史学者可以提取宋代4730个进士的籍贯分布和1080年(元丰三年)18路人口分布(图1),进一步提出“进士的数量与人口的密度是否存在正相关性”这样的假设,然后一步步进行验证;再比如,历史学者通过对与朱熹同代的理学家之间书信交往的关系图(图2),提出“社会关系对个体思想影响大小”的假设,再结合历史文献,进行探索。

图1 宋代进士籍贯分布及户口分布图

(色块越深表示户口数越多;圆圈越大表示进士越多)

图2 与朱熹同代的理学家之间通信往来,
2封以上书信的社会网络可视化分析

 

       艺术学是数字人文大有可为的领域。清华大学美术学院向帆副教授和朱舜山工程师在《数据可视化与人文艺术——全国美展获奖作品视觉化分析》报告中对中国第6-12届全国美展获奖入围的2,276副作品进行了可视化分析。他们历时半年自主开发了在线视觉化平台AwardPuzzle, 通过对历史30年的获奖油画作品的分析显示,大量作品集中于红黄色调,高明度的色调特别受到全国美展的青睐。此外,他们通过可视化发现全国美展的油画作品中大画幅、获奖经历、暖红色调、中年审美、家园故土主题等因素与入围获奖相关度高。通过对大规模图像数据的视觉化分析来窥探全国美展的获奖因素,其所提出的不同于传统视角的新问题,实际上为计算机技术与艺术学相关研究的融合提供了非常好的样例。

 

图书馆“数字人文”的实践新方向

 

        数字人文领域的研究和实践在不断地跨越学科的壁垒和边界,融合多方的成果和力量,这是数字人文最典型的特征。但是这种跨界与融合对人文学者和信息技术专家充分了解彼此,用互相听得懂的话进行沟通却是一大难题。哈佛大学徐力恒博士认为,数字人文的实践应首先建立在高校人文学者与信息技术专家充分沟通和彼此了解的基础之上。此外,要减低这种跨界带来的阻力,高校人文院系和信息技术相关院系都应反思和调整人才培养方式,跨越到对方的领域,以便能够培养出真正意义上既懂数字技术,又懂人文学科的数字人文人才。

       北京大学朱本军和聂华从图书馆实践的角度认为,数字人文是图书馆可实践的一个新方向。不过,他们提醒图书馆在实践中应避免进入两个误区:一是将人文学科和社会科学混为一谈,让“数字人文”变成“数字社科”或“数字人文社科”。人文学科和社会科学虽然有一定的共性,但是“数字人文”的落脚点在语言文学、历史学(包括考古)、哲学(包括美学、艺术学、宗教学、伦理学等衍生学科)等人文学科,而不要落脚在社会科学领域。二是由于人文学科的研究或创作带有非常强的个人色彩,而且没有固定的套路,人文研究所要使用的数据集、工具软件或平台一般是小众的,而且指向性非常明确,在“数字人文”实践的过程中,图书馆要避免自以为意式的闭门造车,而应与人文学者保持密切联系,充分介入到人文学者的教学和科研过程中,避免脱离具体的人文教学科研情景,以免“数字人文”的实践失去受众。

       至于图书馆具体可以开展的工作,朱本军和聂华认为有至少四个具体的方面值得去做:一是将全球范围内分散在不同地域或机构的人文研究数据库、工具软件或平台进行分类汇总整理,用专门的网站或页面集中展示,方便人文学者了解使用。二是依托图书馆已有的资源、技术和存储优势,创建可促进人文研究的数据集或大规模结构化数据,扩大人文学者的抽样样本。三是新增“数字人文”咨询,让图书馆成为人文学者、计算机或信息科学人员之间的桥,翻译、整合两者之间的对话。四是建议有条件的图书馆可以开设“数字人文部”,为高校研究生、教师提供数字人文课程或培训,提供数据库、工具,以及根据人文研究的需求组织实施数字人文项目。

        此外,朱本军和聂华还认为,图书馆开展数字人文将可能催生出“数字人文图书馆员”(digital humanities librarians),这类图书馆员具有某种与数字人文相关的知识或技能,如理解人文学者所需数据并能够为数据制定元数据著录规则的人文数据馆员、擅长数据可视化呈现的可视化馆员、擅长地理信息系统的GIS馆员、擅长社会网络数据分析的SNA数据分析馆员、擅长理解人文学者需求并转化为计算机技术专家可理解语言的人文学者-IT技术专家沟通馆员,以及专门培训人文学者数字人文素养的馆员等。

 

对数字人文的反思

 

        数字人文是否会取代传统人文的教学和科研?这是与会者普遍关心的问题。北京大学朱本军、聂华认为,“数字人文”并不能一揽子解决所有人文问题,它对传统人文研究的促进,一方面体现在将人文学者从机械、繁重的资料查找、文本比对等工作中解脱出来,使其在学术研究中具有更广阔的思辨、演绎、推理的空间,另一方面体现在通过数字化、工具软件等手段将社会科学领域的某些研究方法引入人文领域,创新人文研究方法和研究范式,从定性到定量辅助加定性,为人文研究提出、界定和回答问题提供新的视角。人文学者提出问题、分析问题和解决问题的敏锐判断不是技术可以代替的。哈佛大学徐力恒博士以CBDB为例来说明这一点,认为CBDB数据库绝非对历史文献的取代,而是一种新的文献打开方式、查询方式、呈现方式。他也表示,数字技术只是历史学者使用的一种研究工具,在研究中应发挥人文学者和计算机各自的长处。

       作为一个跨界与融合为特点的新兴领域,数字人文还将不断变化和再定义。尽管国内外已经开展了一些与数字人文相关的研究与实践,但要在全球范围内,特别是中国国内形成明显的数字人文研究共同体,尚需时日。