Google Chrome网页抓取插件Web Scrapter及其应用

 

CBDB Seminar

Feb 28,2020

 

2020年2月28日,哈佛费正清研究中心的数字中国研究员邓国亮老师为CBDB的访问学者们作了以“Google Chrome网页抓取插件Web Scrapter及其应用”为主题的报告。

首先邓国亮老师指出,网页之前是进行数据收集的重要途径之一,熟练使用网页抓取技术有助于提高数据收集的效率。一般而言,网页抓取可以借助编程实现,但本次讲座主要介绍无须编程基础即可操作的相关插件的使用方法,更为便捷。同时,邓国亮老师提示大家,对于网络抓取的具体应用场景和伦理规范,也须引起重视。

以Harvard Art Museum的网页作为案例邓国亮介绍了Google Chrome网页抓取插件Web Scrapter的结构和具体使用方法。运用Web Scrapter的第一步在于分析所需网页的具体结构和操作将下拉网页、点击进入相关连接、浏览网页等具体步骤抽象化为流程图。具体到Harvard Art Museum网页,邓国亮老师带领大家分析了在该网页上查询“China”的检索结果,可以看到,浏览该结果需要注意的地方在于,中途需要点击Load More加载全部搜索结果。这些在日常检索网页中不会引起注意的细节,却是在网页抓取过程中需要特殊设置的。

随后,第二步在于将上述操作流程具体化为Web Scrapter里面的select,具体到Harvard Art Museum网页上“China”的检索,相应select包括下拉页面(scroll-down)、点击Load More加载全部页面(pagination)、点击进入具体页面的链接获取具体页面上的展品的信息等四个操作在每一个select的设置中邓国亮老师也带领大家具体实践了设置ID选择任务类型选取页面范围、设置延迟时间等具体操作细节,并耐心解答了大家在初次操作中遇见的各种问题。

之后第三步在于上述步骤中设置好的sitemap进行输出和输入,以便于后续整体性地保存和多次使用。整体抓取过程结束之后,抓取结果将以表格形式输出。

此外邓国亮老师还为大家简要介绍了AnyPicker等其他网页抓取工具,以及一些既有的针对具体社交网络等数据的抓取程序,为大家收集数据提供了更多可能的选择。

本次讲座的圆满完成加深了与会学者对于网页的结构和操作的理解,丰富了人文学者获取数据资料的途径,提高了收集数据信息的效率, 对于进一步开展以数据挖掘与分析为基础的数字人文研究具有基础性的意义

 

WriterLiu Zhou

Editor:  Liu Yunou