English

【第1期】珠江经济学俱乐部首场活动讲授如何高效分析数据

2019-03-29
摘要2018年11月22日,由暨南大学经济与社会研究院主办的珠江经济学俱乐部迎来了首期活动,优秀的青年经济学者、香港浸会大学经济学院助理教授陈婷用丰富的文献案例介绍了时下经济学研究中十分有用的数据分析工具。

2018年11月22日,由暨南大学经济与社会研究院主办的珠江经济学俱乐部迎来了首期活动,优秀的青年经济学者、香港浸会大学经济学院助理教授陈婷用丰富的文献案例介绍了时下经济学研究中十分有用的数据分析工具。

活动开始,研究院副院长谷一桢首先介绍了珠江经济学俱乐部创办的背景,俱乐部由一群充满朝气的青年经济学人联合组建,其中超过90%来自耶鲁大学、康奈尔大学、英国伦敦政治经济学院等国外顶尖学府。俱乐部主要依托暨南大学经济与社会研究院,全力打造经济学及相关领域最前沿的学术资源共享平台,服务各个高校、研究机构对经济学有兴趣的师生。

1557281206986051944.jpg

活动吸引了来自校内外的师生

首期活动的主讲人陈婷曾先后于中山大学和香港科技大学求学,并在普林斯顿大学担任博士后研究员,研究成果先后发表于Quarterly Journal of Economics、Journal of Development Economics、Journal of Econometrics等国际一流期刊上,是一位优秀的青年经济学者。

随着网络高速发展以及大量微观数据库开放,研究者在享受到大数据带来的福利与便利的同时,也需要对获得的数据进行深加工和挖掘。本次课程,陈婷通过丰富的文献案例,以“ new data sources from web-scraping”、“ spatial data”以及“ textual data”三部分讲解了常用的数据分析工具。

1557281223020018581.jpg

香港浸会大学助理教授陈婷

New data sources from web-scraping 

陈婷强调,很多有用的数据并不是现成的,而是需要花费一定的时间、精力和财力从网络中获取的。她曾利用  python爬虫工具从某土地市场网站搜集了土地交易信息数据,并基于数据进一步展开分析。当下研究者主要通过爬虫工具从各大网站获取所需数据,该工具的原理是代替人工操作进行网站访问并抓取所得数据。她分享了爬虫代码的网站(github和CSDN)以及一款专业网络数据采集软件(火车采集器),讲解了一些爬取数据时可能遇到的问题,如访问网站需要输入图片验证码、网站通过IP限制访问等,最后介绍了当下很多大型网站提供给研究者方便爬取数据的API(application program interfaces),如谷歌地图、百度地图以及推特都提供了相关的API。


Spatial data

陈婷首先介绍了地理数据的妙用,一是地理信息能够给我们提供十分直观且直觉的信息,可以方便研究者对自己想法进行初步判断;二是地理信息变量较为外生,在满足排他性条件后可以用作一些研究的工具变量;三是地理上的“断点”可以帮助研究者利用断点进行回归设计。“Acgis软件”可以帮助研究者生成所需要的地理信息数据,如生成指定两点间的距离,包括地理距离(直线/球面)、沿某个网络的距离(点沿河网的距离)以及cost distance(最经济的距离);将同一地区的不同信息匹配至一张地图等。同时,研究者在使用Acgis时也需要注意由不同度量单位引发的问题。

她讲解了几篇使用了地理信息的文献。第一篇文章用美国星巴克位置信息数据预测当地的“中产阶级化”,为了更加直观,陈婷展示了广州各地区星巴克咖啡馆的分布图与各地区房价图,指出二者呈现明显的正相关关系。第二篇文章主要分析了三峡大坝对上下游环境气候以及农业生产的影响,将三峡大坝上下游地区与大坝的距离作为一个关键变量。第三篇文章主要分析了淮河政策对死亡率的影响。由于淮河政策提供了一个天然的供暖“断点”或者说是污染“断点”,可以用于断点回归设计。第四篇文章所研究的是科举制度对中国文化的影响,将进士出生地与当今地区进行匹配后进行研究。


Textual data

陈婷指出,文本数据逐渐成为研究者使用数据的重要来源。在获得文本数据前,研究者首先需要检查文本是否可以编辑。如果需要识别不可编辑的文本(pdf格式)时,我们可以借用OCR软件识别英文、ABBYY软件识别中文以及Omnipage识别数字。

具体到识别工作时,研究者还需进行一些事前处理,第一步是“ tokenization”(分词),一般可以使用语法和常用语料库对中文进行分词。在python中,可以使用jieba library导入自己的语料库来进行分词;第二步是利用停用词语料库去掉停用词,因为停用词出现频率过高,将影响识别结果;第三步是注意英文中的时态变换。此外,还需注意由几个词组成的专有名词(如IESR),仍然可以使用常用语库识别,或者是查看两个词同时出现的频率。

在进行完以上处理步骤后,研究者可以对关键词进行计数。为了便于理解,她展示了“雾霾”等关键词的搜索数据变化趋势。通过这些变化趋势,可以直观感受到某些关键词的热度。最后,她强调尽管对关键词进行计数的办法十分有效,但是需要考虑恰当的关键词。


陈婷的分享深入浅出,案例丰富,干货满满,赢得同学们一片好评。在场的一位韩同学感叹到:“此次课程非常有帮助!如果自己在大一大二时就能听到如此实用的分析课程,就不会对复杂的分析感到迷茫,能让自己的学习更加轻松。”她希望我院能够继续举办更多类似的活动,帮助更多经济学专业的学生。

返回