English

【第18期】香港浸会大学陈婷副教授谈文本数据在社会科学中的应用

2023-05-04
摘要陈婷老师有丰富的文本数据研究经验,在讲座上通过大量的文献案例介绍了文本数据在社会科学中的应用。

2023年4月18日,珠江经济学俱乐部第18期讲座在暨南大学曾宪梓科学馆406举行。本次讲座邀请香港浸会大学会计经济暨金融系(AEF)副教授、数字经济与商业数据分析中心副主任陈婷担任主讲嘉宾。陈婷老师有丰富的文本数据研究经验,在讲座上通过大量的文献案例介绍了文本数据在社会科学中的应用。本次活动由我院副教授刘丛主持。

主讲人陈婷老师

随着近年来文本数据的可得性逐步发展,量化文本数据在研究中的应用越来越多,量化文本研究在未来很有发展前景。本次课程,陈婷老师通过丰富的文献案例,从“技术和数据发展的变化趋势”、“文本数据的分析方法”讲解了文本数据在社会科学中的应用。

首先,陈婷老师介绍了什么是需要被我们量化的文本数据。在经济学中,被广泛使用的是结构化的数据,可以直接进行定量的研究分析。文本则常被归类为非结构化的定性数据,需要从中提取文本特征(features)作为结构化变量进行计量分析。陈婷老师介绍了一篇政治经济学的文章作为例子,作者收集了新闻文本,并利用词典法计算文本中关键词出现次数来测量经济政策相关的不确定性。后来的文献又对其研究领域、研究思路进行了拓展。

陈婷老师指出了工具和技术的变化,我们有了更加先进的硬件支持,更加有效率、支持计算机并行计算的数据储存方式。新的文本数据主要来自于经济生活中产生的各种文本数据,媒体文章,社交媒体生成的文本,演讲文本等,文本数据的透明度比以前更高。

陈婷老师认为对于社会科学家来说,使用文本首先要把文本表示成数值生成变量,也就是文本量化。处理大部分的文本有三种主要的量化方式,本次讲座重点关注了文档特征矩阵(DFM)和词嵌入(Word Embedding)。

讲座现场座无虚席

DFM主要考察文本中的一个重要信息:词的出现次数,以此构建出文本的向量表示。她进一步讲解了DFM在描述性度量中的应用,通过计算两个文本词频统计所生成的向量夹角来度量文本之间的相似度。陈婷老师以2001年发表于AER的一篇论文为例,从专利文本相似度的角度测量专利技术的创新进步程度。作者收集了一堆专利的摘要文本,用每一个文本与前五年的文本计算得到的相似度平均水平除以该文本与后五年计算得到的相似度平均水平来衡量。此外,除了相似度的度量之外,DFM还可以用于衡量复杂性、务虚或务实、礼貌程度。紧接着,陈婷老师特别地以一篇文章为例介绍了文本在描述特征(style/distinctiveness)中的应用。文章利用英国议会中议员的演讲文本通过机器学习识别判断的准确率来测量每一个议员的演讲风格是否有独特性。除了机器学习的方法之外,另外一篇文章收集了公司在首次公开募股时描述投资逻辑的文本,用每一个文本中出现的独有词(只在该文本出现,而在其他文本没有出现)数量的比例来衡量独特程度。文章发现高独特程度的公司与低独特程度的公司相比有更好的成长轨迹。

DFM的第二个应用在于主题分析方面,陈婷老师简单介绍了隐含狄利克雷分布(LDA)的无监督学习算法的应用于主题分析的原理,其将DFM分解为两个概率矩阵,用于识别文档的主题。陈婷老师指出主题模型在分析相似度时,可以提供额外的信息和信息分类。LDA算法在处理短文本时会比较乏力,Biterm Topic Model则更有优势。而主题模型的分析除了LDA算法之外,还有一些前沿的算法,比如基于Word Eembedding的top2vec算法等。

此外,陈婷老师介绍了文本量化的第二种方法Word Eembedding的原理,将文档里的每一个词表示为一个n维(一般为100~500)的向量,从而形成一个高维的向量空间,向量越接近表示词语的语义越接近,从而可以量化出词语的语义相似度。为了大家更好理解,她讲解了一篇使用word embedding应用于衡量性别刻板印象的论文。

陈婷老师的分享十分精彩,讲座现场座无虚席,讲座结束后同学们还感到意犹未尽。本次讲座很好地帮助同学们了解文本量化研究的发展历程、前沿技术、未来前景,启发大家在未来社会科学研究中继续探索文本数据的发掘和应用。


返回