近日,我院“暨南论道”第58期公开系列讲座邀请了香港浸会大学会计经济暨金融系(AEF)副教授、(学术)副系主任、数字经济与商业数据分析中心副主任陈婷担任主讲嘉宾,分享题为“Most Harmless Introduction of LLM for Economists”的演讲。陈婷副教授的研究领域包括政治经济学,发展经济学,经济史和文本数据分析等。最近的研究成果发表在Quarterly Journal of Economics, Economic Journal,Journal of Econometrics和Journal of Development Economics等国际顶级期刊以及《经济研究》《经济学(季刊)》《世界经济》等国内顶级杂志。本次讲座由我院院长冯帅章教授主持。
大语言模型(LLM)通过深入学习大型语料库中语言的多样模式和结构,从而实现理解和生成人类语言的目的。据Scale Law的研究表明,大语言模型的性能与其模型规模、数据集规模和计算能力呈现出幂律关系。
香港浸会大学会计经济暨金融系(AEF)副教授陈婷
在本次讲座中,陈婷副教授从两个角度为大家深入解析了大语言模型:一是从模型训练的角度出发,详细阐述了大语言模型的学习内容和背后的算法逻辑,了解这些技术细节有助于大家在应用过程中更准确地评估大语言模型可能存在的偏差;二是从研究的角度出发,介绍了一系列大语言模型的实际应用,让大家更直观地认识到大语言模型的应用方向。
讲座伊始,陈婷副教授首先介绍了大语言模型如何学习词的含义。她指出,量化文本中词语的语义相似度是首要步骤,而Word Embedding是一种常用的方法。其原理是将文本中的每个词映射到一个高维向量空间(一般为100-500维),向量之间的距离则反映词语之间的语义相似度。Word Embedding通常可通过神经网络模型学习得到,其中Perceptron是神经网络中的基本单元,通过计算输入向量与权重向量的线性组合加上偏差项(bias)的值,并使用激活函数(Activation Functions)处理这个数值,从而得到输出数据的类别。激活函数通常使用非线性函数模型,便于抓取数据中更为复杂的关系。在深度学习的神经网络模型中,通常会包含多个隐藏层以增强模型的学习能力。陈婷副教授还以多篇论文为例,阐述了Word Embedding的应用,如利用相似度来构造词表、识别政策文本中受到政策影响的处理组、以及衡量性别刻板印象差异等。
接下来,陈婷副教授介绍了大语言模型如何学习词的序列,简单理解为利用大语言模型来预测在一个语句之后下一个单词出现的概率。在这一部分,陈婷副教授主要介绍了三种语言模型。一是N-Gram语言模型,它在很小的上下文范围内考虑词序,通过统计不同n-gram的频率来预测下一个单词。然而,N-Gram模型只能捕捉很局部的序列关系,故而在处理更长的上下文依赖关系时效果不佳。二是循环神经网络模型(Recurrent Neural Networks,RNNs),它通过循环单元来处理序列中的每个元素,并将之前的信息传递给后续处理过程中,能够更准确地理解和预测序列数据,但受限于速度慢和记忆有限的问题。三是Transformer模型,它是一种基于注意力机制(Attention)的神经网络模型,其核心思想是通过将输入序列转换为向量,并使用多层Transformer结构进行编码和解码。注意力机制通过识别并关注输入信息中的关键特征,来实现对序列数据的高效处理。
讲座现场
此外,陈婷副教授还指出GPT-3在理解人类指令方面的局限性,并介绍了三种改进方法:一是通过人类的监督学习对GPT-3进行微调;二是采用人机协作的方式,由人类对机器回答进行评估和调整;三是将人类反馈与强化学习相结合,为机器提供自然、人性化的学习过程。
最后,陈婷副教授以几篇学术论文为例,详细阐述了大语言模型在经济学研究领域的实际应用。第一篇文章展示了ChatGPT在股价预测方面的应用,结果发现根据ChatGPT形成的投资组合回报远远优于市场投资组合。第二篇文章探索了ChatGPT在帮助投资者识别企业不同维度风险方面的价值。第三篇文章将ChatGPT作为实验对象,比较了模型预测的消费者偏好与实际消费者偏好的差异。最后一篇文章介绍了大语言模型在经济学科中的六种具体应用,并指出了其存在的局限性和风险。