Financial Statement Analysis with Large Language Models 论文精读
文章目录
- Financial Statement Analysis with Large Language Models 论文精读
- Abstract
- 核心速览
- 研究细节
- baseline
- GPT与分析师对比
- 人类分析师与 GPT 的互补性
- 错误预测的来源
- 增量信息增益
- 分析师出现偏差或分歧的情况
- GPT与ML模型的比较
- GPT与ML模型时间趋势
- ML模型 错误预测的来源与增量信息增益
- 信心、幅度和不同的LLM模型
- LLM 的预测能力来源于何处?
- 对其记忆能力的检验
- GPT 能否猜出公司名称和年份?
- 样本外分析
- LLM 生成文本是否有信息价值
- 检验 GPT 生成的文本是否包含有用信息
- 资产定价测试
- 投资组合收益结果
- Fama-French 5 Factors 分析
- 图示投资收益
- 其他结果
- Financial Statement Analyzer插件
Abstract
我们研究了一种大型语言模型(LLM)是否能够像专业人类分析师一样成功地进行财务报表分析。我们向GPT-4提供标准化且匿名的财务报表,并指示模型分析这些报表以预测未来的收益变化方向。即使在没有任何叙述性或行业特定信息的情况下,LLM在预测收益变化方面的表现优于财务分析师。LLM在分析师通常表现不佳的情况下表现出相对优势。此外,我们发现LLM的预测准确性与经过专门训练的最先进机器学习模型的表现相当。LLM的预测并非来自其训练数据的记忆。相反,我们发现LLM生成了关于公司未来表现的有用见解。最后,基于GPT预测的交易策略比基于其他模型的策略产生了更高的夏普比率和阿尔法。综上所述,我们的研究结果表明,LLM可能在决策过程中发挥重要作用。
核心速览
- 研究背景
本文探讨了大语言模型(LLM),特别是GPT-4,在财务报表分析中的能力。财务报表分析是一项需要批判性思维、推理和判断的传统定量任务。
-
数据与模型:
- 使用结构化且匿名化的财务报表数据。
- 采用复杂的链式思维(Chain-of-Thought)提示来模拟人类分析师处理财务信息的方式。
-
实验设计:
- 对比GPT与人工神经网络(ANN)和逻辑回归模型的预测能力。
- 使用1962-2021年的数据,通过滚动五年的训练窗口训练模型,评估其对未来一年收益的预测能力。
- 设计并评估基于预测的投资策略。
-
主要发现
- 预测准确性:
- GPT在预测未来收益方向上的准确性优于专业人类分析师。
- GPT和ANN的表现相当,并且两者的预测包含互补信息。
- 信息来源:
- GPT的预测能力主要来源于其对趋势和财务比率的分析,而非其“记忆”。
- GPT生成的叙述性财务分析具有显著的信息价值。
- 投资策略:
- 基于GPT预测的投资策略在风险调整后的回报方面(夏普比率和阿尔法)优于基于ANN和逻辑回归的策略。
- 特别是,GPT在分析小型和波动性较大的公司时表现更佳。
- 预测准确性:
-
实践意义
- 应用潜力:
- GPT不仅能辅助投资者(如总结财务报表),还可以在做出明智决策中发挥更积极的作用。
- LLMs有潜力民主化财务信息处理,使非专业投资者能够更好地利用财务数据。
- 人机互补:
- AI模型在分析师表现不佳或存在偏见和分歧时表现更好,而人类分析师在需要额外上下文时增值更多。
- 应用潜力:
-
结论
GPT展示了在财务报表分析中的卓越能力,达到了甚至超越了专业机器学习模型的表现。这表明LLMs在金融领域具有很大的应用潜力,值得投资者和监管者关注。未来的研究应进一步探讨AI在实际金融决策中的影响。
研究细节
baseline
该图描述了论文中使用的baseline模型及预测方法
- 样本数据部分
- 首先,从Compustat数据集中抽取了1968-2021年的财务报表数据。(保留了2022年的数据,以预测2023年的财政年度收益)
- 其次,求每个观测值具有非缺失的总资产、年末资产价值超过一百万美元、年末股价超过每股一美元,以及财政期末日期为12月31日。我们还删除了资产负债表方程不成立的观测值。
- 最终,我们剩下了来自15,401家不同公司的150,678个观测值
- 数据预处理部分
- 格式遵循Capital IQ的平衡模型,重建了财务报表的结构,行为指标,列为时间。
- 匿名化:省略了任何标识信息,如公司名称或财务报表的日期
- 模型选择
- 我们使用了 gpt-4-0125-preview,这是OpenAI在我们进行实验时最新的GPT模型。
- 将温度参数设置为零,以确保模型响应的变化最小化。
- 我们没有指定最大标记数量,而top-p抽样参数设置为一(即模型以概率一采样最可能的单词)
- 通过Chain-of-Thought提示模拟人类分析师处理财务信息的方式
- 识别特定财务报表项目中的显著变化
- 计算关键的财务比率,而不明确限制需要计算的比率集。在计算比率时,我们提示模型首先陈述公式,然后进行简单的计算。
- 还指示模型对计算的比率提供经济解释。
- 使用基本的定量信息及其产生的见解,指示模型预测
- 伴随有理由陈述的二元预测(下一年的EPS增加方向)
- 提供盈利变化的预测幅度(幅度包括三个类别:大、中等和小)
- 答案的信心水平(零(随机猜测)到一(完全知情))
GPT与分析师对比
- 分析师样本: 1983-2021的IBES数据,样本量39,533
- 每个观察值至少有三个分析师预测,取中位数作为 pred
- Pred Analyst1m表示在前一年盈利发布后的一个月内发布的预测
- 3m和6m则是发布后的3个月与6个月发布的预测(相较于GPT,分析师获得的信息更多)
基于上一年财务报表发布后第一个月的预测,分析师的准确率为 52.71%,F1 分数为 54.48%,这在预测一年后的收益变化方向时优于基于简单模型的预测(准确率 = 49.11%,F1 分数 = 53.02%)。然而,这些结果也重申了一个观点,即收益变化非常难以预测,即使是对复杂的金融分析师也是如此。
正如预期的那样,分析师的预测准确率在 t+1 年内随着时间的推移有所提高,分别在第三个月和第六个月的预测中达到了 55.95% 和 56.58%。转向 GPT 的预测,我们观察到以下几点:
使用简单的提示指示 GPT 分析财务报表并预测未来收益方向时,模型的准确率为 52.33%,F1 分数为 54.52%。因此,在没有 CoT 推理的情况下,模型的性能与财务报表发布后第一个月的分析师共识预测相当。然而,当我们利用基于 CoT 的 GPT 预测时,性能显著提高。通过链式思维提示,GPT 达到 60.35% 的准确率,相比财务报表发布后一个月的分析师预测提高了 7 个百分点。这个差异在 1% 的水平上具有统计显著性。
因为我们没有向语言模型提供任何分析师可获得的叙述性或背景信息,除了资产负债表和损益表。综上所述,我们的结果表明,即使没有任何特定的叙述性背景,GPT 也可以通过财务报表分析超过人类分析师。我们的结果还强调了类似人类的逐步分析的重要性,这使得模型能够遵循人类分析师通常执行的步骤。相比之下,仅仅指示模型分析复杂的财务报表并不会产生强有力的预测结果。
人类分析师与 GPT 的互补性
错误预测的来源
- I(incorrect = 1) 是一个指示变量,当收益预测与实际收益变化不匹配时等于 1,否则为0
- X i t X_{it} Xit是公司 i 在 t 年的特征向量(资产规模、杠杆率、市净率、收益波动率、亏损指标和固定资产比例)
- δ y e a r δ_year δyear 和 δ i n d δ_ind δind 分别表示年份和行业的固定效应
I ( i n c o r r e c t = 1 ) i t = β X i t + δ y e a r + δ i n d + ϵ i t I(incorrect = 1)_{it} = \beta X_{it} +\delta_{year}+\delta_{ind}+ \epsilon_{it} I(incorrect=1)it=βXit+δyear+δind+ϵit
- 列 (1) 中,我们记录了 GPT 预测不准确的情况更多出现在公司规模较小、杠杆率较高、报告亏损以及收益波动较大的公司中。
- 列 (2)、(3) 和 (4) 中,我们报告了分析师预测不准确的决定因素。与列 (1) 相比,出现了几个有趣的差异。首先,尽管分析师在预测小公司收益方面面临困难,但这些系数的幅度几乎是列 (1) 中系数的一半(所有三种比较的 p 值均小于 1%)
- 另一个显著的差异是,当公司报告亏损和收益波动较大时,分析师相对于 GPT 更不容易出错。这些发现适用于所有分析师预测指标,因为列 (2)、(3) 和 (4) 中关于亏损和收益波动的系数幅度始终小于列 (1) 的系数。
增量信息增益
- 我们测试分析师的预测是否在准确性较低的情况下,仍然能提供增量信息,补充 GPT 的预测。
- I(Increase= 1) 是一个指示变量,当下一期收益增加时,该变量等于 1,否则为 0。
- P r e d X Pred_X PredX 是一个指示变量,当“X”(可以是“GPT”或“Analyst”)预测收益增加时,该变量等于 1,否则为 0。
- δ y e a r δ_year δyear 和 δ i n d δ_ind δind 分别表示年份和行业的固定效应
- GPT预测的系数(𝛽1 ):单独使用GPT预测时,系数为正且显著,表明GPT预测与未来收益增加之间存在正相关关系。
- 分析师预测的系数(𝛽2):单独使用分析师预测时,系数也为正且显著,表明分析师预测也与未来收益增加正相关。
- 当在同一个回归模型中同时包含GPT和分析师的预测时,两个预测变量的系数都保持显著。这表明:GPT预测的系数基本保持不变:这意味着GPT的预测仍然提供重要的信息。
- 分析师预测的系数增加:这表明在包含GPT预测的情况下,分析师的预测仍然提供额外的信息,增量信息体现在系数的增加上。
调整后的R平方值从仅包含GPT预测时的0.070增加到包含两个预测时的0.089。这表明组合预测模型能够解释更多的未来收益变化,进一步证明了GPT和分析师预测之间的互补性。
分析师出现偏差或分歧的情况
先验偏差:为了估计分析师预测中的先验偏差(效率低下),我们运行了分析师预测误差(预测EPS与实际EPS的差值)与与方程2中相同的公司特征的横截面回归。然后,我们取这个回归的拟合值的绝对值。与先前的文献一致,预测误差被定义为实际每股收益(EPS)与预测 EPS 的差值,并按上一财政年末的股票价格进行缩放。
将预测误差按上一财政年末的股票价格进行缩放的原因如下:
- 标准化预测误差
通过按上一财政年末的股票价格进行缩放,可以标准化预测误差。这有助于使得不同公司的预测误差在相同的尺度上进行比较,因为不同公司的股价和每股收益(EPS)可能差异很大。 - 消除公司规模的影响
不同公司的股价水平不同,而直接比较未缩放的预测误差可能会导致对大公司(股价较高)和小公司(股价较低)之间的误差大小进行不公平的比较。通过按股价缩放,能够消除公司规模对预测误差的影响,使得误差比较更加公平和合理。
分歧:我们使用分析师预测的 EPS 值的标准差,并按上一财政年末的股票价格进行缩放。根据分析师偏差的四分位数值对样本进行分区。
- 通过比较列 (1) 和列 (2) 的系数,我们观察到重要的差异。当预计分析师偏差较低时,GPT 的预测权重较小(相比列 (2) 当预计偏差较高时),而分析师预测的系数相对较大。这些差异在1%的水平上具有统计显著性。它们表明,当人类分析师可能存在偏差时,GPT 的价值更大。
- 在列 (3) 和列 (4) 中,当我们对样本进行分析师分歧的分区时,也得出了类似的结果:当分析师分歧较大时,GPT 的预测权重较高,反之亦然。综上所述,我们的结果表明,当人类分析师可能存在偏差或效率低下时,GPT 的预测增值更多。
GPT与ML模型的比较
- 两种不同的预测练习:逐步 logistic 回归和人工神经网络(ANN)
- 使用 t - 5 年到 t - 1 年的数据来估计(训练)模型,并将训练好的模型应用于 t 年的数据以生成预测(输入t,预测t+1)
- 样本 1962 年- 2021 年的财政年度, 训练了 56 个不同的模型(2021-1962-5+2=56)
- X为: Compustat 年度数据库获取的 59 个财务变量 Y为预测概率值(0-1,大于0.5为增加, 反之为减少)
- 稳健性检验:ANN模型使用相同资产负债表和利润表变量(排除因不同的输入变量驱动)
我们观察到使用 ANN 模型可以获得更高的预测准确率。该模型实现了 60.45% 的准确率和 61.62% 的 F1 分数。这个结果突显了财务变量之间的非线性和相互作用对于数值信息的预测能力的重要性。与分析师样本中的结果一致,我们基于 CoT 的 GPT 预测实现了 60.31% 的准确率,与专门的 ANN 模型相当。
事实上,就 F1 分数而言,GPT 实现了 63.45% 的数值,这是所有预测方法中最高的。这表明 GPT 在分析财务报表方面具有显著的能力。它不仅优于人类分析师,而且在与狭义专业化的最新 ML 应用相媲美的性能水平上。
GPT与ML模型时间趋势
左侧面板显示了 GPT 预测准确率的负向时间趋势。从经济幅度上看,GPT 的准确率每年平均下降了 0.1 个百分点,这意味着在样本期间的 54 年内,准确率下降了 5.4 个百分点。有趣的是,我们观察到 1974 年、2008-2009 年和 2020 年预测准确率出现了显著下降。这些时期与国际宏观经济衰退相重叠:1974 年的石油冲击、2008-09 年的金融危机和 2020 年的新冠疫情爆发。
这个结果令人欣慰,因为如果 GPT 的性能与记忆无关,它就不应该预见到意外的外生宏观经济冲击。最重要的是,在图 4 的右侧面板中,我们绘制了 GPT 和 ANN 模型准确率之间的“差异”的时间序列趋势。与 GPT 相比,ANN 模型表现出类似的时间趋势,其年度差异波动接近零。因此,对于两个评估指标,我们发现了一个负向且具有统计学意义的时间趋势,这意味着仅使用数值信息来预测未来收益变得越来越困难。
ML模型 错误预测的来源与增量信息增益
-
与 GPT 相比,ANN 在公司较小并且出现亏损时更有可能产生不准确的预测。公司规模每减小一个标准差,GPT 的预测准确率就会下降 3.4 个百分点。相比之下,对于 ANN 模型,同样变化的公司规模与预测准确率下降 5.5 个百分点。这两个系数之间的差异在 1% 的水平上具有统计学意义。类似地,亏损和盈利波动性的系数在 5% 的水平上具有统计学差异。logistic 回归与 GPT 预测之间的差异甚至更为显著。这些发现暗示了 GPT 在更不常见的数据模式(例如,亏损的公司)中作出更好预测的能力,这可能是因为它能够依靠其概念知识和对商业的理论理解。
-
在第(4)列中,当同时包含 GPT 和 ANN 预测时,两者均保持统计显著性,因此包含了增量信息。有趣的是,ANN 的系数在数量上变为原来的三分之一(与第(2)列相比),其统计显著性下降(t 统计量从 3.69 降至 2.36),而 GPT 的系数保持稳定。这个结果表明,在预测未来收益时,GPT 捕捉到了一些非线性金融变量相互作用之外的附加信息维度,例如外部理论知识。
信心、幅度和不同的LLM模型
- 根据模型输出的信心评分(从0到1,1表示完全信心,0表示纯猜测),按四分位数分组;(1)-(2)为信心评分,(3)-(4)为信心评分的逻辑概率
- 根据模型输出的预测幅度,按四分位数分组,验证较大的预测变化是否伴随更高的预测准确性;(5)-(6)为预测值
- 第(7)至(9)列则对比了GPT 4、GPT 3.5与Gemini Pro 1.5(google)的预测精度
- 为了评估模型的普适性,将样本按不同行业、公司规模和财务杠杆水平进行分组。我们测试在这些不同子样本中,模型的预测准确性是否存在显著差异 — (没报告 0.0)
-
我们分别报告了高信心(第四四分位)和低信心(第一四分位)组的预测结果。结果如图5和表5的第(1)至(4)列所示。模型在报告较高信心时表现更好。在高信心组中,模型基于报告的信心值(从逻辑概率衍生的信心评分)达到的平均准确率为62.44%(63.15%),这比低信心组的相应准确率高出约2.6(4.6)个百分点。我们基于F1得分发现了类似的结果。总体而言,这一结果表明模型能够区分收益更可预测的实例。
-
结果如图5和表5的第(5)和(6)列所示。当模型预测较大变化时,平均准确率为62.03%,而预测较小变化时,准确率下降到60.22%。F1得分也显示出类似的模式:预测较大变化时为61.16%,而预测较小变化时为57.95%。总体而言,当模型预计较大变化时,其方向性预测更为准确。
-
GPT-4-turbo的性能最佳,其次是Gemini 1.5,而GPT-3.5的表现最差。Gemini 1.5的总体准确率为59.15%,接近于相同20%样本中的GPT-4的61.05%。然而,GPT-3.5的准确率仅为52.29%,F1得分为59.17%,均显著低于我们的GPT-4基准。我们还发现,GPT-4和Gemini 1.5的输出结果大部分重叠,只有1,808个公司年份(约占6%)的预测结果相反。总体而言,这一分析表明,我们的发现不仅限于特定的大语言模型家族。尽管最终的预测结果在很大程度上依赖于基础语言模型的性能,但最新一代的大语言模型能够分析财务报表并做出明智的决策。
LLM 的预测能力来源于何处?
- 第一种解释是,GPT 的性能来源于其记忆能力,例如,模型基于数值数据识别公司的能力。
- 另一种解释是,模型的强大之处在于它能够基于数值数据的分析生成叙述性见解。
对其记忆能力的检验
GPT 能否猜出公司名称和年份?
第一组实验:不包含任何链式思考提示。我们指示模型根据我们提供的财务报表来猜测公司名称或年份。具体而言,我们要求模型提供十个最可能的公司名称和最可能的财年。
我们的第一组实验不包含任何链式思考提示。我们在 10,000 个随机观测中进行这一实验。结果如表 6 的 A 面板所示。我们发现,模型以 0.07% 的准确率正确识别公司名称,这低于从我们数据中的名称群体中随机猜测的准确率。在图 7 的左侧面板中,我们绘制了模型最常产生的十个公司名称。我们发现模型几乎总是预测同一组十家公司,包括特斯拉、脸书和亚马逊。这个结果与模型的训练目标一致,即基于其信息生成最可能的词语(在这种情况下是名称)。在没有有效的先验信息时,模型可能会预测其训练语料库中最显著或最受欢迎的公司。
正确猜测财务报表年份的准确率为 2.95%。在图 7 的右侧面板中,我们将实际财年和 GPT 的预测绘制在一个平面上。我们观察到几乎所有的预测都是 2019 年、2020 年或 2021 年,而不管实际年份如何,这与模型能够猜测年份的能力不符。
第二组实验:使用CoT链式思考提示。我们指示模型根据我们提供的财务报表来猜测公司名称或年份。具体而言,我们要求模型提供十个最可能的公司名称和最可能的财年。
表 6 的 B 面板包含结果。结果证实了非常低的准确率,从而解决了一个潜在的担忧,即链式思考提示更能够引发模型的记忆。综合来看,我们的结果强烈表明,模型无法根据匿名财务报表对实体或财年做出合理的猜测。因此,模型不太可能在不经意间利用其关于财务信息的“记忆”来进行收益预测。
样本外分析
排除模型前瞻偏差的最有效方法是在模型训练窗口之外进行测试。使用 2022 财年的财务报表数据来预测2023 财年的收益。(因为chatgpt的语料库截止到2023年,使用2022年的财务报表数据来预测2023年的收益,这样他语料库都不含2023年的报表数据,能最大程度的排除模型的记忆能力)
结果如表 6 的 C 面板所示。作为对比,我们还报告了逻辑回归、分析师预测和 ANN 模型的预测结果。GPT 的准确率为 58.96%,F1 分数为 63.91%。尽管准确率略低于表 4 的 A 面板中报告的平均值,但请注意,我们发现 GPT 的预测准确率总体呈下降趋势。具体而言,附录 A 显示,GPT 对 2021 财年的预测准确率仅为 54.36%,而对 2019 财年的预测准确率为 59.01%(在 2020 年 Covid-19 爆发期间,GPT 的预测准确率急剧下降)。实际上,GPT 样本外的准确率和 F1 分数都明显高于过去 10 年的平均水平(58.01% 和 59.15%)。因此,我们将结果解释为 GPT 的样本外表现与我们的“样本内”结果非常接近。此外,GPT 的样本外准确率与 ANN 模型非常相似(58.96% 对比 59.10%),而 F1 分数甚至更高(63.91% 对比 61.13%),这与我们的主要发现非常一致。综上所述,该结果证实了我们之前的测试,并确认模型的预测能力并非源于其训练记忆。
GPT 的样本外表现与我们的“样本内”结果非常接近: 这一点也不奇怪,因为他根本就没训练!
LLM 生成文本是否有信息价值
- 利用 CoT 提示,指示模型提供:趋势和比率分析的叙述性描述和解释,以及二元预测背后的理由。
- 然后对生成的文本描述性二元组分析(Descriptive Bigram Analysis)
- 二元组分析(Descriptive Bigram Analysis):统计比率分析中最常见的二元组和理由部分最常见的单词(单词组)。
在左侧面板中,我们报告了比率分析中最常用的前十个二元组。我们通过将二元组的数量与模型生成的二元组总数进行比例计算来确定其频率。我们发现,模型最常提及的是营业利润率。除了盈利信息外,模型还经常计算效率(资产和库存周转率)和流动性(流动比率、流动资产和流动负债)。模型在最终预测中的理由通常与其二元组分析一致。在做出决定时,模型常提及公司增长、流动性、经营盈利能力和效率。这种在二元组分析和模型最终预测中主题的一致性,强调了 LLM 生成文本在捕捉重要财务指标方面的实用性。
这种描述性二元组分析有助于我们理解模型在进行预测时所关注的关键财务指标,从而验证了模型生成的文本在传达公司财务状况和未来表现方面的信息价值。
检验 GPT 生成的文本是否包含有用信息
- 使用 BERT-base-uncased 模型处理每个 GPT 输出,以获得其 768 维的向量表示。将这些文本嵌入作为输入,并训练 ANN 模型来预测未来收益的方向(目标变量)。
- ANN with Text and FS Variables :允许文本向量和数值数据之间的完全非线性交互。
- ANN with Adjusted Text Embedding:排除一种类型的嵌入向量
资产定价测试
方法论
-
上一年的财务结果通常在3月底公布,我们允许市场大约三个月的时间完全处理报告的信息,并于每年6月30日形成投资组合。我们持有投资组合一年,并测量它们的夏普比率和月度阿尔法。
-
对于ANN和logit,根据预测概率,做多排名前十分位数的股票,并做空排名最后十分位数的股票。
-
对于GPT,做多盈利变化的幅度为“中等”或“大”,更高预测置信度的股票(前10%)。反之做空。保证股票数量一致。
-
计算夏普比率,我们形成等权重和价值加权的投资组合。对于价值加权的投资组合,我们每个月重新平衡投资组合权重。
-
我们基于CAPM到Fama和French(2015年)的五因子加动量五种不同的因子模型计算每种投资策略的月度阿尔法。
投资组合收益结果
High 表示做多的收益,Low表示做空的亏损,H-L是总收益
-
回顾我们先前的发现表明,GPT在分析较小和相对更波动性较大的公司方面似乎具有优势。因此,我们展示了基于价值加权和等权重策略的结果。结果如表8,面板A所示。
-
我们发现基于GPT预测的等权重投资组合实现了3.36的夏普比率,远高于基于ANN(2.54)或基于逻辑回归(2.05)的投资组合的夏普比率。相比之下,对于价值加权的投资组合,我们观察到ANN表现相对更好(夏普比率为1.79),而GPT表现为1.47。两者均优于逻辑回归(0.81)。这一结果与我们在表4中的发现一致,即GPT和ANN都包含了增量信息,因此它们是互补的。总体而言,这个分析显示了利用基于GPT的财务报表分析来制定盈利的交易策略的潜力。
Fama-French 5 Factors 分析
接下来,我们基于CAPM到Fama和French(2015年)的五因子加动量五种不同的因子模型计算每种投资策略的月度阿尔法。我们在表8,面板B中展示了结果。与面板A的结果一致,等权重的投资组合总体上生成更高的阿尔法。预期的是,在第四列包括盈利能力因子时,我们观察到阿尔法显著降低(对于基于GPT预测的投资组合,从1.29降至0.97)。然而,即使在控制五个因子和动量之后,基于GPT预测的投资组合仍然生成了每月84个基点(第五列),年度10%的阿尔法。基于ANN和逻辑回归估计的投资组合也产生了正的阿尔法,但其幅度和经济意义较小(ANN为60个基点,t统计量为1.89;逻辑回归为43个基点,t统计量为1.96)。
图示投资收益
在图8中,我们绘制了基于GPT预测的投资组合从1968年到2021年的累积对数收益。左侧面板显示了等权重长头寸和短头寸分开的累积对数收益。如预期的那样,长头寸明显优于短头寸。右侧面板显示了长短头寸组合的累积对数收益,并将其与市场组合的对数收益(虚线)进行比较。值得注意的是,即使市场组合出现累积负收益,我们的长短头寸组合仍然持续优于市场组合。
其他结果
Financial Statement Analyzer插件
地址:https://chatgpt.com/g/g-9P3sIn487-financial-statement-analyzer