问:
惊人的单模型得分,请问您使用了多少个特征来获得如此高的得分?我也在使用LGB模型。
答
235个特征(180个基本特征+滚动特征)
问:
您是在使用Polars进行特征工程还是仅依赖于Pandas+Numba/多进程?即使进行了Numba优化,我也发现当滚动特征过多时,推理速度会非常慢。在Colab T4上使用在线流式评估,完成一个qp需要超过7秒。
答
使用Numba和多进程构建特征的速度非常快。
问:
你介意分享一下你是否在使用像zerosum这样的技术吗?谢谢!
prediction - prediction.mean()
优于zerosum
问:
但到目前为止,我的结果有点奇怪。我已经检查了基于kfold的模型直到第435次迭代的结果。我只是最近才用435之后的数据再次检查了准确率。我认为我的提交代码有些问题,但我的测试结果与pb准确率关联度不高。
答:
由于数据的时间性质,KFold可能不是这次比赛的最佳策略。出于同样的原因,检查特征是否存在导致前瞻偏差的泄露是很有必要的。
我这里说的kfold是基于时间序列的kfold,使用窗口的方式。(示例图片)正如你所说,我担心数据泄露,所以在计算滚动特征时,我先对stock_id和date_id进行了分组。我觉得我需要进一步检查。
彩虹屁: