转化数据延迟久,但实时反馈至关重要涉及到模型预估准度,进而影响客户成本。
现状:超过12h的转化被视为负例,12h以内的为正例,这样会导致模型低估。公示如下:
P ( 转化 ∣ 点击 ) = 延迟 ≤ 12 h 的转化 未转化点击 + 延迟 ≤ 12 h 的转化 + 延迟 > 12 h 的转化 P(转化|点击) = \frac{延迟\leq 12h的转化}{未转化点击 + 延迟\leq 12h的转化 + 延迟 > 12h的转化} P(转化∣点击)=未转化点击+延迟≤12h的转化+延迟>12h的转化延迟≤12h的转化
方案
建模延迟率预估,类似于esmm:
P ( 转化 ∣ 点击 ) = P ( 转化延迟 ≤ 12 h ∣ 点击 ) P ( 转化延迟 ≤ 12 h ∣ 转化 ) P(转化|点击) = \frac{P(转化延迟\leq 12h | 点击)}{P(转化延迟 \leq 12h | 转化)} P(转化∣点击)=P(转化延迟≤12h∣转化)P(转化延迟≤12h∣点击)
模型如下: