Scala-Spark digamma stackoverflow问题

这两天在用spark做点击率的贝叶斯平滑,参考雅虎的论文进行了一番尝试。

先上代码:

 1 # click_count, show_count # this method takes time
 2 def do_smooth(data_list):
 3     import scipy.special as sp
 4     a, b, i = 1.0, 1.0, 0
 5     da, db = a, b
 6     while i < 1000 and (da > 1.0E-10 or db > 1.0E-10):
 7         x1, y1, x2 = 0.0, 0.0, 0.0
 8         for lineList in data_list:
 9             x1 += sp.digamma((lineList[0]) + a) - sp.digamma(a)
10             y1 += sp.digamma((lineList[1]) + a + b) - sp.digamma(a + b)
11             x2 += sp.digamma((lineList[1]) - (lineList[0]) + b) - sp.digamma(b)
12         na, nb = a, b
13         a *= (x1 / y1)
14         b *= (x2 / y1)
15         da, db = abs(a - na), abs(b - nb)
16         i += 1
17     print i, a, b
18     return a, b

 

这是我之前用的python代码,改成scala也相当容易,digamma函数非常耗时,而且还要迭代1000次。最要命的是digamma在scala里面默认的实现会出现栈溢出!!!

var a, b, da, db: Double = 1.0
var index = 0
while (index < 1000 && (da > 1.0E-9 || db > 1.0E-9)) {var x1,x2,y1 = 0.0traindata.foreach(p => {x1 += MBlas.digamma(p(2) + a) - MBlas.digamma(a)y1 += MBlas.digamma(p(1) + a + b) - MBlas.digamma(a + b)x2 += MBlas.digamma(p(1) - p(2) + b) - MBlas.digamma(b)val na = aval nb = ba *= (x1 / y1)b *= (x2 / y1)da = Math.abs(a - na)db = Math.abs(b - nb)})
}

 

digamma 函数是个递归函数,问题就处在递归上了。

 1    public static double digamma(double x) {
 2         if (x > 0 && x <= S_LIMIT) {
 3             return -GAMMA - 1 / x;
 4         }
 5         if (x >= C_LIMIT) {
 6             double inv = 1 / (x * x);
 7             return FastMath.log(x) - 0.5 / x - inv * ((1.0 / 12) + inv * (1.0 / 120 - inv / 252));
 8         }
 9         return digamma(x + 1) - 1 / x;
10     }

 

既然知道问题所在,是不是就可以重写递归为非递归呢?在Stack Overflow上找到了一个答案

 1 val GAMMA = 0.577215664901532860606512090082
 2 val GAMMA_MINX = 1.e-12
 3 val DIGAMMA_MINNEGX = -1250
 4 val C_LIMIT = 49
 5 val S_LIMIT = 1e-5
 6 var value = 0.0
 7 var x = input
 8 while (true) {
 9     if (x >= 0 && x < GAMMA_MINX) x = GAMMA_MINX
10     if (x < DIGAMMA_MINNEGX) {
11         x = DIGAMMA_MINNEGX + GAMMA_MINX
12     } else {
13         if (x > 0 && x <= S_LIMIT) return value + -GAMMA - 1 / x
14         if (x >= C_LIMIT) {
15             val inv = 1 / (x * x)
16             return value + Math.log(x) - 0.5 / x - inv * ((1.0 / 12) + inv * (1.0 / 120 - inv / 252))
17         }
18         value = value - 1.0 / x
19         x += 1
20     }
21 }

 

经测试,没看出什么问题,可以用了。
不过,上面的代码并没有解决慢的问题,当需要计算CTR的对象比较多时(几百万),仍然比较耗时。所以我决定用两个替代方法:

  1. 抽样,抽取能在可接受时间内出结果的样本数,得到α和β;
  2. 直接使用平均值作为α和β
  3. 使用平均值做迭代初值(推荐)

参考:
1. 雅虎专家的论文,如上
2. Stack Overflow 网友代码,如上

 

转载于:https://www.cnblogs.com/longwind09/p/7588324.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/253332.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

IIS接口详细介绍

1. 概述 I2S Inter-IC Sound Integrated Interchip Sound IIS&#xff0c;是飞利浦在1986年定义&#xff08;1996年修订&#xff09;的数字音频传输标准&#xff0c;用于数字音频数据在系统内器件之间传输&#xff0c;例如编解码器CODEC、DSP、数字输入/输出接口、ADC、DAC…

UVA - 10934 Dropping water balloons(装满水的气球)(dp)

题意&#xff1a;有k个气球&#xff0c;n层楼&#xff0c;求出至少需要多少次实验能确定气球的硬度。气球不会被实验所“磨损”。 分析&#xff1a; 1、dp[i][j]表示第i个气球&#xff0c;测试j次所能确定的最高楼层。 2、假设第i-1个气球测试j-1次所确定的最高楼层是a, 若第i个…

继承进阶

先讲一个例子&#xff1a; #老师有生日&#xff0c;怎么组合哪&#xff1f; class Birthday: # 生日def __init__(self,year,month,day):self.year yearself.month monthself.day dayclass Teacher: # 老师<br>def __init__(self,name,birth):self.name nameself.b…

PCM接口详细介绍--TDM方式

1. 概述 PCM = Pulse Code Modulation 是通过等时间隔(即采样率时钟周期)采样将模拟信号数字化的方法。图为4 bit 采样深度的PCM数据量化示意图: PCM数字音频接口,说明接口传输的音频数据是通过PCM方式采样得到的,区别于PDM形式;IIS传输的也是PCM类型数据,属于其一个特…

网站同源策略

所谓"同源"指的是"三个相同"&#xff1a;协议&#xff0c;域名&#xff0c;端口。 举例来说&#xff0c;http://www.example.com/dir/page.html这个网址&#xff0c;协议是http://&#xff0c;域名是www.example.com&#xff0c;端口是80&#xff08;默认端…

Kconfig文件结构(图文)简介

1 Kconfig和Makefile 毫不夸张地说&#xff0c;Kconfig和Makefile是我们浏览内核代码时最为依仗的两个文件。基本上&#xff0c;Linux 内核中每一个目录下边都会有一个Kconfig文件和一个Makefile文件。Kconfig和Makefile就好似一个城市的地图&#xff0c;地图引导我们去 认识一…

PDM接口介绍

1. 概述 PDM Pulse Density Modulation是一种用数字信号表示模拟信号的调制方法。 PDM则使用远高于PCM采样率的时钟采样调制模拟分量&#xff0c;只有1位输出&#xff0c;要么为0&#xff0c;要么为1。因此通过PDM方式表示的数字音频也被称为Oversampled 1-bit Audio。相比P…

js正则学习分享

http://www.cnblogs.com/rubylouvre/archive/2010/03/09/1681222.htmlhttp://www.cnblogs.com/tylerdonet/p/4262251.html //正整数 /^[0-9]*[1-9][0-9]*$/; //负整数 /^-[0-9]*[1-9][0-9]*$/; //正浮点数 /^(([0-9]\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9])|([0-9]*[1…

Linux系统下UDP发送和接收广播消息小例子

分类&#xff1a; 网络通信 2013-01-07 10:54 1336人阅读 评论(6) 收藏 举报 [cpp] view plaincopyprint?// 发送端 #include <iostream> #include <stdio.h> #include <sys/socket.h> #include <unistd.h> #include <sys/types.h>…

Kaggle 泰坦尼克

入门kaggle&#xff0c;开始机器学习应用之旅。 参看一些入门的博客&#xff0c;感觉pandas&#xff0c;sklearn需要熟练掌握&#xff0c;同时也学到了一些很有用的tricks&#xff0c;包括数据分析和机器学习的知识点。下面记录一些有趣的数据分析方法和一个自己撸的小程序。 1…

语音交互设备 前端信号处理技术和语音交互过程介绍

一、前端信号处理 1. 语音检测&#xff08;VAD&#xff09; 语音检测&#xff08;英文一般称为 Voice Activity Detection&#xff0c;VAD&#xff09;的目标是&#xff0c;准确的检测出音频信号的语音段起始位置&#xff0c;从而分离出语音段和非语音段&#xff08;静音或噪…

css中伪类与伪元素的区别

一&#xff1a;伪类&#xff1a;1:定义&#xff1a;css伪类用于向某些选择器添加特殊效果。 伪类其实与普通的css类相类似&#xff0c;可以为已有的元素添加样式&#xff0c;但是他只有处于dom无法描述的状态下才能为文档树中的元素添加样式&#xff0c;所以将其称为伪类。 2:伪…

【BZOJ1500】[NOI2005]维修数列 Splay

【BZOJ1500】[NOI2005]维修数列 Description Input 输入的第1 行包含两个数N 和M(M ≤20 000)&#xff0c;N 表示初始时数列中数的个数&#xff0c;M表示要进行的操作数目。第2行包含N个数字&#xff0c;描述初始时的数列。以下M行&#xff0c;每行一条命令&#xff0c;格式参见…

bzoj2588: Spoj 10628. Count on a tree(树上第k大)(主席树)

每个节点继承父节点的树&#xff0c;则答案为query(root[x]root[y]-root[lca(x,y)]-root[fa[lca(x,y)]]) #include<iostream> #include<cstring> #include<cstdlib> #include<cstdio> #include<algorithm> using namespace std; const int maxn1…

图文详解YUV420数据格式

YUV格式有两大类&#xff1a;planar和packed。 对于planar的YUV格式&#xff0c;先连续存储所有像素点的Y&#xff0c;紧接着存储所有像素点的U&#xff0c;随后是所有像素点的V。 对于packed的YUV格式&#xff0c;每个像素点的Y,U,V是连续交*存储的。 YUV&#xff0c;分为三个…

USB通信接口介绍

1. 概述 Usb Universal Serial Bus全称通用串行总线&#xff0c;是一种支持热插拔的高速串行传输总线&#xff0c;使用差分信号来传输数据。 USB设备可以直接和host通信&#xff0c;或者通过hub和host通信。一个USB系统中仅有一个USB主机&#xff0c;设备包括功能设备和hub&…

关于java中BufferedReader的read()及readLine()方法的使用心得

BufferedReader的readLine()方法是阻塞式的, 如果到达流末尾, 就返回null, 但如果client的socket末经关闭就销毁, 则会产生IO异常. 正常的方法就是使用socket.close()关闭不需要的socket. 从一个有若干行的文件中依次读取各行&#xff0c;处理后输出&#xff0c;如果用以下方法…

HDCVI——一种创新性的高清视频传输方案

什么是HDCVI 2012年11月&#xff0c;大华技术股份有限公司发布了具有自主知识产权的同轴高清传输接口技术HDCVI。HDCVI技术是一种基于已有SYV75-3或SYV75-5同轴电缆的高清视频传输方法&#xff0c;能够在低成本和较低质量的同轴电缆上实现超长距离高清视频信号的可靠传输。相比…

typedef struct 用法

如果在c程序中我们写&#xff1a;    typedef struct     {    int num;    int age;    }aaa,bbb,ccc;    这算什么呢&#xff1f;    我个人观察编译器&#xff08;VC6&#xff09;的理解&#xff0c;这相当于    typedef struct     …

智能机器人品牌简介

随着科技的发展&#xff0c;硬件的计算速度和大数据支撑&#xff0c;越来越多的智能化设备和产品出现在我们的面前&#xff0c;为我们的生活带来更多便利。其中包括智能机器人&#xff0c;这种产品是有自己的“大脑”&#xff0c;可以接收人为指令&#xff0c;为人服务&#xf…