pandas 根据单号分类_由 “猫捉老鼠”游戏联想的用户分类问题

7ee553757141d58c9875bce8c73936f1.png一、说在最前  

用户识别,用户分类,精准营销…这是咱们业务人员常常念叨的话。底层逻辑为无论任何营销目的,在营销手段上,越针对某一细化群体,达成目的的概率也就会越大。那今天就来和大家说道说道用户识别/分类的一种方法。

d86213e5a9916afbb1e0107dc7c4a5f5.gif

(一)猫捉老鼠

标题中所说的猫和老鼠,不是汤姆and杰瑞,而是公司与黑产的对抗。我们在日常工作中也会有所耳闻和接触。比如平台有一些营销活动,无数黑产就会闻风而来,进行“薅羊毛”行为。

黑产往往有组织,有计划地进行套利,大多企业不会坐以待毙。攻防之间,套路不断演变、战场不断扩大、技术不断升级。本文就是基于黑产中的一个小场景展开了一场“猫捉老鼠”游戏。

(二)分类问题

猫捉老鼠的游戏也需要去识别是像杰瑞一样的“好老鼠”,还是过街被打的“坏老鼠”,这就涉及到分类问题了。最简单,也是最常见的就是"Yes/No"这样的二分类问题。比如:
  • 某个模块被点击的可能性(点/不点)

  • 某个用户买机票的可能性(买/不买)

  • 某个用户是黄牛的可能性(是/不是)

有些问题无法立马得到确切回答,好比求婚时,你不知道得到"Yes"还是"No",这个时候也许可以求助于伟大的统计学了。7ee553757141d58c9875bce8c73936f1.png二、 逻辑回归 032bf7e6ed52ec1ab6e939fd3b5cb313.png

提到二分类问题,经典的逻辑回归(Logistic Regression)就不得不登场了。虽然名字中带“回归”两字,但它解决的并不是回归问题,而是分类问题,且它是基于对某一类别或事件发生的概率进行建模的。比如:被点击/不被点击、会买/不会买、是黄牛/不是黄牛。明白了这一点,各位看官就随我一起来瞅瞅它是如何用概率进行分类的。

(一)线性回归VS逻辑回归

逻辑回归和线性回归在原理上有很多相似之处,对比来看会更加清晰。大多人对线性回归会比较熟悉,由此来引入逻辑回归,也比较易于理解和接受。

1、线性回归

有一组数据,包含两列:重量和尺寸。想探索二者之间的关系,自然建立一个线性回归模型,用重量预测尺寸。具体步骤如下:

(1)获取数据,包含重量和尺寸

234082bfa5961c36a03214965ce3abe3.png

(2)建立模型,拟合一条直线

在确定直线时,运用最小二乘法。计算每个点到拟合直线的距离(残差),先平方再求和,然后通过最小化残差平方和,确定直线的斜率和截距。

814a6325abd09ac1e55c6b3b68bbb874.png

(3)预测

利用重量和尺寸之间的线性关系,确定重量值之后,就可以预测对应的尺寸的值。

fdc08b8a74923b576cc8e4152faa62c4.png

2、逻辑回归

逻辑回归用来预测分类问题,比如是否肥胖。有一组数据,包含两列:重量和是否肥胖。探索二者之间的关系,用重量来预测是否肥胖。

(1)获取数据,包含重量和它所属的类别,即是否肥胖。

826975095f8e46fe1400d4be8abebcf8.png

(2)建立模型,拟合出一条S型曲线。

逻辑回归拟合的是一条S型曲线,并且曲线在纵轴的取值范围是0到1,代表的是以重量衡量时,属于肥胖的概率。

ae45bc679559e8eed05b29ba16f6bda0.png

(3)模型解读,预测

对于A的重量,它属于肥胖的概率比较小,在0.5左右,对于B的重量,它属于肥胖的概率比较大,大约在0.9以上。当知道一个重量时,就能获得对应的属于肥胖的概率。

(二)逻辑回归的基本思想

       复杂的算法原理公式在此就不具体展开了,感兴趣的小伙伴可以参考博文http://blog.csdn.net/pakko/article/details/37878837。不感兴趣的小伙伴可以直接跳到案例应用部分。

1、Sigmoid函数

在逻辑回归中,我们需要借助Sigmoid函数来构建似然函数。

2、最大似然估计

上述的小例子仅包含“重量”这一个特征,那当相关特征非常多的时候,我们需要给每个特征乘上一个系数,使用的方法是最大似然估计。

3、梯度下降法

使用梯度下降法获得最优参数,使得预测值和真实值之间的差距最小得到的最优结果。

(三)逻辑回归的用途

(1)寻找主要影响因素:系数绝对值越大,说明该变量越重要。(2)预测:预测在不同的自变量情况下,某事件发生的概率。(3)分类:据概率值大小,进行分类。7ee553757141d58c9875bce8c73936f1.png 三、案例应用 

本文开头介绍了猫和老鼠的游戏,接下来将使用LR模型,基于黑产其中的一个小场景——恶意占编进行黑用户的识别。

(一)案例背景

以购买机票为例,用户在任何平台创建订单后呢,平台会去锁定航司处这张票的资源。如果等用户支付后占编,就需要承担创单和支付订单时间差内的价差及库存变化,有高额成本。而支付前占编呢,就会给黑用户可乘之机,恶意占编不付款,而后以更高价格转售或以其他途径进行牟利。航司爸爸发现后就会对平台进行封号、警告、罚款。平台弱小,可怜,无助…

(二)分析过程

那必然不能坐以待毙,任黑产使劲薅,万一被薅秃了可咋整?

d858adbb2bc82747d8519e75d6a13af8.gif

于是,机智的捕鼠小分队出动,基于某一真实场景制定了精密的计划,如下图所示。在此主要给大家说道说道策略开发这一趴。

32ea41053cef44b5261f7edf2545ea40.png

1、样本扩充

目前警长手中只有100个线索,也就是只有100个恶意占编的订单号。线索过少,找不到所有同伙。也就是当数据量达到一定程度后,才能反映出特定的规律,所以首先进行黑订单样本扩充。

d8c18f79d3da420415ebde46197aad8d.png

(1)黑订单号对应的账号下的其余订单号:通常一个会员账号会多次重复下单;(2)黑订单账号对应的注册手机号作为联系人手机号出现在其他订单中的订单;(3)黑订单账号对应的联系人手机号作为注册手机号出现在其他订单中的订单。2、特征识别

从“预订人”,“乘机人”,“订单”三个维度着手,获取用户的相关基础信息以及行为数据,考虑黑用户与正常用户的行为数据差异,进行特征识别,下图是部分特征。

5f8689f9ba2d6636e09a79e2165e74f0.png

3、模型建立

(1)特征工程

a)离散型数据处理

会员等级等变量是定类型变量,利用pandas的get_dummies方法,对其进行one-hot编码。

0cbf4bec0d219ffc0d552e564ab9bd28.png

b)连续型数据处理

由于多个特征之间差异较大会造成梯度下降算法收敛速度变慢。因此对连续型变量等进行归一化处理。

b75b37c929a8a42c1b4c9f3cddaced86.png

(2)具体建模a)划分数据集

将数据集划分为训练集和测试集。

8a5e52216b22c10f008fb540af605590.png

b)训练模型并调参

0830e24efc49d94f97d5575aaad521a2.png

c)输出特征重要性

d2e2c04ae7b7ab8737c8940c1cb79d46.png

在Logistic模型中,输入的特征都对应一个系数,系数绝对值越大,就认为该特征越重要。d)输出模型准确性

5d8ba84ac28568fcbb3f3f1043bc8278.png

经过调参,模型在训练集和测试集的准确率较高,到达80%,故认为模型的输出结果可信度较高。

e)模型应用

根据模型输出结果,对近8000名用户,打上“高度疑似恶意占编用户”,应用于风控系统,将其占编方式设定为“支付后占编”。

7ee553757141d58c9875bce8c73936f1.png 四、讲在最后 

分类是我们简化认识,理解世界最常用的方式之一。我们可以一起来探索更多的方法途径,去更好地认识产品,认识用户。没时间解释了,小伙伴们快上车!

df482c1c26f3ed039b1f8bdc914cd498.png

发现“在看”和“赞”了吗,戳我试试吧

d994f0ecaa907d773574c8197e47deac.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/381534.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python解释器环境中、用于表示上一次_文学人类学概说_尔雅文学人类学概说答案第四小节课后作业答案...

【判断题】对零星分数的统计资料,经过统计分组整理后,仍然不能发现其特点和规律。【单选题】小明一家三口在食用自制的臭豆腐后,相继出现全身乏力、头晕、头痛,继而出现视力模糊、眼睑下垂、复视、吞咽困难等症状,他们…

[Golang]slice的用法以及和数组的区别

说明 slice是go的一个语言特性,其实有点类似于cpp的vector,可变长度,可以扩展空间。今天详细看了下,做下总结。 slice本质上是一个区间,原型是[]T,大致的实现是这样的: type slice struct {first *Tlen i…

IE Firefox通用DOM

要写出在各大主流浏览器上都兼容的JS代码,就要关注他们的区别,下是IE和FF综合考虑的通用DOM! 1.document.formName.item("itemName") 问题说明:IE下,可以使用document.formName.item("itemName")或document.formName.ele…

arraylist从大到小排序_java基础算法之二叉树排序(递归)

一、二叉树介绍在计算机科学中,二叉树是每个结点最多有两个子树的树结构。二叉树由各种节点组成,如下图所示:每个节点都可以有左子节点,右子节点每一个节点都有一个值二叉树遍历:二叉树的遍历分左序,中序&a…

uvm 形式验证_IC设计职位详解之“数字验证工程师”就业必学课程

数字验证处于数字IC设计流程的前端,属于数字IC设计类岗位的一种。在IC设计中,数字验证所占的人数比重是非常多的,很多大公司,数字前端设计工程师与验证工程师的比例已经达到1:3。数字验证主要分成几种层次的验证&#…

[Golang]slice值传递存在的问题

说明 因为slice是指针类型,所以很多人会误以为其传递的是引用,所以在使用的过程中会出现一些非期望的实现。 问题 在使用append函数时,比如以下函数: func sliceModify(slice []int) {// slice[0] 88slice append(slice, 6) } …

IE8给你选择的理由

记得第一次用电脑时的情景,有点兴奋,双手不知道往哪里放,还有点局促和不安,怕不小心弄坏了它。也记得第一次上网,那个时候的上网就是用浏览器去访问在线聊天室,去和不认识的人去聊天,在网络信息…

流畅的python目录_流畅的python python 序列

内置序列 容器类型 list 、tuple和collections.deque这些序列能放入不同的类型的数据 扁平序列 str、byets、bytearray、memoryview(内存视图)和array.array(数组) 可变序列 list、bytearray、array.array、collections.deque和memoryview 不可变序列 tuple、str和bytes 可变序…

[Golang] 用interface{}实现泛型出现的问题

说明 在做一些实现的时候,碰到了一个棘手的问题,问题是这样的,向一个函数里传入slice和begin,end,返回slice[begin:end]。很明显这是一个实现泛型的问题,但是在做具体实现的时候出现问题。 问题 根据问题,很容易写下如…

dwf怎么合成一个_将ActionForm拼合成一条插入和更新语句

package chs.jhsyss.form;import java.lang.reflect.InvocationTargetException;import java.lang.reflect.Method;import java.util.Date;public class Waper {public Waper(){}/*** 本方法用于将FORM对象组装成一条INSERT语句* param obj ActionForm 以及其子对象* param for…

WebHelper类

成员一:获取上下文对象: public static HttpContext GetContext() { HttpContext context HttpContext.Current; if (context null) { throw new Exception("HttpContext not found"…

关联查询数据重复怎么办_在设计数据表的时候,是一个宽表好,还是多个维度表好?...

数据仓库每张表的搭建,主要依赖于这个表在整个数据仓库中的作用和相关意义。首先要清楚这个表的存在是为了解决那些问题,什么角色使用,怎么保证使用者尽可能好的体验解决问题。从以上所提到的角度去看待问题,拆解以下几点因素&…

[Beego] [bootstrap-paginator]实现分页功能

说明 在开发中分页功能几乎是必不可少的一项功能,使用beego框架开发时,就遇到了分页功能的需求。可能是之前版本并不支持,我发现有很多自己实现的分页功能的封装,在阅读了官方源码时,我发现了分页功能的封装&#xff0…

电磁波传播相位是否会变化_相位常数β与波数k是一回事吗?

1.相位常数β与波数k先明确一点:相位常数是指传输线,而波数是指平面波。1.1. 波数k wavenumber波数k:单位长度上有多少弧度?Jun.14.2019电磁波在材料中以光速 运动:材料的磁导率:材料的介电常数in free spa…

c#获取系统时间的方法

转:http://bbs.bc-cn.net/viewthread.php?tid238469 //今天DateTime.Now.Date.ToShortDateString();//昨天,就是今天的日期减一DateTime.Now.AddDays(-1).ToShortDateString();//明天,同理,加一DateTime.Now.AddDays(1).ToShortDateString()…

用python画出叶子_太疯狂了!原来用粉笔画画,也可以这么美,简单几招教你,美到邻居羡慕嫉妒...

......点进来之前先让大家瞧瞧相信这是用粉笔画的吗?▼玫瑰花▼山茶花▼蓝色鸢尾花▼樱花树▼这一张张让人直流鼻血的作品没错这就是用色粉笔画出来的很多人问:是不是平时老师上课时用的粉笔呢?这里给大家科普下:色粉画&#xff0…

jsonp react 获取返回值_必须要会的 50 个React 面试题(下)

翻译:疯狂的技术宅原文:https://www.edureka.co/blog/interview-questions/react-interview-questions29. 你对受控组件和非受控组件了解多少?受控组件非受控组件1. 没有维持自己的状态1. 保持着自己的状态2.数据由父组件控制2.数据由 DOM 控…

ASP.Net ListBox DropdownList 不同条目 设置 背景色 和 字体颜色

转载于:https://www.cnblogs.com/sjcatsoft/archive/2008/11/08/1329787.html

[jQuery] 根据表单的不同参数跳转不同的链接

说明 在实现前端的时候,我们有些需求是这样的: 1. 需要表单来向服务端get或post参数 2. 表单数据不只一个 3. 需要根据不同的提交的数据参数、类型等信息提交到不同 思路 把请求放到后端处理是可以的,但是显然这样处理会增加系统的复杂度&…

snipaste截图软件滚动截图_截图工具的逆袭,Snipaste 还可以这么玩

这是我们的历史文章。为让大家更好找到自己需要的软件,我们会在三条位置推送,那些备受关注的APP和软件。提到「截图」大家会想到什么呢?微信,QQ 或者 功能更加完善的截图工具?有想过「截图」可以这样用吗?还…