第四届泰迪杯数据挖掘大赛

<script src="//g.alicdn.com/aliyun/goldeneye-deploy/0.0.1/static/goldeneye.js"></script>
<link rel="stylesheet" href="//at.alicdn.com/t/font_422887_vrqbpml6oos.css">
  <!--top-header begin-->
数据派THU
            <a id="attention-opt" href="javascript:;" data-type="team" data-teamid="122" data-attention="0" class="y-btn-white opt-btn">+ 关注</a><div class="qr-panel"><div class="qr-content"><div class="t-info"><span class="text-info">手机版</span><i class="down-arrow"></i></div><img src="https://yq.aliyun.com/api/qrcode?size=138&amp;key=92631e0e68ef6d0c621c8c77caf9356a2ff943d1&amp;text=https%3A%2F%2Fyq.aliyun.com%2Fteams%2F122" alt="" class="qr-mobile" style="padding: 7px;"></div></div></div>

教你用R语言分析招聘数据,求职/转行不求人~(附代码、数据集)

  1. 云栖社区>
  2. 数据派THU>
  3. 博客>
  4. 正文

教你用R语言分析招聘数据,求职/转行不求人~(附代码、数据集)

技术小能手 2018-04-16 11:46:26 浏览1496 评论0
</div><ul class="tag-group"><li class="tag tag-item"><a href="/tags/type_blog-tagid_24/" class="label-item"><span>大数据</span></a></li><li class="tag tag-item"><a href="/tags/type_blog-tagid_1053/" class="label-item"><span>数据分析</span></a></li></ul><p class="blog-summary"><em>摘要:</em>

项目背景
在学习数据分析的路上,少不了经常逛知乎,这也是我第一篇在知乎上的文章,写这篇文章的启发来源于@BigCarrey 的一篇文章《数据分析师挣多少钱?“黑”了招聘网站告诉你!》(https://zhuanlan.zhihu.com/p/25704059),该文章给了我一些帮助,让我了解了数据分析岗位相关的信息,但同样也留给我一些疑问,该文章分析的数据分析师所需技能的结果丝毫没有R的踪影,尽管是一年前的分析,我觉得应该不可能不存在。

<div class="content-detail markdown-body">

项目背景

在学习数据分析的路上,少不了经常逛知乎,这也是我第一篇在知乎上的文章,写这篇文章的启发来源于@BigCarrey 的一篇文章《数据分析师挣多少钱?“黑”了招聘网站告诉你!》(https://zhuanlan.zhihu.com/p/25704059),该文章给了我一些帮助,让我了解了数据分析岗位相关的信息,但同样也留给我一些疑问,该文章分析的数据分析师所需技能的结果丝毫没有R的踪影,尽管是一年前的分析,我觉得应该不可能不存在。

因此,抱着证实R语言这款工具的想法,以及希望了解当前企业对数据分析岗位的需求,开始了一次针对招聘网站的数据分析岗位招聘数据的分析与挖掘实践,避免自己所学习的方向与企业实际需求脱轨。

此实例采用R语言作为分析工具,下面展现的是我整个分析过程。

目标

了解企业当前需要什么样的数据分析人才,以及应该具备的能力和素质。

分析的结果为今后的学习和求职提供指导,也为正在学习数据分析和找工作的朋友们提供一定的参考价值。

问题的分解:

不同地区经验学历企业规模数据分析岗位的需求分布以及对应的薪资分布。

探索数据分析岗位对应的工具型技能与对应的薪资水平及非工具型能力的需求。

数据集的定义

5c467f38b9a3bfc65654be57cdcfb15454931f49

表1:数据分析岗位信息表

b87a33061d2e28c4b505d41517bcaff95a49c563

表2:数据分析岗位技能关键词表

数据获取

数据来源:拉勾网

数据范围:互联网行业、数据分析岗位

数据集:全国数据分析岗位招聘信息数据集(采集样本量:449)

工具:爬虫

时间:所有数据截止2018年3月12日

数据集下载地址:

链接:https://pan.baidu.com/s/1Bz7mA_dnvD1MGTVrZKyhPA

密码:layp

数据处理

步骤1:加载原始数据

#readxl包的read_excel函数
library(readxl)
#数据加载
CN.df <- read_excel("CN_lagou_jobdata.xlsx",1)
CN.df <- CN.df[,c("title","salary","experience","education",
"campany","scale","scale2","description","phase","city")]
#观察数据,分类变量不是因子的格式,且存在不需要的字符
str(CN.df)

步骤2:识别缺失值

#VIM包的aggr函数来识别
library(VIM)
aggr(CN.df,prop=TRUE,numbers=TRUE)
111196f63fc361a3492a4d6b7ed207b82b95d16a


图1. aggr缺失值识别图

幸运的是该数据集不存在缺失值,这是很少遇到的情况。

步骤3:数据清洗

#zoo包的index函数

library(zoo)

#定义数据清洗函数

cleaning <- function(my.data){

#删除重复值

my.data <- my.data[!duplicated(my.data[c(“title”,“campany”,“description”)]),]

#计算平均月薪

min_salary <- as.numeric(sub("([0-9]).","\1",my.data$salary))

max_salary <- as.numeric(sub(".-([0-9]).*","\1",my.data$salary))

my.data$avg_salary <- (max_salary + min_salary)/2

#清理字符串中的不需要的字符

#并将需要分析的字符变量转化为因子,并对部分因子重新编码

my.dataKaTeX parse error: Expected 'EOF', got '&' at position 35: …oken operator">&̲lt;</span><span…city))

my.dataKaTeX parse error: Expected 'EOF', got '&' at position 41: …oken operator">&̲lt;</span><span…experience)

my.dataexperience&lt;spanclass=&quot;tokenpunctuation&quot;&gt;[&lt;/span&gt;my&lt;spanclass=&quot;tokenpunctuation&quot;&gt;.&lt;/span&gt;dataexperience&lt;span class=&quot;token punctuation&quot;&gt;[&lt;/span&gt;my&lt;span class=&quot;token punctuation&quot;&gt;.&lt;/span&gt;dataexperience<spanclass="tokenpunctuation">[</span>my<spanclass="tokenpunctuation">.</span>dataexperience %in% c(“不限”,“应届毕业生”)] <- “1年以下”

my.dataKaTeX parse error: Expected 'EOF', got '&' at position 41: …oken operator">&̲lt;</span><span…experience,

levels=c(“1年以下”,“1-3年”,“3-5年”,“5-10年”,“10年以上”))

#这里的学历:“大专”,“本科”,“硕士”都表明是要求该学历“及以上”

my.dataKaTeX parse error: Expected 'EOF', got '&' at position 40: …oken operator">&̲lt;</span><span…education)

my.dataeducation&lt;spanclass=&quot;tokenpunctuation&quot;&gt;[&lt;/span&gt;my&lt;spanclass=&quot;tokenpunctuation&quot;&gt;.&lt;/span&gt;dataeducation&lt;span class=&quot;token punctuation&quot;&gt;[&lt;/span&gt;my&lt;span class=&quot;token punctuation&quot;&gt;.&lt;/span&gt;dataeducation<spanclass="tokenpunctuation">[</span>my<spanclass="tokenpunctuation">.</span>dataeducation==“不限”] <- “大专”

my.dataKaTeX parse error: Expected 'EOF', got '&' at position 40: …oken operator">&̲lt;</span><span…education,levels=c(“大专”,“本科”,“硕士”))

my.dataKaTeX parse error: Expected 'EOF', got '&' at position 36: …oken operator">&̲lt;</span><span…phase),levels =

c(“不需要融资”,“未融资”,“天使轮”,“A轮”,

“B轮”,“C轮”,“D轮及以上”,“上市公司”))

my.dataKaTeX parse error: Expected 'EOF', got '&' at position 38: …oken operator">&̲lt;</span><span…campany)

my.data$scale <- factor(gsub(".(少于15人|15-50人|50-150人|150-500人|500-2000人|2000人以上).",

“\1”,paste(my.datascale&lt;spanclass=&quot;tokenpunctuation&quot;&gt;,&lt;/span&gt;my&lt;spanclass=&quot;tokenpunctuation&quot;&gt;.&lt;/span&gt;datascale&lt;span class=&quot;token punctuation&quot;&gt;,&lt;/span&gt;my&lt;span class=&quot;token punctuation&quot;&gt;.&lt;/span&gt;datascale<spanclass="tokenpunctuation">,</span>my<spanclass="tokenpunctuation">.</span>datascale2)),

levels =c(“少于15人”,“15-50人”,“50-150人”,

“150-500人”,“500-2000人”,“2000人以上”))

my.data$id <- index(my.data)

my.data <- droplevels(subset(my.data,select=-scale2))

return(my.data)

}

#清洗数据,得到清洗后的数据

CN.clean <- cleaning(CN.df)

str(CN.clean)

步骤4:文本挖掘

文本挖掘工具:jiebaR包

说明:在进行正式挖掘之前测试了一下jiebaR的关键词(keywords)分词器,测试的结果发现SQL,Python等词在jiebaR词典中的IDF值均为11.7392,但“R”这个字符无论如何(即使自定义了用户字典,或者在idf字典中添加R的idf值)都无法被分词器识别为关键词,猜测可能是默认R的词性标注或者算法实现方法的原因。但因为R是数据分析师的重要工具,识别不出来是不可容忍的,因此要另求出路。

测试代码如下:

> library(jiebaR)
> library(jiebaRD)
> engine <- worker(type = "keywords",topn = 20,idf = IDFPATH)
> keywords("我在用R,R,R,R语言,SQL,PYTHON,EXCEL等工具,了解MySQL会更有好处",engine)

结果如下:

# 11.7392 11.7392 11.7392 11.7392 6.87603 6.1635 6.11745 5.09665 
# "EXCEL" "MySQL" "PYTHON" "SQL" "好处" "语言" "工具" "了解"

解决办法

关键词算法的实现原理是TF-IDF算法,TF为词频,IDF为逆文档率(词的权重),因此TF-IDF=TF*IDF为衡量是否关键词的指标,若控制IDF,则TF-IDF的值与TF值成正比关系,简单来说TF值可以代替TF-IDF值。

由于此次分析的是数据分析师的工具和技能,因此只考虑SQL,PYTHON,R,SAS等常用且类似的词的分析,又因为该类词在jiebaR分词器识别出来的IDF值均是同级别的(即使可能存在有差异也在此假设其等值),因此这部分词汇的关键指标的衡量可以简化为出现的词频,即TF值,这个可以通过jiebaR的默认分词器(不是关键词分词器)来处理即可,最终解决R关键词识别的问题。

文本挖掘思路:

d47e62d2b349aca45e42305ed6714efbe5ed61d9 工具型技能的关键词:采用默认分词器的词频TF值
d47e62d2b349aca45e42305ed6714efbe5ed61d9 非工具型能力或素质的关键词:采用关键词分词器的TF-IDF值

代码如下:

library(jiebaR)

library(jiebaRD)

library(zoo)

library(plyr)

source(“myfun.R”)

#提取技能型关键词

#采用默认jiebaR分词器

engine <- worker(user = “user_dict.txt”)

#分词,并删除无关的词汇

word.lis <- lapply(CN.clean$description, function(x){

v <- gsub("[\u4e00-\u9fa5|0-9|\.|\-]","",segment(x,engine))

v <- v[v!=""]

return(v)

})

#将所有分出来的词转化为大写,消除大小写差异

segWords <- toupper(unlist(word.lis))

stopwords <- toupper(readLines(“stopwords.txt”))

#过滤停词,由于文本可能会存在其他高频的词汇,把不需要的词去除,如(and,of…)

#此处确保我要得到的前20个关键技能是正确的数据分析技能

segWords<-filter_segment(segWords,stopwords)

#形成词频表(数据框格式),获取前15个技能关键词

top15.df <- top.freq(segWords,topn = 15)

#生成有id和keyword构建的数据框,id对应cleandata数据集的id(即数据字典表1和表2的关系)

id <- NULL

keyword <- NULL

for (i in index(word.lis)) {

id <- c(id,rep(i,length(word.lis[[i]])))

keyword <- c(keyword,word.lis[[i]])

}

keyword.df <- data.frame(“id”=id,“keyword”=toupper(keyword))

keyword.df <- droplevels(keyword.df[keyword.dfkeyword&lt;spanclass=&quot;tokenoperator&quot;&gt;keyword &lt;span class=&quot;token operator&quot;&gt;%&lt;/span&gt;in&lt;span class=&quot;token operator&quot;&gt;%&lt;/span&gt; top15&lt;span class=&quot;token punctuation&quot;&gt;.&lt;/span&gt;dfkeyword<spanclass="tokenoperator">x,])

str(keyword.df)

#合并两个数据集(表之间的内连接,类似sql语句的inner jion)

merge.df <- merge(CN.clean,keyword.df,by=“id”)

#该数据集用于工具型技能关键词的分析str(merge.df)

#提取非技能型关键词,停词可以自行定义

keys <- worker(type = “keywords”,user = “user_dict.txt”,topn = 20,stop_word = “stopkw.txt”)

keyword.lis <- lapply(CN.clean$description, function(x){

v <- gsub("[a-zA-Z|0-9|\.|\-]","",keywords(x,keys))

v <- v[v!=""]

return(v)

})

keyword.lis <- unlist(keyword.lis)

#形成非工具型技能关键词词频表

not.tool.keyword <- top.freq(keyword.lis)

str(not.tool.keyword)

到此数据处理的过程基本完成,处理后干净的数据如下:

9f8acded3380e20097e9a703314bf8e031c75741

分析的结果

数据分析代码:

具体代码可以前往该链接查看整个过程:RPubs - 分析实例:企业需要什么样的数据分析人才(http://rpubs.com/Joffy_Z/DA_analysis)

描述统计信息:

## city phase scale education experience 
## 北京 :222 不需要融资:94 15-50: 15 大专: 33 1年以下: 34 
## 杭州 : 48 上市公司 :88 50-150: 36 本科:389 1-3:156 
## 上海 : 48 D轮及以上 :80 150-500:104 硕士: 20 3-5:206 
## 广州 : 38 C轮 :73 500-2000:116 5-10: 46 
## 深圳 : 38 B轮 :49 2000人以上 :171 
## 长沙 : 11 A轮 :42 
## (Other): 37 (Other) :16 
## avg_salary 
## Min. : 2.50 
## 1st Qu.:12.50 
## Median :17.50 
## Mean :18.22 
## 3rd Qu.:22.50 
## Max. :75.00

问题一:不同地区,数据分析岗位的需求分布以及对应的薪资分布

c0dc3889e212a1109c8a42187f16b7afb74e351a

总的来说数据分析师的平均薪资比较好,工作1年以上拿到10k月薪的机会还是比较大的,在需求量前5的城市中,北京深圳的平均薪资是最高的,广州的平均薪资最低

需求量在第二梯度的城市中,长沙成都的平均薪资较低,但武汉、厦门、郑州也有不错的薪资表现,二线城市也是一个可以考虑的选择。

需要注意的是苏州的需求量相对于其他城市是非常低的,但其平均薪酬接近深圳,是可以值得关注的城市。

问题二:不同经验,数据分析岗位的需求分布以及对应的薪资分布

b4b06e6f6e6aac112360c3c8c6c9e4be0205ad56

跟预想的差不多,薪资随工作经验的增加而有一个稳定的增长,但企业对最大的数据求集中在3-5年经验的数据分析师,这对于转型进入数据分析的人来说不是一个好的消息,转行需要更有充足的准备,且要不断寻找能够积累经验的项目来做。

问题三:不同学历,数据分析岗位的需求分布以及对应的薪资分布

9529871d9922f3b3ca40c218739a38e7b830c114

企业似乎更加注重分析师的实践经验,而不是学历的高低,但至少需要具备本科以上的学历,数据分析还是需要具备一定的理论基础,在薪资方面,相对与本科来说,硕士及以上学历在获取高薪方面并没有太大的优势,能够解决实际问题才是数据分析师拿高薪的关键,而非深奥的理论知识。大专学历的分析师还是有机会,重点在于增加自己的工作经验才是本质上与其他分析师拉开距离的关键,当然,理论知识也不能落下。

问题四:不同企业规模,数据分析岗位的需求分布以及对应的薪资分布

58c6fccecd2782301b57c20575d4de56859df442

150人规模以下的企业需求量较少,但给出的薪资较高(甚至有异常的高薪),该类企业可能处于快速融资且高速的发展阶段,需要有丰富经验的数据分析专家来建设整个数据体系。

50~150人规模的企业适合有足够经验的分析师且想要创业的人,对自己职位以及薪酬均会有明显的提升,但最大的风险就是该类企业容易失败,特别在互联网行业,因此更不建议作为转型新人的首选。

对于转型的新人,尽可能往大企业走,越大规模的企业,整个体系越成熟,因此可以在150人以上的规模从上往下选择自己合适的企业才是比较科学的方式,且需求量巨大。

问题五:数据分析岗位对应的工具型技能与对应的薪资水平

50f5c91b95b72e72be66c0613bd28136b2df21dd

SQL和Excel几乎是每个数据分析师要掌握的基础技能,大多数企业都有自己的数据库体系或者系统平台,因此企业工作人员读取和处理数据还是以数据库和Excel为主。

R,Python是两个最热门的开源数据分析工具,且当前R语言在需求仍然不低,因此核心掌握两门语言的其中一门都会让数据分析师具备有力的竞争优势。

除此之外工作经验较低的数据分析师还需要掌握一些BI可视化分析工具,工作经验较高的数据分析师需要掌握主流的关系型数据库系统和NoSQL,以及Hadoop,Hive,Spark等大数据工具,掌握Hadoop,Hive,Spark,R,Python等技能是获取高薪必备条件。

问题六:数据分析岗位对应非工具型能力的需求

声明:此处数据涉及到岗位细分和难以衡量的原因,并没有进行深入分析,词云本身不具备太高的数据分析价值,仅作为可视化关键词的分布情况的工具;阅读者需要根据自身岗位以及所处的工作定位查看关键词的情况,这里的大小表示关键词出现的频次。

775521df3df0212cc6273b8e817c5fc5a2b61ca7

通过资料的收集,了解到数据分析岗位主要有偏工程方向和偏业务方向两个类型,透过词云可以大概了解到如下信息:

d47e62d2b349aca45e42305ed6714efbe5ed61d9偏工程方向 的数据分析师对“数据挖掘”、“数据建模”、“模型分析”等能力要求较高;
d47e62d2b349aca45e42305ed6714efbe5ed61d9 偏业务方向的数据分析师对“业务分析”、“运营分析”、“产品分析”、“用户分析”等能力要求较高;
d47e62d2b349aca45e42305ed6714efbe5ed61d9 两个类型共同需要“逻辑思维”、“沟通”、“分析报告”、“统计分析”、“团队合作”等关键能力;

总结

地域来看,北京、深圳、上海、杭州、广州应该是数据分析师的首选城市,苏州是一个值得关注的城市,外部数据了解到苏州的GDP仅次于一线城市,此处结果平均薪资接近北京和深圳,但需求量较低,想要苏州发展的朋友可以关注其动态。

总体需求来看,企业更加需要具备多年工作经验,且动手能力强、解决实际问题的分析人才,随着工作经验的增加,其对应的薪资也有可观的增长。

大环境看,外部资料了解到,自助式分析工具的逐步完善与人工智能技术的突破,也可能使得企业现有业务人员能够上手基础的分析工作,导致企业对经验较低的分析师需求减少。

企业规模看,150人以上规模的企业更加适合新人进去锻炼,一方面企业已经完成了基本的数据体系架构,且越大的企业数据量级越大,另一方面,企业需要逐步培养强大的数据分析团队来支撑业务的增长。

分析师个人的角度,则需要更加关注自身成功项目经验的积累,这是升职加薪的必备条件,且需要思考未来自身的发展路径,提前做好准备,相对于业务方向,大数据工程师方向会有更可观的薪资。

能力的角度,数据分析师需要掌握SQL,Excel,R,Python四个必备的工具(R和Python可以选择其一为主要工具),新人可以注重BI,PPT等office工具的技能,如果是大数据挖掘,越往后则需要更加关注hadoop,Hive,Spark等工具;

数据分析师个人还需要注重逻辑思维、表达沟通、分析报告等关键能力

建议

对于想要转型的数据分析师新人,转型之前尽可能做好项目经验的积累,尽量做到跨岗不跨行,在自己熟悉的领域学习数据分析。

企业比较看重经验和动手能力,面试的时候尽可能展示你的作品或者案例,如果当前没有,则需要在日常学习,练习,积累。

可以掌握一些可视化工具和数据可视化的思维,熟练掌握报告和表达的技巧,数据分析的工具多样,方式多样,只有能够正确解读数据且让对方看懂听懂才是有价值的

不足与局限

本次分析并没有按照分析报告的方式来呈现,文章中以个人的整个分析过程来撰写,希望能够与各位朋友一起交流学习,如果你不同意我文章中的观点,欢迎指正交流。

文章中我附上了我的数据集以及分析的代码链接,有兴趣的朋友可以重复我的过程,甚至做更加深入有趣的分析,如果有新的发现和观点,希望也能让我知道,向你们学习。

数据仅采集到449份样本,数据量相对少一点,因此数据分析的结果需要大家用怀疑的心态来看待,且仅局限在互联网行业,相对于其他行业,本文章的分析结果只能作为一个参考。


原文发布时间为:2018-04-15
本文作者:Joffy Zhong
本文来自云栖社区合作伙伴“数据派THU”,了解相关信息可以关注“数据派THU”。
    <!-- 登录查看 begin --><!-- 登录查看 end -->
</div><div class="copyright-outer-line yq-blog-sem-remove"><div class="yq-blog-sem-remove copyright-notice">如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:yqgroup@service.aliyun.com 进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。</div></div><div class="yq-blog-sem-remove yq_blog_sem_remove_1810" style="margin-top: 20px;font-size: 12px;line-height: 1.8;color:#373d41;font-family:PingFangSC-Regular;word-break: break-all;">【云栖快讯】阿里云智能技术战略架构师陈绪:透视2019云计算酣战&nbsp;&nbsp;<a "bannerClick('1810')" href="https://yq.aliyun.com/articles/696765" target="_blank" rel="nofollow">详情请点击</a></div><div class="footer-detail yq-blog-sem-remove yq-blog-interaction clearfix"><a href="#comment" class="icon-pinglun comment_btn">评论  (<i>0</i>)</a><span id="vote_btn" has_voted="" data-aid="581850" data-islogin="false" title="点赞" class="icon-zan opt-btn vote_btn ">点赞 (<span id="vote_num">0</span>)</span><span id="mark_btn" has_marked="" data-aid="581850" data-islogin="false" title="收藏" class="icon-love opt-btn mark_btn ">收藏 (<span id="mark_num">1</span>)</span><dl class="share-to"><dt>分享到:</dt><dd><a href="http://service.weibo.com/share/share.php?title=%E6%95%99%E4%BD%A0%E7%94%A8R%E8%AF%AD%E8%A8%80%E5%88%86%E6%9E%90%E6%8B%9B%E8%81%98%E6%95%B0%E6%8D%AE%EF%BC%8C%E6%B1%82%E8%81%8C%2F%E8%BD%AC%E8%A1%8C%E4%B8%8D%E6%B1%82%E4%BA%BA%7E%28%E9%99%84%E4%BB%A3%E7%A0%81%E3%80%81%E6%95%B0%E6%8D%AE%E9%9B%86%29+%0A%E9%A1%B9%E7%9B%AE%E8%83%8C%E6%99%AF%0A%E5%9C%A8%E5%AD%A6%E4%B9%A0%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90%E7%9A%84%E8%B7%AF%E4%B8%8A%EF%BC%8C%E5%B0%91%E4%B8%8D%E4%BA%86%E7%BB%8F%E5%B8%B8%E9%80%9B%E7%9F%A5%E4%B9%8E%EF%BC%8C%E8%BF%99%E4%B9%9F%E6%98%AF%E6%88%91%E7%AC%AC%E4%B8%80%E7%AF%87%E5%9C%A8%E7%9F%A5%E4%B9%8E%E4%B8%8A%E7%9A%84%E6%96%87%E7%AB%A0%EF%BC%8C%E5%86%99%E8%BF%99%E7%AF%87%E6%96%87%E7%AB%A0%E7%9A%84%E5%90%AF%E5%8F%91%E6%9D%A5%E6%BA%90%E4%BA%8E%40BigCarrey+%E7%9A%84%E4%B8%80%E7%AF%87%E6%96%87%E7%AB%A0%E3%80%8A%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90%E5%B8%88%E6%8C%A3%E5%A4%9A%E5%B0%91%E9%92%B1%EF%BC%9F%E2%80%9C%E9%BB%91%E2%80%9D%E4%BA%86%E6%8B%9B%E8%81%98%E7%BD%91%E7%AB%99%E5%91%8A%E8%AF%89%E4%BD%A0%EF%BC%81%E3%80%8B%EF%BC%88https%3A%2F%2Fzhuanlan.zhihu.com%2Fp%2F25704059%EF%BC%89%EF%BC%8C%E8%AF%A5%E6%96%87%E7%AB%A0%E7%BB%99%E4%BA%86%E6%88%91%E4%B8%80%E4%BA%9B%E5%B8%AE%E5%8A%A9%EF%BC%8C%E8%AE%A9%E6%88%91%E4%BA%86%E8%A7%A3%E4%BA%86%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90%E5%B2%97%E4%BD%8D%E7%9B%B8%E5%85%B3%E7%9A%84%E4%BF%A1%E6%81%AF%EF%BC%8C%E4%BD%86%E5%90%8C%E6%A0%B7%E4%B9%9F%E7%95%99%E7%BB%99%E6%88%91%E4%B8%80%E4%BA%9B%E7%96%91%E9%97%AE%EF%BC%8C%E8%AF%A5%E6%96%87%E7%AB%A0%E5%88%86%E6%9E%90%E7%9A%84%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90%E5%B8%88%E6%89%80%E9%9C%80%E6%8A%80%E8%83%BD%E7%9A%84%E7%BB%93%E6%9E%9C%E4%B8%9D%E6%AF%AB%E6%B2%A1%E6%9C%89R%E7%9A%84%E8%B8%AA%E5%BD%B1%EF%BC%8C%E5%B0%BD%E7%AE%A1%E6%98%AF%E4%B8%80%E5%B9%B4%E5%89%8D%E7%9A%84%E5%88%86%E6%9E%90%EF%BC%8C%E6%88%91%E8%A7%89%E5%BE%97%E5%BA%94%E8%AF%A5%E4%B8%8D%E5%8F%AF%E8%83%BD%E4%B8%8D%E5%AD%98%E5%9C%A8%E3%80%82&amp;url=https%3A%2F%2Fyq.aliyun.com%2Farticles%2F581850" target="_blank" class="icon-weibo"></a><div class="wechat"><i class="icon-weixin"></i><img src="/api/qrcode?size=140&amp;key=8c3dab9b143a617cf80b4a3edcb57e8cdfac2fcd&amp;text=https%3A%2F%2Fyq.aliyun.com%2Farticles%2F581850" alt=""></div></dd></dl>
</div>
<div class="yq-blog-pre-next yq-blog-sem-remove"><ul class="about-c-list"><li><a href="/articles/581830">上一篇:一文掌握机器学习必备数学知识(附学习资源)</a></li><li><a href="/articles/581860">下一篇:当当卖身海航的价格定了:75亿</a></li></ul>
</div><div class="yq-blog-related-articles yq-blog-sem-remove"><h3 class="title-info">相关文章</h3><ul class="about-c-list"><li><a href="/articles/221610">关于数据科学的那些事</a></li><li><a href="/articles/306752">放弃“for循环”,教你用这种算法 !(附代码)</a></li><li><a href="/articles/592502">教你用Python解决非平衡数据问题(附代码)</a></li><li><a href="/articles/638659">【译Py】数据科学面试终极指南02</a></li><li><a href="/articles/601118">业界 | 想转行?数据科学全流程求职指南</a></li><li><a href="/articles/603362">手把手教你用R处理常见的数据清洗问题(附步骤解析、R语言…</a></li><li><a href="/articles/613772">手把手教你用RNN做情感分析—初学者指南(附代码)</a></li><li><a href="/articles/601458">手把手教你用Prophet快速进行时间序列预测(附Pro…</a></li><li><a href="/articles/229877">我是如何从会计转行到数据分析</a></li><li><a href="/articles/272461">教你用TensorFlow实现神经网络(附代码)</a></li></ul></div><div class="yq-blog-comment yq-blog-sem-remove" data-async-load="true" data-type="article" data-pid="581850" data-p="1"><h3 class="title-info">网友评论</h3><section class="comments-box clearfix"><div class="media-list comments" id="comments">
            <form accept-charset="UTF-8" action="/comments" method="POST" data-remote="true" data-target="#comments" class="js-comment-create js-active-on-valid css-unlogin"><input type="hidden" name="type" value="article"><input type="hidden" name="yunqi_csrf" value="1MRPKRTMOZ"><input type="hidden" name="isCheck" value="1"><input type="hidden" name="pid" value="581850"><div class="form-group"><div class="editor">

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481222.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一般化机器学习与神经网络

0前言机器学习的初学者很容易被各种模型搞得晕头转向。如果扎进各种模型的细节无法自拔的话&#xff0c;可能很难发现一般化的框架。如果你觉得神经网络是非常不同的机器学习模型&#xff0c;如果你觉得神经网络的各种新名词让你觉得这完全就是一片新天地&#xff0c;那么可能你…

扩散模型再发力!图灵奖得主Hinton团队提出:图像和视频全景分割新框架

来源&#xff1a;机器之心作者&#xff1a;Ting Chen 等 编辑&#xff1a;赵阳本文的创新点一方面在于能够在大型全景掩码上训练扩散模型&#xff0c;一方面在于可以同时适配图片和流媒体场景。全景分割是一项基本的视觉任务&#xff0c;该任务旨在为图像的每个像素指定语义标…

经典的K-means聚类算法

原理部分主要来自大牛zouxy09和trnadomeet两个人的博客&#xff1b;后面的代码详细讲解为自己精心编写 一、概述 非监督学习的一般流程是&#xff1a;先从一组无标签数据中学习特征&#xff0c;然后用学习到的特征提取函数去提取有标签数据特征&#xff0c;然后再进行分类器的训…

《Cell》发现免疫系统的“武器研发实验室”

来源&#xff1a;生物通如果B细胞是免疫系统的兵工厂&#xff0c;制造抗体来中和有害的病原体&#xff0c;那么被称为生发中心的微小生物结构就是它的武器开发设施。.淋巴结的生发中心簇充满了成熟的B细胞(红色)&#xff0c;点缀着进化程度较低的B细胞(绿色)。 如果B细胞是免…

机器学习从理论到工程的第一步-编程语言篇

前言在文章《机器学习从业者如何兼顾理论与工程》中&#xff0c;小夕对编程语言的选择进行了小小建议。鉴于有些同学对小夕建议的“主python&#xff0c;辅C&#xff0c;备用matlab和java”疑问较大&#xff0c;小夕在此详细解释一下&#xff0c;也欢迎大家补充新观点哦。为什么…

聚类算法当中的K-means算法如何去做天猫淘宝的推广任务

5 人赞同了该回答figure data-size"normal">data-size"normal">这个入口是全网人气新品池&#xff0c;我们今天所获取到的数据都是来源于这里。无论是C店还是B店&#xff0c;统统都有机会进来。这个平台最有价值的数据&#xff0c;就是可以告诉我们自…

通过双重众包预测 RNA 降解的深度学习模型

编辑 | 萝卜皮基于信使 RNA (mRNA) 的药物具有巨大的潜力&#xff0c;正如它们作为 COVID-19 疫苗的快速部署所证明的那样。然而&#xff0c;mRNA 分子的全球分布受到其热稳定性的限制&#xff0c;这从根本上受限于 RNA 分子对称为在线水解的化学降解反应的固有不稳定性。预测 …

线性代数应该这样讲(一)

前言小夕为什么要讲线性代数呢&#xff1f;因为有人已经做了机器学习一段时间了&#xff0c;竟然认为矩阵就是用来存储数据的。小夕表示非常震惊。而深刻透彻的理解核函数、PCA、LSI、谱聚类等以空间映射为理论核心的机器学习理论时&#xff0c;靠大学里教的那一套线性代数&…

震惊!丧心病狂的夕小瑶推出新一轮写作计划!

时至今日&#xff0c;距离小夕发布的第一篇正式文章已经过去整三个月啦。今天又回头看了一下自己写的第一篇文章&#xff0c;不禁有点感慨“文风”变了这么多&#xff0c;甚至有点受不了第一篇文章中的萌气了\(//∇//)\然后文章还写的不怎么样。。。虽然第一篇文章写的好差&…

LeCun预言的自监督模型来了:首个多模态高性能自监督算法,语音、图像文本全部SOTA...

来源&#xff1a;机器之心编辑&#xff1a;nhyilin人类似乎对不同的学习模式有着相似的认知&#xff0c;机器也应该如此&#xff01;>>>>自监督学习能在各种任务中学习到分层特征&#xff0c;并以现实生活中可使用的海量数据作为资源&#xff0c;因此是走向更通用人…

史上最清楚的BP算法详解

前馈神经网络 在文章《逻辑回归到神经网络》&#xff08;以下简写《LR到NN》&#xff09;中&#xff0c;小夕为大家描述了一个从逻辑回归延伸到神经网络的过程。在《一般化机器学习与神经网络》中&#xff0c;小夕阐述了神经网络的一般性。这一篇会完全进入神经网络的状态&…

基于主动学习算法减少人工标注量,提升文本标注效率的方案探究

基于主动学习算法减少人工标注量&#xff0c;提升文本标注效率的方案探究阅读 451收藏 232018-06-26原文链接&#xff1a;yq.aliyun.comOPPO技术开放日第三期&#xff0c;未来的探索 AI&AR的实践应用juejin.im项目地址: https://github.com/crownpku/Chinese-Annotator 自…

具有生物启发训练方法的物理深度学习:物理硬件的无梯度方法

编辑 | 绿萝对人工智能不断增长的需求推动了对基于物理设备的非常规计算的研究。虽然此类计算设备模仿了大脑启发的模拟信息处理&#xff0c;但学习过程仍然依赖于为数字处理优化的方法&#xff0c;例如反向传播&#xff0c;这不适合物理实现。在这里&#xff0c;来自日本 NTT …

BP算法是从天上掉下来的吗?

第二个标题&#xff1a;一般而特殊的前馈神经网络前馈神经网络在文章《逻辑回归到神经网络》&#xff08;以下简写《LR到NN》&#xff09;中&#xff0c;小夕为大家描述了一个从逻辑回归延伸到神经网络的过程。在《一般化机器学习与神经网络》中&#xff0c;小夕阐述了神经网络…

深度学习如何应用在广告、推荐及搜索业务?阿里妈妈实践案例解读

</span></ul><div class"markdown-body"><div id"meta_content" class"rich_media_meta_list"> </div>阿里妹导读&#xff1a;靖世&#xff0c;阿里妈妈精准展示技术研究员。2011 年&#xff0c;刚进阿里的他提出…

AI for Science的上半场:人工智能如何重新定义科学研究新范式?

AI发展七十余年&#xff0c;每一技术性突破都将给人类未来开辟新一种可能性。而它与科学研究的深度融合&#xff0c;则会裂变出无数或无穷种可能性。来源 :36氪万众瞩目下&#xff0c;今年10月&#xff0c;有着诺贝尔奖“嫡传”之称的诺贝尔化学奖终于揭晓&#xff0c;授予了对…

从前,小夕种了一棵树

从前&#xff0c;小夕种了一棵树&#xff0c;种在了小夕的小屋后面~为什么要种这棵树呢&#xff1f;因为呀&#xff0c;它可以帮小夕总结历史经验&#xff0c;然后帮小夕对当前的局势做出决策~这样小夕就可以安心给大家写文章啦~这棵树是这样的。一开始&#xff0c;小夕买了一颗…

用于化学动力学模拟的原子神经网络表示

编辑 | 白菜叶机器学习技术已广泛应用于化学、物理、生物学和材料科学的许多领域。最富有成果的应用之一是从离散量子化学数据中学习势能或相关电子特性的复杂多维函数。特别是&#xff0c;大量努力致力于开发各种原子神经网络 (AtNN) 表示&#xff0c;这些表示是指将目标物理量…

自然语言生成任务,如文本摘要和图像标题的生成。seq2seq的模型原理

版权声明&#xff1a;本文为博主原创文章&#xff0c;未经博主允许不得转载。 https://blog.csdn.net/Irving_zhang/article/details/78889364 </div><link rel"stylesheet" href"https://csdnimg.cn/release/phoenix/template/css/ck_htmledit…

史上最简单的决策树模型讲解

从前 从前&#xff0c;小夕种了一棵树&#xff0c;种在了小夕的小屋后面~ 为什么要种这棵树呢&#xff1f;因为呀&#xff0c;它可以帮小夕总结历史经验&#xff0c;然后帮小夕对当前的局势做出决策~这样小夕就可以安心给大家写文章啦~ 这棵树是这样的。 一开始&#xff0c;小夕…