【转载保存】推荐ApacheCN开源的一个机器学习路线图

转载:https://mp.weixin.qq.com/s/EMWFFPsaKaGc8FO1g-htzg

推荐ApacheCN开源的一个机器学习路线图

原创: 机器学习初学者 机器学习初学者 今天

推荐一个ApacheCN开源的一个机器学习路线图:

https://github.com/apachecn/AiLearning

注意:需要直接打开网址或者“阅读原文”才能打开文章里的链接

 

路线图

按照步骤: 1 => 2 => 3,你可以当大牛!

1.机器学习 - 基础

  • Machine Learning in Action (机器学习实战) | ApacheCN(apache中文网)

  • 电子版书籍:【机器学习实战-中文版-带目录版.pdf】

  • -- 感谢 飞龙小哥哥 生成的电子书《机器学习实战-ApacheCN.pdf》

  • 视频已更新完成,如果你觉得有价值,请帮忙点 Star【后续组织学习活动:sklearn、kaggle、 Pytorch 和 tensorflow】

  • -- 视频网站:优酷 /bilibili / Acfun / 网易云课堂,可直接在线播放。(最下方有相应链接)

  • -- 群小哥哥:红色石头: 台湾大学林轩田机器学习笔记

  • 推荐一个机器学习笔记: 

    https://feisky.xyz/machine-learning网站视频

    机器学习实战

    第 1 章: 机器学习基础

    机器学习实战

    第 2 章: KNN 近邻算法

    机器学习实战

    第 3 章: 决策树

    机器学习实战

    第 4 章: 朴素贝叶斯

    机器学习实战

    第 5 章: Logistic回归

    机器学习实战

    第 6 章: SVM 支持向量机

    网上组合内容

    第 7 章: 集成方法(随机森林和 AdaBoost)

    机器学习实战

    第 8 章: 回归

    机器学习实战

    第 9 章: 树回归

    机器学习实战

    第 10 章: K-Means 聚类

    机器学习实战

    第 11 章: 利用 Apriori 算法进行关联分析

    机器学习实战

    第 12 章: FP-growth 高效发现频繁项集

    机器学习实战

    第 13 章: 利用 PCA 来简化数据

    机器学习实战

    第 14 章: 利用 SVD 来简化数据

    机器学习实战

    第 15 章: 大数据与 MapReduce

    Ml项目实战

    第 16 章: 推荐系统(已迁移)

    第一期的总结

    2017-04-08: 第一期的总结

知乎问答-爆炸啦-机器学习该怎么入门?

 

视频怎么看?

  1. 理论科班出身-建议去学习 Andrew Ng 的视频(Ng 的视频绝对是权威,这个毋庸置疑)

  2. 编码能力强 - 建议看我们的《机器学习实战-教学版》

  3. 编码能力弱 - 建议看我们的《机器学习实战-讨论版》,不过在看理论的时候,看 教学版-理论部分;讨论版的废话太多,不过在讲解代码的时候是一行一行讲解的;所以,根据自己的需求,自由的组合。

【免费】数学教学视频 - 可汗学院 入门篇

  • @于振梓 推荐: 可汗学院-网易公开课

概率统计线性代数
可汗学院(概率)可汗学院(统计学)可汗学院(线性代数)

机器学习视频 - ApacheCN 教学版

  
AcFunB站
优酷网易云课堂

【免费】机器/深度学习视频 - 吴恩达

机器学习深度学习
吴恩达机器学习神经网络和深度学习

2.深度学习 - 基础

深度学习必学

  1. 反向传递: 

  2. https://www.cnblogs.com/charlotte77/p/5629865.html

  3. CNN原理: 

  4. http://www.cnblogs.com/charlotte77/p/7759802.html

  5. RNN原理:

  6.  https://blog.csdn.net/qq_39422642/article/details/78676567

  7. LSTM深入浅出的好文: 

  8. https://blog.csdn.net/roslei/article/details/61912618

3.自然语言处理

学习过程中-内心复杂的变化!!!

自从学习NLP以后,才发现国内与国外的典型区别:
1. 对资源的态度是完全相反的:1) 国内:就好像为了名气,举办工作装逼的会议,就是没有干货,全部都是象征性的PPT介绍,不是针对在做的各位2)国外:就好像是为了推动nlp进步一样,分享者各种干货资料和具体的实现。(特别是: python自然语言处理)
2. 论文的实现:1) 各种高大上的论文实现,却还是没看到一个像样的GitHub项目!(可能我的搜索能力差了点,一直没找到)2)国外就不举例了,我看不懂!
3. 开源的框架1)国外的开源框架:tensorflow/pytorch 文档+教程+视频(官方提供)2) 国内的开源框架: 额额,还真举例不出来!但是牛逼吹得不比国外差!(MXNet虽然有众多华人参与开发,但不能算是国内开源框架。基于MXNet的动手学深度学习(https://zh.diveintodeeplearning.org)中文教程,已经由沐神(李沐)以及阿斯顿·张讲授录制,公开发布。文档+第一季教程+视频)
每一次深入都要去翻墙,每一次深入都要Google,每一次看着国内的说:哈工大、讯飞、中科大、百度、阿里 多牛逼,但是资料还是得国外去找!
有时候真的挺狠的!真的有点瞧不起自己国内的技术环境!当然谢谢国内很多博客大佬,特别是一些入门的Demo和基本概念。【深入的水平有限,没看懂】

  • 入门教程必看资料【添加比赛链接】:

    https://github.com/apachecn/AiLearning/tree/dev/blog/nlp

  • Python 自然语言处理 第二版: 

    https://usyiyi.github.io/nlp-py-2e-zh

  • 推荐一个liuhuanyong大佬整理的nlp全面知识体系: 

    https://liuhuanyong.github.io

1.使用场景 (百度公开课)

第一部分 入门介绍

  • 1.) 自然语言处理入门介绍

第二部分 机器翻译

  • 2.) 机器翻译

第三部分 篇章分析

  • 3.1.) 篇章分析-内容概述

  • 3.2.) 篇章分析-内容标签

  • 3.3.) 篇章分析-情感分析

  • 3.4.) 篇章分析-自动摘要

第四部分 UNIT-语言理解与交互技术

  • 4.) UNIT-语言理解与交互技术

应用领域

中文分词:

  • 构建DAG图

  • 动态规划查找,综合正反向(正向加权反向输出)求得DAG最大概率路径

  • 使用了SBME语料训练了一套 HMM + Viterbi 模型,解决未登录词问题

1.文本分类(Text Classification)

文本分类是指标记句子或文档,例如电子邮件垃圾邮件分类和情感分析。

下面是一些很好的初学者文本分类数据集。

  1. 路透社Newswire主题分类(路透社-21578)。1987年路透社出现的一系列新闻文件,按类别编制索引。另见RCV1,RCV2和TRC2。

  2. IMDB电影评论情感分类(斯坦福)。来自网站imdb.com的一系列电影评论及其积极或消极的情绪。

  3. 新闻组电影评论情感分类(康奈尔)。来自网站imdb.com的一系列电影评论及其积极或消极的情绪。

有关更多信息,请参阅帖子:单标签文本分类的数据集。

情感分析

比赛地址: 

https://www.kaggle.com/c/word2vec-nlp-tutorial

  • 方案一(0.86):WordCount + 朴素 Bayes

  • 方案二(0.94):LDA + 分类模型(knn/决策树/逻辑回归/svm/xgboost/随机森林)

    • a) 决策树效果不是很好,这种连续特征不太适合的

    • b) 通过参数调整 200 个topic,信息量保存效果较优(计算主题)

  • 方案三(0.72):word2vec + CNN

    • 说实话:没有一个好的机器,是调不出来一个好的结果 (: 逃

通过AUC 来评估模型的效果

2.语言模型(Language Modeling)

语言建模涉及开发一种统计模型,用于预测句子中的下一个单词或一个单词中的下一个单词。它是语音识别和机器翻译等任务中的前置任务。

它是语音识别和机器翻译等任务中的前置任务。

下面是一些很好的初学者语言建模数据集。

  1. 古腾堡项目,一系列免费书籍,可以用纯文本检索各种语言。

  2. 还有更多正式的语料库得到了很好的研究; 例如:布朗大学现代美国英语标准语料库。大量英语单词样本。谷歌10亿字语料库。

新词发现

  • 中文分词新词发现

  • python3利用互信息和左右信息熵的中文分词新词发现

  • https://github.com/zhanzecheng/Chinese_segment_augment

句子相似度识别

  • 项目地址: https://www.kaggle.com/c/quora-question-pairs

  • 解决方案: word2vec + Bi-GRU

文本纠错

  • bi-gram + levenshtein

3.图像字幕(Image Captioning)

mage字幕是为给定图像生成文本描述的任务。

下面是一些很好的初学者图像字幕数据集。

  1. 上下文中的公共对象(COCO)。包含超过12万张带描述的图像的集合

  2. Flickr 8K。从flickr.com获取的8千个描述图像的集合。

  3. Flickr 30K。从flickr.com获取的3万个描述图像的集合。欲了解更多,请看帖子:

探索图像字幕数据集,2016年

4.机器翻译(Machine Translation)

机器翻译是将文本从一种语言翻译成另一种语言的任务。

下面是一些很好的初学者机器翻译数据集。

  1. 加拿大第36届议会的协调国会议员。成对的英语和法语句子。

  2. 欧洲议会诉讼平行语料库1996-2011。句子对一套欧洲语言。有大量标准数据集用于年度机器翻译挑战; 看到:

统计机器翻译

机器翻译

  • Encoder + Decoder(Attention)

     

  • 参考案例:

  • http://pytorch.apachecn.org/cn/tutorials/intermediate/seq2seq_translation_tutorial.html

5.问答系统(Question Answering)

问答是一项任务,其中提供了一个句子或文本样本,从中提出问题并且必须回答问题。

下面是一些很好的初学者问题回答数据集。

  1. 斯坦福问题回答数据集(SQuAD)。回答有关维基百科文章的问题。

  2. Deepmind问题回答语料库。从每日邮报回答有关新闻文章的问题。

  3. 亚马逊问答数据。回答有关亚马逊产品的问题。有关更多信息,请参阅帖子:

数据集:我如何获得问答网站的语料库,如Quora或Yahoo Answers或Stack Overflow来分析答案质量?

6.语音识别(Speech Recognition)

语音识别是将口语的音频转换为人类可读文本的任务。

下面是一些很好的初学者语音识别数据集。

  1. TIMIT声学 - 语音连续语音语料库。不是免费的,但因其广泛使用而上市。口语美国英语和相关的转录。

  2. VoxForge。用于构建用于语音识别的开源数据库的项目。

  3. LibriSpeech ASR语料库。从LibriVox收集的大量英语有声读物。

7.自动文摘(Document Summarization)

文档摘要是创建较大文档的简短有意义描述的任务。

下面是一些很好的初学者文档摘要数据集。

  1. 法律案例报告数据集。收集了4000份法律案件及其摘要。

  2. TIPSTER文本摘要评估会议语料库。收集了近200份文件及其摘要。

  3. 英语新闻文本的AQUAINT语料库。不是免费的,而是广泛使用的。新闻文章的语料库。欲了解更多信息:

文档理解会议(DUC)任务。在哪里可以找到用于文本摘要的良好数据集?

命名实体识别

  • Bi-LSTM CRF

  • 参考案例: 

    http://pytorch.apachecn.org/cn/tutorials/beginner/nlp/advanced_tutorial.html

  • CRF推荐文档: 

    https://www.jianshu.com/p/55755fc649b1

文本摘要

  • 抽取式

  • word2vec + textrank

  • word2vec推荐文档: 

    https://www.zhihu.com/question/44832436/answer/266068967

  • textrank推荐文档: 

    https://blog.csdn.net/BaiHuaXiu123/article/details/77847232

Graph图计算【慢慢更新】

  • 数据集: data/nlp/graph

  • 学习资料: spark graphX实战.pdf 【文件太大不方便提供,自己百度】

进一步阅读

如果您希望更深入,本节提供了其他数据集列表。

  1. 维基百科研究中使用的文本数据集

  2. 数据集:计算语言学家和自然语言处理研究人员使用的主要文本语料库是什么?

  3. 斯坦福统计自然语言处理语料库

  4. 按字母顺序排列的NLP数据集列表

  5. 该机构NLTK

  6. 在DL4J上打开深度学习数据

  7. NLP数据集

  8. 国内开放数据集: 

    https://bosonnlp.com/dev/resource

     

    原文地址

    https://github.com/apachecn/AiLearning

    注意:需要直接打开网址或者“阅读原文”才能打开文章里的链接

 

请关注和分享↓↓↓ 

本站的知识星球(黄博的机器学习圈子)ID:92416895

目前在机器学习方向的知识星球排名第一

往期精彩回顾

  • 良心推荐:机器学习入门资料汇总及学习建议(2018版)

  • 黄海广博士的github镜像下载(机器学习及深度学习资源)

  • 吴恩达老师的机器学习和深度学习课程笔记打印版

  • 机器学习小抄-(像背托福单词一样理解机器学习)

  • 首发:深度学习入门宝典-《python深度学习》原文代码中文注释版及电子书

  • 机器学习的数学基础

  • 机器学习必备宝典-《统计学习方法》的python代码实现、电子书及课件

  • 吐血推荐收藏的学位论文排版教程(完整版)

  • Python环境的安装(Anaconda+Jupyter notebook+Pycharm)

  • Python代码写得丑怎么办?推荐几个神器拯救你

阅读原文

阅读 539

 在看5

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/508936.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CNN(Convolutional Neural Network) 的基础

卷积神经网络(Convolutional Neural Network,简称CNN),是一种前馈神经网络,人工神经元可以响应周围单元,可以进行大型图像处理。卷积神经网络包括卷积层和池化层。 卷积神经网络是受到生物思考方式启发的ML…

语音识别学习日志 2019-7-14 语音识别基础知识准备2 {EM算法与混合高斯模型(Gaussian mixture model, GMM)}

https://blog.csdn.net/lin_limin/article/details/81048411会对GMM和EM做详细介绍 本文参考: http://www.ituring.com.cn/article/497545(GMM模型) https://blog.csdn.net/xmu_jupiter/article/details/50889023(GMM模型) http://www.cnblogs.com/wjy-lulu/p/7…

【爬虫】爬取带有cookie才能获取网页内容的新闻网站

工作任务: 今天老大让我跑取一个新闻网站:https://www.yidaiyilu.gov.cn/ 采坑记录: https协议,如果利用http协议去请求会报出如下信息: 错误:SSLHandshake错误就知道了,客户端与服务端进行连…

语音识别学习日志 2019-7-14 语音识别基础知识准备3 {Kmean算法分析与HMM(Hidden Markov Model)模型}

Kmean算法 聚类算法 对于"监督学习"(supervised learning),其训练样本是带有标记信息的,并且监督学习的目的是:对带有标记的数据集进行模型学习,从而便于对新的样本进行分类。而在“无监督学习”(unsupervised learni…

语音识别学习日志 2019-7-15 语音识别基础知识准备4 {Baun-Welch算法}

HMM 前向算法(Forward Algorithm)详细解释参考: http://www.52nlp.cn/hmm-learn-best-practices-five-forward-algorithm-1 http://www.52nlp.cn/hmm-learn-best-practices-five-forward-algorithm-2 http://www.52nlp.cn/hmm-learn-best-practices-five-forward-algorithm-3…

【转载保存】B+树索引原理以及应用案例

地址:https://www.jianshu.com/p/486a514b0ded 利用c/c实现基于b树小型关系型数据库:https://github.com/enpeizhao/duck_db 利用java实现的基于b树的数据库案例:https://github.com/liumengjun/BPlusTreeIndex 1.什么是索引? …

语音识别学习日志 2019-7-16 语音识别基础知识准备5 {决策树算法(ID3、 C4.5、 CART)}

决策树算法(ID3、 C4.5、 CART) 决策树的定义 决策树学习采用的是自顶向下的递归方法,其基本思想是以信息熵为度量构造一颗熵值下降最快的树,到叶子节点处,熵值为0。其具有可读性、分类速度快的优点,是一种有监督学习。 决策树呈…

语音识别学习日志 2019-7-17 语音识别基础知识准备6 {维特比算法(Viterbi Algorithm)}

HMM 维特比算法(Viterbi Algorithm)详细解释参考:http://www.52nlp.cn/hmm-learn-best-practices-six-viterbi-algorithm-1 http://www.52nlp.cn/hmm-learn-best-practices-six-viterbi-algorithm-2 http://www.52nlp.cn/hmm-learn-best-practices-six-viterbi-algorithm-3 …

基于包围盒算法的三维点云数据压缩和曲面重建matlab仿真

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 4.1 包围盒构建 4.2 点云压缩 4.3 曲面重建 5.算法完整程序工程 1.算法运行效果图预览 2.算法运行软件版本 matlab2022a 3.部分核心程序 ...........................................…

【转载保存】修改IK分词器源码实现动态加载词典

链接:http://www.gongstring.com/portal/article/index/id/59.html 当前IKAnalyzer从发布最后一个版本后就一直没有再更新,使用过程中,经常遇到需要扩展词库以及动态更新字典表的问题,此处给出一种解决办法(注意&…

【转载保存】索引文件锁LockFactory

索引文件锁LockFactory LockFactory在Lucene中用来对索引文件所在的目录进行加锁,使得同一时间总是只有一个IndexWriter对象可以更改索引文件,即保证单进程内(single in-process)多个不同IndexWriter对象互斥更改(多线程持有相同引用的IndexW…

IndexOptions类说明

IndexOptions是在lucene-core-x.jar包下面,其作用是在新建索引时候选择索引属性。 IndexOptions是一个枚举类: 枚举变量说明: NONE不被索引DOCS_AND_FREQS文档和词频建立索引DOCS_AND_FREQS仅对文档和词频建立索引DOCS_AND_FREQS_AND_POSIT…

【转载保存】lucene正则查询使用注意

今天要分享的是关于lucene中另外一种丰富的查询方式----正则查询,lucene内置了许多的查询API,以及更强大的自定义查询方式的QueryParse,大部分情况下我们使用内置的查询API,基本上就可以满足我们的需求了,但是如果你想…

【转载保存】搜索引擎调研文档

搜索引擎选型调研文档 Elasticsearch简介* Elasticsearch是一个实时的分布式搜索和分析引擎。它可以帮助你用前所未有的速度去处理大规模数据。 它可以用于全文搜索,结构化搜索以及分析,当然你也可以将这三者进行组合。 Elasticsearch是一个建立在全…

lucene详细说明文档

以下部门功能在lucene5以上版本可能有的API所有改变 目录1.简介 2.了解索引操作 2.1倒排索引 2.2字段类型 2.3细分 2.4文件编号 2.5搜索索引 3.创建索引 4.基本索引操作 4.1核心索引类 4.2将数据添加到索引 5.文件和领域 5.1文件 5.2领域 5.3在Lucene中增强文档 1.简介 该索引是…

分布式集群架构场景解决方案学习笔记

课程学习 一致性哈希算法集群时钟同步问题分布式ID解决方案分布式任务调度问题session共享(一致性)问题 一致性哈希算法 一致性哈希算法在1997年由麻省理工学院的Karger等人在解决分布式Cache中提出的,设计目标是为了解决因特网中的热点(Hot spot)问题&#xff0c…

分布式学习-总结

文章目录分布式理论分布式系统定义以及面临的问题分布式系统定义分布式面临的问题通信异常网络分区三态节点故障分布式理论:一致性概念分布式一致性的提出强一致性弱一致性最终一致性分布式事务CAP定理什么是CAP理论?为什么只能3选2能不能解决3选2的问题…

什么叫死锁?死锁案例?死锁必须满足哪些条件?如何定位死锁问题?有哪些解决死锁策略?哲学家问题?

1.死锁是什么? 死锁一定发生在并发环境中,死锁是一种状态,当两个(或者多个线程)相互持有对方所需要的资源,却又都不主动释放手中持有的资源,导致大家都获取不到自己想要的资源,所有相关的线程无法继续执行…

dubbo启动服务启动报错.UnsatisfiedDependencyException: Error creating bean with name '***': Un

报错信息&#xff1a; 今天部署开发环境的时候这个问题弄了一下午&#xff0c;由于我本地启动是好的&#xff0c;然后部署到服务器老是启动不了&#xff0c;报如上错&#xff0c;后来经过排查发现是provider.xml和consumer.xml中的如下代码version属性版本信息不一致。 <du…

【转载保存】dubbo学习笔记

Dubbo Dubbo简介 首先&#xff0c;我理解的Dubbo&#xff0c;从大的方向来看是单体应用到分布式应用过度期的一个产物&#xff0c;具体来说应该是分布式应用从早期的SOA到微服务过度的一个产物。 在编写分布式场景下高并发、高扩展的系统对技能的要求很高&#xff0c;因为这…