如何做机器学习项目规划?一个事半功倍的checklist

一只小狐狸带你解锁 炼丹术&NLP 秘籍

前言

在接到一个新项目的时候,对其进行合理的安排和规划往往会有事半功倍的效果。

下面是从规划30 多个机器学习项目的经验中,提炼出的一个简单有效的checklist。一起来看看叭~

项目动机

明确你的项目的更广泛的意义。

  • 你要解决的问题是什么?What is the problem you want to solve?

  • 相关联的目标策略是什么?

如果项目团队不理解你的动机,那么他们就很难提出好的建议。有很多方法可以解决机器学习的问题。所以帮助你的团队以你最感兴趣的方式工作——退一步告诉他们为什么这个项目是重要的。

问题定义

  • 你想要预测的具体输出是什么?

对于给定的输入,你的机器学习模型将理想地学会预测非常具体的输出。所以这里你要尽可能的清楚。“预测机器故障”可能意味着很多事情 —— “告诉我,在未来24小时内,意外停机的风险何时增加 50%以上”更好。

  • 你的算法有什么输入数据?

模型预测输出的唯一方法是从模型的输入因子中派生出来。所以,为了有机会做出好的预测,你必须有与输出相关的数据。数据越多越好。

  • 什么是预测你的具体输出的最相关因素?

算法不能理解我们的世界。重要的是,你要给数据科学家一些提示,告诉他哪些数据实际上是相关的,这样他就可以用算法能够理解的方式选择和分割数据。

  • 你能提供多少训练样本 ?

一个算法需要的练习比一个人要多得多。你最少需要 200 个样本。越多越好。

性能度量

你怎么知道什么是好的结果?

  • 你有一个简单的基准测试来比较你的结果吗?

有没有一种简单的方法来利用你已有的数据进行预测?也许你可以根据去年的数字预测销售额,或者通过计算客户上一次登录后的天数来评估客户离开的风险。一个简单的基准测试可以为你的团队提供有价值的问题洞察力。它给你一些东西来衡量模型。

  • 你将如何衡量预测的准确性 ?

  • 你期望的最低准确度是多少?

你希望预测的准确率平均在 5% 以内,还是更重要的是预测误差不超过 10%?你的模型可以以任何一种方式进行调优。哪种方式更好取决于什么对你来说是重要的。

  • 一个完美的解决方案是什么样的?

即使这对你来说是显而易见的,把它写在纸上也能帮助你理清思路。

  • 是否有参考解决方案(如研究论文)?

如果有人以前解决过类似的问题,就把他们的解决方案当作灵感。这为每个人提供了一个共同的起点,这样他们就可以看到要使用哪些数据,可能会出现哪些问题,以及要尝试哪些算法。

时间线

一个性能验证项目的时间线示例。

  • 是否有截止日期需要注意?

  • 你什么时候需要看到第一个结果?

  • 你想什么时候有一个完整的解决方案?

人工智能解决方案可以无限地改进。明确的最后期限有助于让团队集中精力。

联系人

  • 负责项目(PM)?

  • 谁可以授权访问数据集?

  • 谁能帮助理解当前的流程和/或简单的基准测试(领域专家)?

在一个项目的过程中会出现许多问题。明确你的工程师可以向谁求助。

合作

  • 在业务和工程团队之间建立一个双/周的更新

每周安排一次会议来查看当前的结果,并讨论那些不需要通过电子邮件来回答的问题。

  • 应该涉及谁 ?

  • 他们应该学什么

在学习如何管理人工智能方面,没有什么比实际项目的实践经验更有价值。如果你想让你的团队的其他成员学习,从一开始就要说清楚。

  • 定义代码和问题的位置以及如何访问代码。

让所有的开发从一开始就透明。这样任何人都可以很容易地加入,给出提示,并检查进展。

回答这个清单上的问题,并与大家分享

世界仍在研究如何最好地运行人工智能/机器学习项目。填写这份清单将会给你所有成功的机器学习项目的要素之一:理解。

  • 斯坦福大学最甜网剧:知识图谱CS520面向大众开放啦!

  • Google|突破瓶颈,打造更强大的Transformer

  • ACL2020|对话数据集Mutual:论对话逻辑,BERT还差的很远

  • ACL2020|FastBERT:放飞BERT的推理速度

  • LayerNorm是Transformer的最优解吗?

  • 13个offer,8家SSP,谈谈我的秋招经验

夕小瑶的卖萌屋

_

关注&星标小夕,带你解锁AI秘籍

订阅号主页下方「撩一下」有惊喜哦

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480632.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

论文浅尝 | 一种用于新闻推荐的深度知识感知网络

Citation: Wang H, Zhang F, Xie X, et al. DKN: Deep Knowledge-Aware Networkfor News Recommendation[J]. 2018.Published at: The 27th International Conference on World Wide Web (WWW18)URL:https://arxiv.org/pdf/1801.08284.pdfMotivation推荐系统最初是为…

MySQL数据库主从同步的3种一致性方案实现,及优劣比较

数据主从同步的由来 互联网的很多业务,特别是在高并发的场景下,基本都是读远远大于写,如果数据库读和写的压力都同在一台主机上,这显然不太合理。 于是,把一台数据库主机分为单独的一台写主库(主要负责写操…

中文复合(条件事件、因果事件、顺承事件、反转事件)事理图谱构建项目

ComplexEventExtraction chinese compound event extraction,中文复合事件抽取,包括条件事件、因果事件、顺承事件、反转事件等事件抽取,并形成事理图谱。 项目地址:https://github.com/liuhuanyong/ComplexEventExtraction 关于…

对话系统的简单综述及应用智能客服

https://zhuanlan.zhihu.com/p/52899436 对话系统的简单综述及应用智能客服“天猫精灵,放歌”,”送你一首好听的歌《XXX》“,《XXX》音乐响起...相信有天猫精灵的用户对此场景都不陌生,或者语音操作其他智能音箱设备,比…

硬核推导Google AdaFactor:一个省显存的宝藏优化器

一只小狐狸带你解锁炼丹术&NLP秘籍作者:苏剑林(来自追一科技,人称“苏神”)前言自从GPT、BERT等预训练模型流行起来后,其中一个明显的趋势是模型越做越大,因为更大的模型配合更充分的预训练通常能更有效…

领域应用 | 用知识图谱玩唐诗,“唐诗别苑”附庸端午节的别样风雅!

本文转载自公众号:互联网教育国家工程实验室 。 端午节在每年的农历五月初五,又称端阳节、午日节、五月节等。端午节起源于中国,是古代百越一带崇拜龙图腾的部族举行图腾祭祀的节日。五月初五也是缅…

参加完阿里蚂蚁金服Java中间件6轮面试题!6点血泪总结~

蚂蚁金服一面:分布式架构 50分钟 1、个人介绍加项目介绍20分钟 2、微服务架构是什么,它的优缺点? 3、ACID CAP BASE理论 4、分布式一致性协议,二段、三段、TCC,优缺点 5、RPC过程 6、服务注册中心宕机了怎么办&am…

特定热点事件监控与分析项目

EventMonitor Event monitor based on online news corpus built by Baidu search enginee using event keyword for event storyline and analysis,基于给定事件关键词,采集事件资讯,对事件进行挖掘和分析。 项目地址:https://g…

深度好文:2018 年 NLP 应用和商业化调查报告

、 深度好文:2018 年 NLP 应用和商业化调查报告 Debra 阅读数:7650 2019 年 1 月 11 日近年来,自然语言处理技术已经取得了长足进步,成为应用范围最广泛,也是最为成熟的 AI 技术之一。但实际上,自然语言处理…

论文浅尝 | 通过多原型实体指称向量关联文本和实体

Cao Y,Huang L, Ji H, et al. Bridge Text and Knowledge by Learning Multi-Prototype Entity Mention Embedding[C]// Meeting of the Association for Computational Linguistics. 2017:1623-1633.导读:学术界近两年来十分关注如何将文本等非结构化数据和知识库等…

【面试必备】奉上最通俗易懂的XGBoost、LightGBM、BERT、XLNet原理解析

一只小狐狸带你解锁 炼丹术&NLP 秘籍在非深度学习的机器学习模型中,基于GBDT算法的XGBoost、LightGBM等有着非常优秀的性能,校招算法岗面试中“出镜率”非常高。这些经典的机器学习算法不仅是数据科学竞赛神器,在工业界中也被广泛地使用。…

2019手把手教你Java面试通关BAT

金三银四俗称跳槽黄金季,很多同学都想趁着这段时间拿高薪,去更牛逼的公司工作,认识更多大牛,提升自己的职场竞争力。 那怎样才能通过BAT面试官的考核?怎样成为一名Offer收割机? 之前讲过收割Offer有一个最…

特定领域因果事件图谱构建项目

CausalityEventExtraction self complement of templated based causality event extraction 基于因果关系知识库的因果事件图谱构建demo 项目地址:https://github.com/liuhuanyong/CausalityEventGraph 项目介绍 现实社会是个逻辑社会,大量的逻辑即逻…

斯坦福李纪为博士毕业论文:让机器像人一样交流

https://cloud.tencent.com/developer/article/1120019 选自GitHub机器之心编译自然语言处理(NLP)是人工智能领域下的一个庞大分支,其中面临很多机遇与挑战。斯坦福大学李纪为博士在他的毕业论文《Teaching Machines to Converse》中对 NLP 领…

陈华钧 | 知识图谱构建,将成为智能金融的突破口

本文转载自公众号:恒生技术之眼。“ 我们太容易被机器下棋这样的事所吸引,以至于现在谈到人工智能就基本都是在说机器学习和深度学习,而相对忽视了与人工智能相关的另外一个重要的方向:知识图谱。——陈华钧”尽管人工智能依靠机器…

万字长文梳理CTR点击预估模型发展过程与关系图谱

背景在推荐、搜索、广告等领域,CTR(click-through rate)预估是一项非常核心的技术,这里引用阿里妈妈资深算法专家朱小强大佬的一句话:“它(CTR预估)是镶嵌在互联网技术上的明珠”。本篇文章主要…

基于携程游记的出行领域顺承事件图谱项目

EvolutionaryEventGraph 项目地址:https://github.com/liuhuanyong/SequentialEventExtration Evolutionary Event Graph based on Travel note crawled from XieCheng,基于50W携程出行攻略的顺承事件抽取与事件图谱构建. 项目来源 目前,以谓词性短语…

5步教你成功求职进入BAT

有读者朋友希望我能写一部分关于BAT内部的文章,比如,怎么进入BAT,BAT内部的项目的流程,有挑战性的项目实践,大概是怎么样的? 我希望用这篇文章开启整个进入BAT系列篇,让大家更好的了解BAT内部的…

机器阅读理解任务综述

http://forum.yige.ai/thread/27 2016年 <div class"markdown-body" id"emojify">作者&#xff1a;林鸿宇 韩先培 简介 自然语言处理的长期目标是让计算机能够阅读、处理文本&#xff0c;并且理解文本的内在含义。理解&#xff0c;意味着计算机在接…

论文浅尝 | 基于知识图谱子图匹配以回答自然语言问题

Citation: Hu,S., Zou, L., Yu, J. X., Wang, H., & Zhao, D. (2018). Answering natural language questions by subgraph matching over knowledge graphs. IEEE Transactions on Knowledge & Data Engineering, PP(99), 1-1.动机对于基于知识图谱的事实性问答&#…