还在用Tensorboard?机器学习实验管理平台大盘点

文 | SisyphusBJ

源 | Pytorch Lightning


  1. wandb.ai

  2. comet.ml

  3. neptune.ai

  4. allegro trains

  5. mlflow

  6. guild.ai

  7. sacred

  8. test-tube

  9. tensorboard

相信很多同学看到上面这个列表的第一印象是懵的。我们先看下机器学习实验管理平台 到底是做神马滴:

  • 一句话概括就是:,以下来自 comet.ml 对自己的说明: allowing data scientists and teams to track, compare, explain, and optimize experiments and models.

接下来我们逐个盘点下当前市面上做机器学习实验管理平台的玩家。

先看两个用的比较多但功能相对单薄的两个工具:

  1. 一个是Tensorboard,包括用于 Pytorch 的 TensorboardX(https://github.com/lanpa/tensorboardX) ,Tensorboard 本身被设计成插件化的方式,好处是轻量、轻耦合,可以按需要很快的自定义一个新的 tab,这种方式的缺点是缺少一个用户整体的视图,用户很难在宏观视角上对整个训练流程有一个比较清楚的认识。

  • 出的比较早,格式通用

  • 虽然是跟 Tnesorflow 出的,但并不仅限于 Tensorflow

  • 实验全流程记录

  • 报表和跟其他系统的兼容性比较好,因为出的早?...

2. 另一个是来自 Pytorch Lightning 的 test-tube, 后者可以算是 PL(Pytorch Lightning) 自己的一个 logger 优化工具,也放在这里一并比较了吧,有兴趣的同学可以去:PL(Pytorch Lightning: https://github.com/PyTorchLightning/pytorch-lightning) 查看细节。接下来看下主要的 SAAS 玩家,当然,基本上每家都同时提供 self-host 方式可选择,毕竟 SAAS 号称主要是卖服务的。

  1. 首先当然是 comet.ml,主要的功能如下 :

  • 假设你手头同时有十几个、几十上百个实验要做,那么 comet 或者其他这些工具会必不可少

  • 团队协作,把几个可能的方向分给其他同学,实验过程、结果分享

  • comet 兼容目前主流的 tensorflow、pytorch、keras、chainer 等等框架

  • comet 支持你针对同一个实验里的不同超参数进行比较,找出关键点

  • comet 支持保存实验所用数据、上下文信息、代码等等

  • 各种类型的数据可视化

  • 懒,不想自己部署实验管理工具。当然这里你可以找下 IT 组的同学,看他们能否帮你搭建一套开源的类 comet 的系统。

2. 接下来是 neptune.ai, 这个就很有趣了,但从名字上看,comet 是彗星,neptune 是海王星,从 neptune 的官方 blog 上看起来也大有针对 comet 的意思... 停止八卦,下面看主要功能简介:

  • 首先 neptune.ai 的定位是一个“实验管理和协作工具”(Neptune is an experiment management and collaboration tool)。

  • 当然,也是 frame-agnostic 的。

  • neptune 支持实验数据、模型、代码等相关数据的存储、获取、共享操作

  • neptune 在团队协作上据说更有效率一些

  • neptune 支持通过 notebook、python script 等方式触发的训练过程记录,当然,默认其实也就只记录一下你的主要损失函数 loss 值和 epoch 这种,真要做到细致能指导自己实验思路的,还是得花心思在配置代码上面。

  • 最后,neptune 的 client 端 code 跟 wandb/comet 比写的是最简练的(个人喜好)。

3. 然后是 wandb.ai,wandb 就是 Weights & Biases, 谜底就在谜面上名字起的有点意思,功能也不错:

  • Reports 功能很有特点,基本上就是把你的实验整理成一个 blog 文档,你做的什么实验、怎么做的、选的那些参数为什么这么选,都可以有个记录,形成文档之后可以把相关的实验附上去,请团队的人或者其他感兴趣的人一起来探讨,隐隐有点社区的意思,赞!

  • 其他功能中规中矩,基本上 cover 了上面提到的几个基本功能

  • 用户和团队管理,数据和实验过程分享

  • UI 挺简洁,跟其他产品的兼容性也不错,毕竟是半开源,因为他的 server 端提供的也是 docker 镜像。

4. 最后是 guild.ai

  • 终端的 client 程序做的挺用心

  • 文档写的比较简洁

  • 其它基本跟上面三个一样,to run, track, and compare experiments.

  • 通用性更好一些据说,对模型实现语言、framework 中立

  • 方便重现效果

  • 对其他系统兼容性佳

以上是几个主要的 SAAS 玩家,下面说一下开源的几个选手:

  1. allegro trains ,其实产品名字叫 Trains 是 allegro.ai 出的,是这几个产品中唯一一个客户端、服务端都开源的产品,基于 Apache 2.0 协议开源,限制比较小,企业部署的话可以考虑一下

  • 服务端也开源,有兴趣自己折腾的企业可以优先考虑内网部署一下

  • web 端风格比较贴近前端主流风

  • 功能跟其他 saas 基本没什么大的出入

  • 这家的思路基本是反 saas,嗯,这点也挺有意思

2. sacred

  • 单机版,没有团队分享功能

  • 但好处是兼容了几个其他的 frontend,比如 neptune 就可以用作接受 sacred 发过来的数据。其他还有 Omniboard

3. mlflow,  Databrick 出品,没错就是 Spark 家那个,功能上跟其他项目比也没有他多的出入:

  • 实验跟踪和记录

  • 项目管理

  • 模型管理

以上这两个从产品上基本上都囊括在上面介绍的几个里面了,这里就不再深入展开,如有需要请自行去 github 上查看。

后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

有顶会审稿人、大厂研究员、知乎大V和妹纸

等你来撩哦~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479603.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

论文浅尝 | 利用图 Transformer 实现基于知识图谱的文本生成

论文笔记整理:谭亦鸣,东南大学博士生,研究方向为跨语言知识图谱问答。来源:NAACL2019链接:https://arxiv.org/pdf/1904.02342.pdf本文关注如何从信息抽取结果(特别是知识图谱)出发,生…

LeetCode 230. 二叉搜索树中第K小的元素(中序遍历)

文章目录1. 题目信息2. 解题2.1 中序递归2.2 中序循环写法1. 题目信息 给定一个二叉搜索树,编写一个函数 kthSmallest 来查找其中第 k 个最小的元素。 说明: 你可以假设 k 总是有效的,1 ≤ k ≤ 二叉搜索树元素个数。 示例 1:输入: root …

Apache Doris在美团外卖数仓中的应用实践

序言 美团外卖数据仓库技术团队负责支撑日常业务运营及分析师的日常分析,由于外卖业务特点带来的数据生产成本较高和查询效率偏低的问题,他们通过引入Apache Doris引擎优化生产方案,实现了低成本生产与高效查询的平衡。并以此分析不同业务场景…

Feign 简介和使用

声明式服务消费Feign一、简介二、使用Feign实现服务消费者三、实现普通的服务提供者四、Feign服务调用测试五、Feign消费者测试负载均衡服务熔断一、简介 Feign是Netflix公司开发的一个声明式的REST调用客户端; Ribbon负载均衡、Hystrix服务熔断是我们Spring Cloud…

论文浅尝 | 面向自动问题生成的跨语言训练

论文笔记整理:谭亦鸣,东南大学博士生,研究方向为跨语言知识图谱问答。来源:ACL 2019链接:https://128.84.21.199/pdf/1906.02525.pdf动机现有问题生成方法需要大量的“文本-问题”有标注数据对作为训练数据集&#xff…

再见,Spark!Flink已成气候!

身为大数据工程师,你还在苦学Spark、Hadoop、Storm,却还没搞过Flink?醒醒吧!刚过去的2020双11,阿里在Flink实时计算技术的驱动下全程保持了“如丝般顺滑”,基于Flink的阿里巴巴实时计算平台简直强无敌。最恐…

Java线程池实现原理及其在美团业务中的实践

随着计算机行业的飞速发展,摩尔定律逐渐失效,多核CPU成为主流。使用多线程并行计算逐渐成为开发人员提升服务器性能的基本武器。J.U.C提供的线程池:ThreadPoolExecutor类,帮助开发人员管理线程并方便地执行并行任务。了解并合理使…

Zuul 简介和使用

Zuul背景Zuul的作用Zuul API网关Zuul请求过滤Zuul路由规则Zuul异常处理背景 通过之前的学习,我们知道注册中心Eureka,可以讲服务注册到该注册中心,Ribbon和Feign可以实现服务负载均衡地调用,Hystrix可以实现服务熔断,…

技术动态 | 知识图谱上的实体链接

本文转载自公众号:知识工场 1、什么是实体链接实体链接(entity linking)就是将一段文本中的某些字符串映射到知识库中对应的实体上。比如对于文本“郑雯出任复旦大学新闻学院副院长”,就应当将字符串“郑雯”、“复旦大学…

卖萌屋学术站开放注册啦!寻募种子用户,超多特权放出!

文:夕小瑶消失一个多月的小夕又突然出现啦!要问小夕最近业余时间在做什么,那就是跟小伙伴们开发学术站啦~(等...等再肝一版,小夕就继续给大家写文章(。 ́︿ ̀。)众所周知,卖萌屋学术…

LeetCode 11. 盛最多水的容器(双指针)

文章目录1. 题目信息2. 解题1. 题目信息 给定 n 个非负整数 a1,a2,…,an,每个数代表坐标中的一个点 (i, ai) 。 在坐标内画 n 条垂直线,垂直线 i 的两个端点分别为 (i, ai) 和 (i, 0)。 找出其中的两条线,…

WSDM Cup 2020检索排序评测任务第一名经验总结

1.背景 第13届“国际网络搜索与数据挖掘会议”(WSDM 2020)于2月3日在美国休斯敦召开,该会议由SIGIR、SIGKDD、SIGMOD和SIGWEB四个专委会共同协调筹办,在互联网搜索、数据挖掘领域享有很高学术声誉。本届会议论文录用率仅约15%,并且WSDM历来注…

ltp︱基于ltp的无监督信息抽取模块

ltp︱基于ltp的无监督信息抽取模块:https://zhuanlan.zhihu.com/p/44890664 无监督信息抽取较多都是使用哈工大的ltp作为底层框架。那么基于ltp其实有了非常多的小伙伴进行了尝试,笔者私自将其归纳为:事件抽取(三元组…

Eureka 简介和使用

Eureka 服务注册与发现服务注册与发现Eureka与Zookeeper的比较ZooKeeper保证CPEureka保证APEureka是什么?Eureka原理SpringBoot、Spring Cloud 和 Eureka 版本选择Eureka单机搭建搭建Eureka服务端搭建Eureka客户端的服务提供者搭建Eureka客户端的服务消费者Eureka集…

论文浅尝 | XQA:一个跨语言开放域问答数据集

论文笔记整理:刘晓臻,东南大学计算机科学与工程学院本科生。Citation: Liu, J., Lin, Y., Liu, Z., & Sun, M. (2019,July). XQA: A Cross-lingual Open-domain Question Answering Dataset. InProceedings of the 57th Conference of the Associati…

深度CTR预估模型中的特征自动组合机制演化简史

文 | 杨旭东源 | 知乎众所周知,深度学习在计算机视觉、语音识别、自然语言处理等领域最先取得突破并成为主流方法。但是,深度学习为什么是在这些领域而不是其他领域最先成功呢?我想一个原因就是图像、语音、文本数据在空间和时间上具有一定的…

LeetCode 94. 二叉树的中序遍历(中序遍历)

文章目录1. 题目信息2. 解题2.1 递归2.2 循环,必须掌握1. 题目信息 给定一个二叉树,返回它的中序 遍历。 示例:输入: [1,null,2,3]1\2/3输出: [1,3,2]进阶: 递归算法很简单,你可以通过迭代算法完成吗? 来源:力扣&am…

想进美团不知道选哪个技术岗位?这里有一份通关秘籍!

春暖花开,美团春招已经启动,针对校招和社招开放了几千个职位,其中很大部分都是技术岗位。 随着互联网的高速发展,技术岗位在不断地细分,比如软件开发不仅分为前端和后端,前端会分为Web、iOS和Android三个方…

哈工大LTP本地安装及python调用

原文链接:https://blog.csdn.net/yangfengling1023/article/details/84559848 LTP即哈工大语言技术平台云,是基于云计算技术的中文自然语言处理服务平台 在线使用的网址:https://www.ltp-cloud.com/ github网址:https://github.c…

Nginx 简介和使用

Nginx简介Nginx发展介绍Nginx作者正向代理和反向代理概念网站代理服务器查看Nginx环境搭建下载安装前准备安装启动检测Nginx是否启动关闭重启Nginx核心配置文件说明Nginx主要功能1、静态网站部署2、负载均衡负载均衡概述负载均衡实现方式Nginx负载均衡策略负载均衡其他配置3、静…