卖萌屋新闻联播栏目,倾情上线~

1430445dce839fea9ae1a47ddef01be3.png

编 | 小轶

感谢提供本期内容的 iven、ZenMoore、 jxyxiangyu、付瑶

今天这篇推文是卖萌屋全新的原创系列———暂且取名为“卖萌屋新闻联播”节目。卖萌屋的作者、小编日常都会在团队群里分享各种最新发现的实用资源、有意思的学术工作。小伙伴们在互相分享的过程中都受益匪浅。我们也非常希望能将其中一些有价值的内容分享给各位小屋的读者们。

区别于过往以介绍单篇工作为主的推送形式,“新闻联播”栏目会将最新鲜的实用信息汇集在一起,以言简意赅的短新闻形式呈现给大家。本文也是小屋的第一次尝试,还请各位多多留言反馈。

6552174321a9d474366facc1999f2868.png有用的资源8d49ccbf76c191c4c243a7e31fa48a16.png

EMNLP、NIPS 论文放出

EMNLP 2021 的 paper 都官方放出啦。之前只出了 accepted paper 的标题列表,没给原文 pdf。大家之前相中的 paper 们,现在都可以去尽情翻牌啦~

链接:
https://aclanthology.org/events/emnlp-2021/

NIPS 2021 的 accepted paper 列表也公布了。

链接:
https://neurips.cc/Conferences/2021/AcceptedPapersInitial

吴恩达首届 Data-centric AI 比赛获胜方案

小屋在今年 6 月的时候有向大家推荐过吴恩达老师发起的 Data-Centric AI 竞赛。区别于传统的 Model-Centric 比赛,这项比赛不是给定数据集,让参赛者造更好的模型;而是给定模型,要求参赛者通过不断改进数据以获得更好的模型效果。这种比赛设计其实更加符合真实工程实践中的需求 —— SOTA 模型往往大同小异,真正重要的反倒是数据。

现在该比赛已经结束,获胜队伍们都纷纷将自己的比赛方案整理成文,发布在了 DeepLearning AI 网站上。f63c9e9d41c28461d1633e3e7f4cfe8c.png

选手博文链接:
https://www.deeplearning.ai/blog/
比赛主页链接:
https://github.com/hazyresearch/data-centric-ai/blob/main/README.md

0b8a9043294f687853c1800fb621ee8e.png好玩的demof2e78515c56bc11e8c70a42abda3604d.png

Hugging Face 上线新工具:上传图片一键生成二次元图片

Hugging Face 家前些天上线了一个新玩具,可以将上传的照片/图片一键变为二次元风画像。emmm虽然其实某图秀秀的美颜软件已经推出类似功能很久了,但效果跟 Hugging Face 家完全不能比... 大家可以上去玩玩,不过现在要排队了,排队时长 30 分钟起步:)

308977bdca9cea8d4ff8bba4a0c12ca9.png

demo 链接:
https://huggingface.co/spaces/akhaliq/AnimeGANv2

17b9ccf7f6fd8871737faca702961ea2.png学术前沿9e47973197667feb43d6bd2dad0cf962.png

CMU & Stanford 联合推出多模态基准测试平台 MultiBench

CMU、Stanford 等大学近日联合发布了一个最新的多模态 Benchmark,MultiBench。是目前为止最为全面的测试多模态方法的基准测试平台。共覆盖 15 个数据集、20个预测任务,并提供了超过20种核心多模态方法的标准实现。测试代码完全模块化,非常便于快速实验。做多模态的同学可以关注一下。

73acca8b475fbb4de5dc37766abc6a73.png

项目主页:
https://cmu-multicomp-lab.github.io/multibench/
论文链接:
https://arxiv.org/pdf/2107.07502.pdf

谷歌发布大规模情感分类数据集 GoEmotions

Google 最新发布了一个情感分类数据集。此前情感分类的粒度其实非常粗糙,时常只有正/负向两类情感,最多的也不过分到五六种。而且还有一个问题就是,一段文本往往只认为有一种情感——这个假设显然也是不对的。谷歌爸爸这次一鼓作气,设置了 58 种细粒度情感,标注了 58k 的 Reddit 评论。推出了最新数据集 GoEmotions。

a4bbdabc1e4ad00e59938f3dac380012.png9760750e1d0f04361de60880ba8c6ec3.png

UW、Facebook、Allen AI 联合推出语言模型元学习框架 MetaUCL,142 个数据集上验证有效

一个 Few-shot 场景下的的元训练框架,在包括分类、QA、NLI 等等 142 个 NLP 数据集上进行实验,皆优于基准模型。几个基准模型都是非常 competitive 的方法,包括前段时期大火的 instruction prompting。c9802ab2b02e58f57cd09885b1539f4d.png

论文链接:
https://arxiv.org/pdf/2110.15943.pdf
项目地址:
https://github.com/facebookresearch/metaicl

建语料库什么的...让 GPT-3 来办就好啦!

最后推荐一篇非常有意思的论文。以往,我们在某个任务上训练模型的过程是:人类知识 → 手动标注语料库 → 训练模型。这篇文章则探索了另一个思路:无标注语料 → 差不多快要成精了的 GPT-3 → GPT-3 自动生成某任务上的语料 → 训练该任务的模型。这篇文章用 GPT-3 生成了一个尝试知识图谱,用于训练一个具有常识推理能力的小模型。结果这个小模型在常识推理任务上的表现比它的爸爸 GPT-3 还要厉害!

ef9441ef0ff8d3988437db425785e4be.png

论文标题:
Symbolic Knowledge Distillation: from General Language Models to Commonsense Models
论文链接:
https://arxiv.org/pdf/2110.07178.pdf

6032a285a6eeda5ab3bc915696340b87.png近期原创推荐1b432d5c741f39cb22c07f8c69e8fbaf.png

最后,夹带私货地推荐几篇卖萌屋近期的精彩原创:)

  1. 《一文跟进Prompt进展!综述+15篇最新论文逐一梳理》:从 7 月的 prompt 综述为起点,对 prompt 相关基本概念做了初步扫盲。并梳理了在其之后的 15 篇 prompt 最新重要工作。推荐收藏~

  2. 《仅仅因为方法 Too Simple 就被拒稿,合理吗?》:佐治亚理工教授在 twitter 上吐槽了自己因“方法 too simple”而惨遭拒稿,引起一众同情。本文从该事件出发展开了一系列探讨——我们究竟在期待怎样的工作?引用文中的一段话:“现在 AI 界似乎缺少一套系统的理念与方法整合不同领域不同任务不同数据集上的不同成果,同时也缺少或是刻意遮蔽了一个统一的期望解决的最高问题,而将目光下放到在特定数据集上不同方法论间的竞争”。

  3. 《你的 GNN,可能 99% 的参数都是冗余的》:大家都用 GNN 在图上做 reasoning,但是 GNN 真的有用吗?杨笛一老师的这篇工作表明,GNN 在很多复杂任务上都是可有可无的。GNN能做的 reasoning 仅限简单的任务(比如计数)于是作者们设计了一个图上计数的模块取代 GNN,用不到 GNN 1% 的参数,战胜 sota。

  4. 《如何提升大规模Transformer的训练效果?Primer给出答案》: 这篇介绍了谷歌爸爸的最新工作 Primer——通过模型架构自动搜索技术,找到一个高效更为 Transformer 变种。实验表明,Primer 可以用原本三分之一的算力得到相近的实验结果。然而看完我只想说——AI 圈有了 foundation,还有了 primer,是不是联名美妆界指日可待!!!?

好了今天的推荐就到这里了。如果各位觉得有用,或者有任何建议的话,还请多多点赞留言呀~ 也欢迎各位把自己看到的有用资讯后台发送给我们。我们会统一整理,在日后的推送中分享给大家!

795ab58d5d16a89f4923698b73040689.png
d5a6925184ba1bd20ccb1df129f2857e.png

萌屋作者:小轶

是小轶,不是小秩!更不要叫小铁!高冷的形象是需要大家一起维护的!作为成熟的大人,正在勤俭节约、兢兢业业,为成为一名合格的(但是仍然发量充足的)PhD而努力着。日常沉迷对话系统,说不定,正在和你对话的,并不是不是真正的小轶哦(!?)

“高冷?那是站在冰箱顶端的意思啦。”  ——白鹡鸰

作品推荐:

1.写了一篇关于 NLP 综述的综述!

2.全球44家机构,55位大佬,历时两年,打造最强NLG评测基准!

3.谷歌重磅:可以优化自己的优化器!手动调参或将成为历史!?

4.ACL20 Best Paper揭晓!NLP模型评价体系或将迎来重大转折

44719a176fdf93719d2ffb728d6903c3.png后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

a37be49d6cc6e5e697b7a52d2f20aefc.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477893.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 386. 字典序排数(DFS循环)

1. 题目 给定一个整数 n, 返回从 1 到 n 的字典顺序。 例如, 给定 n 1 3,返回 [1,10,11,12,13,2,3,4,5,6,7,8,9] 。 请尽可能的优化算法的时间复杂度和空间复杂度。 输入的数据 n 小于等于 5,000,000。来源:力扣(LeetCode&#…

论文浅尝 | 基于多模态特征的视觉实体链接

转载公众号 | 数据智能英文刊文章题目:Visual Entity Linking via Multi-modal Learning作者:郑秋硕,闻浩,王萌,漆桂林引用:Zheng, Q.S., et al.: Visual Entity Linking via Multi-modal Learning. Data I…

一训练就显存爆炸?Facebook 推出 8 比特优化器,两行代码拯救你的显存!

文 | jxyxiangyu编 | 小轶“小夕,小夕!又出来了个 SOTA 模型!赶紧 follow !”小夕看了看新模型的参数量, 然后看了看实验室服务器的几张小破卡。小夕,陷入了沉默。自从人们发现越大的模型性能越好后&#x…

论文浅尝 | 基于正交普鲁克分析的高效知识图嵌入学习

笔记整理:朱渝珊,浙江大学在读博士,研究方向为快速知识图谱的表示学习,多模态知识图谱。1.Motivation知识图谱是许多NLP任务和下游应用的核心,如问答、对话代理、搜索引擎和推荐系统。知识图中存储的事实总是以元组的形…

LeetCode 979. 在二叉树中分配硬币(DFS)

文章目录1. 题目2. DFS 解题1. 题目 给定一个有 N 个结点的二叉树的根结点 root,树中的每个结点上都对应有 node.val 枚硬币,并且总共有 N 枚硬币。 在一次移动中,我们可以选择两个相邻的结点,然后将一枚硬币从其中一个结点移动…

有福利! 好书推荐:从《实用推荐系统》学习寻找用户行为之法

大多数关于推荐系统的图书都讲述了算法及其优化方法。这些书都认为你已经有了一个大的数据集来供算法使用。数据集不会像变魔术那样凭空出现。要想收集到正确的用户偏好数据,就需要投入精力和进行思考。它会成就你的系统,或者搞砸你的系统。“垃圾进&…

灵活强大的构建系统Gradle

前言 构建,软件生命周期中重要的一环,在现代软件开发过程中,起着越来越重要的作用。过去在Java或类Java的世界里,Ant、Maven再熟悉不过了,Maven凭借其强大的依赖配置战胜Ant,基本上成为了Java构建的标准。而…

LeetCode 791. 自定义字符串排序(map)

1. 题目 字符串S和 T 只包含小写字符。在S中,所有字符只会出现一次。 S 已经根据某种规则进行了排序。我们要根据S中的字符顺序对T进行排序。更具体地说,如果S中x在y之前出现,那么返回的字符串中x也应出现在y之前。 返回任意一种符合条件的…

6万字解决算法面试中的深度学习基础问题

文 | 清卢雨源 | 对白的算法屋前言真的是千呼万唤始出来emmmm,去年春招结束写了篇面试的经验分享。在文中提到和小伙伴整理了算法岗面试时遇到的常见知识点及回答,本想着授人以渔,但没想到大家都看上了我家的 !但因本人执行力不足…

OpenKG开源系列 | 海洋鱼类百科知识图谱(浙江大学)

OpenKG地址:http://openkg.cn/dataset/ocean开放许可协议:CC BY-SA 4.0贡献者:浙江大学(徐雅静、邓鸿杰、唐坤、郑国轴)1、背景海洋是生命的摇篮,是人类文明的重要发祥地,在人类社会发展的进程中起着举足轻重的作用。海…

Presto实现原理和美团的使用实践

Facebook的数据仓库存储在少量大型Hadoop/HDFS集群。Hive是Facebook在几年前专为Hadoop打造的一款数据仓库工具。在以前,Facebook的科学家和分析师一直依靠Hive来做数据分析。但Hive使用MapReduce作为底层计算框架,是专为批处理设计的。但随着数据越来越…

图谱实战 | 徐美兰:深度应用驱动的医学知识图谱构建

转载公众号 | DataFunSummit分享嘉宾:徐美兰 浙江数字医疗卫生技术研究院 数字医学知识中心主任编辑整理:李杰 京东出品平台:DataFunTalk导读:数研院这些年在知识图谱建设上取得了丰硕成果,今天我们将图谱构建过程中的…

6 年大厂面试官,谈谈我对算法岗面试的一些看法

文 | 不敢透露姓名的 Severus 和小轶面试官坐在那撇着大嘴的,“咳,给你一机会,最短的时间内让我记住你。”这个我会,我抡圆了“啪!”,扭头我就走。我刚到家,录取通知书就来了,请你务…

美团Android自动化之旅—生成渠道包

每当发新版本时,美团团购Android客户端会被分发到各个应用市场,比如豌豆荚,360手机助手等。为了统计这些市场的效果(活跃数,下单数等),需要有一种方法来唯一标识它们。 团购客户端目前通过渠道号…

开源开放 | 细粒度可循证医学文档知识融合表示和推理(CCKS2021)

OpenKG地址:http://openkg.cn/dataset/mdo-dataset开放许可协议:GPL 3.0贡献者:武汉科技大学(高峰、龚珊珊、顾进广、徐芳芳)摘要本开放资源在医学文档知识的基础上,使用知识图谱相关技术,解决了…

图灵奖大佬 Lecun 发表对比学习新作,比 SimCLR 更好用!

文 | Rukawa_Y编 | 智商掉了一地,Sheryc_王苏比 SimCLR 更好用的 Self-Supervised Learning,一起来看看吧!Self-Supervised Learning作为深度学习中的独孤九剑,当融汇贯通灵活应用之后,也能打败声名在外的武当太极剑。…

5whys分析法在美团工程师中的实践

前言 网站的质量和稳定性对于用户和公司来说至关重要,但是在网站的快速发展过程中,由于各种原因导致事故不可避免的发生,这些大大小小的事故对公司难免会造成一些负面的影响,为了避免同类事故的再次发生,美团的工程师们…

LeetCode 382. 链表随机节点(概率)

1. 题目 给定一个单链表,随机选择链表的一个节点,并返回相应的节点值。保证每个节点被选的概率一样。 进阶: 如果链表十分大且长度未知,如何解决这个问题?你能否使用常数级空间复杂度实现? 来源:力扣&am…

图谱实战 | 斯坦福黄柯鑫:图机器学习在生物图上的应用

转载公众号 | DataFunSummit分享嘉宾:黄柯鑫 斯坦福大学 博士生编辑整理:元玉蒲 西北大学出品平台:DataFunTalk导读:大家好,我叫黄柯鑫。我现在是斯坦福大学的计算机科学博士第一年级,研究方向是机器学习在…

排得更好VS估得更准VS搜的更全「推荐、广告、搜索」算法间到底有什么区别?...

文 | 王喆源 | 王喆的机器学习笔记作为互联网的核心应用“搜广推”,三个方向基本都是互联网公司的标配。各头部公司的搜广推系统也都各自发展成了集成了多种模型、算法、策略的庞然大物,想一口气讲清楚三者的区别并不容易。不过万事总有一个头绪&#xf…