文献阅读:Solving olympiad geometry without human demonstrations

  • 文献阅读:Solving olympiad geometry without human demonstrations
    • 1. 文章简介
    • 2. 方法介绍
      • 1. Overview
      • 2. Symbolic deduce
      • 3. Language Model
      • 4. 联合使用
    • 3. 实验考察 & 结论
      • 1. 基础实验考察
      • 2. 结果分析
      • 3. 样例展示
    • 4. 总结 & 思考
  • 文献链接:https://www.nature.com/articles/s41586-023-06747-5
  • GitHub链接:https://github.com/google-deepmind/alphageometry

1. 文章简介

这篇文章是Google Deepmind在今年1月发表在Nature正刊上的一篇工作,讲道理,ML的文章能发到Nature的正刊上面也是牛得飞起了,所以虽然和工作关系不大,也是忍不住跑过来观摩了一下这个工作。

这篇文章的核心就是提出了一个AlphaGeometry的模型框架,用于挑战奥林匹克竞赛的几何部分,并且获得了堪比高中奥赛金牌的乘积,从方法命名也可以看出,基本对标的就是AlphaGo,AlphaFold等一系列模型了。

不过虽然同为Alpha命名系列,这篇文章中给出的AlphaGeometry模型较之其他几个至少感觉在形式上感觉并不像另外那些那么优雅,因为这并不是一个端到端的模型,而是一个基于搜索的模型生成结果,感觉像是RAG那样像是一个拼凑的系统而不是一个纯粹的技术突破。

但无论如何,这个结果也确实够这篇工作上Nature,我等普通小民负责喊666就行了LOL

2. 方法介绍

下面,我们来具体看一下文中的AlphaGeometry方法到底是怎么做的。

1. Overview

给出文中关于AlphaGeometry的整体方法示意图如下:

在这里插入图片描述

上图是AlphaGeometry在一个简单问题和一个复杂问题当中的demo,其中AlphaGeometry的部分主要由上图中的b,c两部分展示,其主要包括一个符号推理系统和一个语言模型,后者用于辅助线的构造等发散性的部分,而前者则进行符号推理等确定性的内容。

下面,我们分别来看一下这两部分的内容。

2. Symbolic deduce

首先,我们来看一下文中的符号推理引擎的部分。

这部分又可以主要分为DD和AR两个部分:

  • DD: deductive database
  • AR: algebraic reasoning

这两部分的内容主要是来源于以下一些外部文献:

  • A Deductive Database Approach to Automated Geometry Theorem Proving and Discovering
  • Ye, Z., Chou, S. C. & Gao, X. S. in Proc. Automated Deduction in Geometry: 7th International Workshop, ADG 2008 (eds Sturm, T. & Zengler, C.) 189–195 (Springer, 2011).

文中并没有对其进行过度的展开,只是给出了几个example如下:

在这里插入图片描述

3. Language Model

然后,文中关于Language Model的部分,则基本和普通的language model没啥太大的差别,唯一的问题在于说数据的表示和准备。

首先,关于数据的表示,这里主要就是使用latex的符号语言表达。

然后,关于数据的准备,则是使用上一部分当中给出的DD和AR的方式进行的,文中给出这部分内容的过程示意图如下:

在这里插入图片描述

文中得到的训练数据的推理长度分布,或者说单条数据的长度分布则如下所示:

在这里插入图片描述

而关于模型的训练部分倒是感觉没啥,基本就是一个Language Model而已。

4. 联合使用

具体到使用方面,其实就如上述Fig.1当中所展示的那样,整体过程就是:

  1. 先使用DD+AR进行符号推导,直至无法推出新的结论
  2. 使用LM生成辅助线,然后重复符号推理过程

当然,上述过程可能会陷入重复推理以及过于繁复的问题,因此文中还需要对中间过程进行一些剪操作。

3. 实验考察 & 结论

然后,我们来看一下文中对于AlphaGeometry的一些实验考察和分析。

1. 基础实验考察

首先,文中给出的最主要的实验结果就是在奥赛题目上面对AlphaGeometry进行了效果考察,得到结果如下:

在这里插入图片描述

可以看到,AlphaGeometry一共答出了25道IMO试题,操过了银牌选手,几乎逼近了金牌选手的水平。

其更为详细的结果可以查看下表获得:

在这里插入图片描述

2. 结果分析

然后,文中考察了一下上述IMO竞赛题当中题目的难度(选手的平均得分)和AlphaGeometry做题所使用的推导步数的关系如下:

在这里插入图片描述

可以看到:

  • 对于较难的问题,AlphaGeometry往往也需要很多的步数来完成题目,但是对于简单的题目,AlphaGeometry使用的步数和题目的难易关系没有可靠的关联关系。

3. 样例展示

最后,文中给出了一个具体的AlphaGeometry的题解如下:

在这里插入图片描述

可以看到,AlphaGeometry不但搞定了这道题目,且方法较之人类选手还更好。

4. 总结 & 思考

综上,文中提出了AlphaGeometry,能够在数学奥林匹克的几何问题上达到几乎金牌选手的水平,考虑到LLM在数学问题上的各种拉胯属性(毕竟数学还是推理系统不是模式匹配问题),AlphaGeometry简直强到不行了。

不过具体方法和实现方面,文中的方法倒是没觉得有什么特别大的突破,而且确实和工作差的有点远,所以细节就不打算去追了,有空的时候拿开源代码玩玩看好了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/25551.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

看似不同的事情,却是相同的坑

目录 一、背景二、过程1.遭遇战-微盘股的下杀2.不失为一件好事3.一切向后看吧,最近的学习感受4.该有的心境 三、总结 一、背景 也在一点点改变,期间势必要经历流血的过程;所谓无疯狂不成长,积极的心态去应对,去总结总…

引入Springcloud--Sleuth-链路追踪中MDC是如何获取到traceid和何时放入traceid的

在分布式项目中需要引入 spring-cloud-starter-sleuth框架来记录跟踪请求在不同服务之前流转的路径。在整个流转路径通过traceid将所有的路径给串联起来。 项目中需要保存traceid来实现日志快速搜索和定位,可以通过MDC.get("traceId")获取到traceId。 …

评书下载到u盘,下载到内存卡,下载到手机或电脑的方法

评书下载的方法有很多种,无论是通过什么方法,我们都可以快速的获取喜爱的评书。下面将详细介绍常见的评书下载方法,帮助您快速上手。 1、搜索“十方评书网”。 2、要下载那个评书家的选择那个评书家就可以。 3、点击进去后可以一键下载单部评…

Elasticsearch中各种query的适用场景

Elasticsearch 提供了丰富的 Query 类型,以满足各种搜索需求。以下列举一些常见的 Query 类型,并分析其区别和应用场景: 一、 几个常用的基本Query 1. Term Query 应用场景: 查找包含特定词语的文档,适合精确匹配单个词语的场景…

【SpringBoot + Vue 尚庭公寓实战】标签和配套管理接口实现接口实现(六)

【SpringBoot Vue 尚庭公寓实战】标签和配套管理接口实现接口实现(六) 文章目录 【SpringBoot Vue 尚庭公寓实战】标签和配套管理接口实现接口实现(六)1、保存或更新标签信息2、根据id删除标签信息3、根据类型查询配套列表4、新…

Aptos Builder Jam 亚洲首站|见证 Aptos 公链 2024 年新突破

4 月下旬的「TinTin DESTINATION MOON」杭州站活动让我们构建下一个 Web3 巅峰的项目生态行动与未来战略。时隔三个月,「TinTin DESTINATION MOON」Aptos 线下活动将再次来到杭州,为 Aptos Builder Jam 亚洲首站火热造势,7 月 6 日诚邀 Web3 …

vue2中如何动态渲染组件

vue2中如何动态渲染组件 动态渲染组件代码解读通过函数调用渲染组件 封装一个函数调用的二次确认弹窗如何让外部知道用户点击了取消还是确定呢? 思考小结 vue2 的项目中,main.js 文件中有一个挂载 App.vue 组件的方法: new Vue({name: Root,…

工程师 - 什么是EMI测试

一、EMC EMI EMS定义: EMC(ElectromagneticCompatibility) 电磁兼容,是指设备或系统在电磁环境中性能不降级的状态。电磁兼容,一方面要求系统内没有严重的干扰源,一方面要求设备或系统自身有较好的抗电磁…

5G发牌五周年丨移远通信:全面发力,加快推进5G技术服务社会发展

2024年6月6日,正值中国5G商用牌照发牌五周年。根据移动通信“十年一代”的规律,5G已走过一半征程。在过去的五年时间里,5G技术从萌芽到成熟,深刻改变了工业、农业、医疗及消费端等各个领域的发展脉络。无论是无人机配送、自动驾驶…

【LeetCode】两数相加(基于单向链表)难度:中等

目录 理清题目 解题思路 题目代码 运行结果 我们来看一下题目描述: 理清题目 首先题目要求链表中的节点的值必须在[0,9]之间也就是说我们要处理的数字必为正整数,因此就不会涉及到太复杂的计算,题目其实就是要求对两个链表中的节点的值分…

详解 Flink 的状态管理

一、Flink 状态介绍 1. 流处理的无状态和有状态 无状态的流处理:根据每一次当前输入的数据直接转换输出结果的过程,在处理中只需要观察每个输入的独立事件。例如, 将一个字符串类型的数据拆分开作为元组输出或将每个输入的数值加 1 后输出。…

台积电代工!Intel新AI PC芯片Lunar Lake发布:AI算力120TOPS!

根据英特尔披露的数据显示,Lunar Lake的GPU性能提升50%、NPU内核的AI算力增加了四倍、SoC耗电量减少40%、GPU AI算力增加3.5倍,整个SoC的算力超过了120TOPS。 6月4日,英特尔CEO帕特基辛格在COMPUTEX 2024上发表主题演讲,正式公布…

如何确保redis缓存中的数据与数据库一致

一、双写模式: 在写入数据库时,也写入缓存。 二:失效模式: 在写入新数据后,删除缓存中数据,下次请求时查询数据库,并把查到的最新数据写入缓存。 不管是双写模式还是失效模式,缓…

Letcode-Top 100二叉树专题

94. 二叉树的中序遍历 方法一:递归法 /*** Definition for a binary tree node.* public class TreeNode {* int val;* TreeNode left;* TreeNode right;* TreeNode() {}* TreeNode(int val) { this.val val; }* TreeNode(int val, TreeN…

SpringBoot的学习要点

目录 SpringBoot 创建项目 配置文件 注解 命名规范 SpringBoot整合第三方技术 …… 中文文档:Spring Boot 中文文档 SpringBoot Spring Boot 是基于 Spring 框架的一种快速构建微服务应用的方式它主要提供了自动配置、简化配置、运行时应用监控等功能它…

大水文之------端午练练JS好了

最近有点不太知道要干啥了,昨天看了集cocos的介绍,下载了个DashBoard,看了看里面的内容,确实有点小震惊,还有些免费的源码可以学习,挺好的。 昨天学习ts,感觉自己的js水平好像不太行&#xff0c…

Functional ALV系列 (10) - 将填充FieldCatalog封装成函数

在前面的博文中,已经讲了封装的思路和实现,主要是利用 cl_salv_data_descr>read_structdescr () 方法来实现。在这里,贴出代码方便大家参考。 编写获取内表组件的通用方法 form frm_get_fields using pt_data type any tablechanging…

C++期末复习提纲(血小板)

目录 1.this指针 2.静态成员变量 3.面向对象程序设计第一阶段 4.面向对象程序设计第二阶段 5.面向对象程序设计第三阶段 6.简答题 (1)拷贝构造函数执行的三种情况: (2)虚析构函数的作用: &#xff…

Python基础——字符串

一、Python的字符串简介 Python中的字符串是一种计算机程序中常用的数据类型【可将字符串看作是一个由字母、数字、符号组成的序列容器】,字符串可以用来表示文本数据。 通常使用一对英文的单引号()或者双引号(")…

html接口响应断言

接口响应值除类json格式,还有html格式 断言步骤 第一步:替换空格replace 原本返回的格式和网页内容一致,每行前面有很多空格,需要去除这些空格 第二步:分割split 因为行与行之前有回车符,所以把回车符替…