文献阅读:Solving olympiad geometry without human demonstrations

  • 文献阅读:Solving olympiad geometry without human demonstrations
    • 1. 文章简介
    • 2. 方法介绍
      • 1. Overview
      • 2. Symbolic deduce
      • 3. Language Model
      • 4. 联合使用
    • 3. 实验考察 & 结论
      • 1. 基础实验考察
      • 2. 结果分析
      • 3. 样例展示
    • 4. 总结 & 思考
  • 文献链接:https://www.nature.com/articles/s41586-023-06747-5
  • GitHub链接:https://github.com/google-deepmind/alphageometry

1. 文章简介

这篇文章是Google Deepmind在今年1月发表在Nature正刊上的一篇工作,讲道理,ML的文章能发到Nature的正刊上面也是牛得飞起了,所以虽然和工作关系不大,也是忍不住跑过来观摩了一下这个工作。

这篇文章的核心就是提出了一个AlphaGeometry的模型框架,用于挑战奥林匹克竞赛的几何部分,并且获得了堪比高中奥赛金牌的乘积,从方法命名也可以看出,基本对标的就是AlphaGo,AlphaFold等一系列模型了。

不过虽然同为Alpha命名系列,这篇文章中给出的AlphaGeometry模型较之其他几个至少感觉在形式上感觉并不像另外那些那么优雅,因为这并不是一个端到端的模型,而是一个基于搜索的模型生成结果,感觉像是RAG那样像是一个拼凑的系统而不是一个纯粹的技术突破。

但无论如何,这个结果也确实够这篇工作上Nature,我等普通小民负责喊666就行了LOL

2. 方法介绍

下面,我们来具体看一下文中的AlphaGeometry方法到底是怎么做的。

1. Overview

给出文中关于AlphaGeometry的整体方法示意图如下:

在这里插入图片描述

上图是AlphaGeometry在一个简单问题和一个复杂问题当中的demo,其中AlphaGeometry的部分主要由上图中的b,c两部分展示,其主要包括一个符号推理系统和一个语言模型,后者用于辅助线的构造等发散性的部分,而前者则进行符号推理等确定性的内容。

下面,我们分别来看一下这两部分的内容。

2. Symbolic deduce

首先,我们来看一下文中的符号推理引擎的部分。

这部分又可以主要分为DD和AR两个部分:

  • DD: deductive database
  • AR: algebraic reasoning

这两部分的内容主要是来源于以下一些外部文献:

  • A Deductive Database Approach to Automated Geometry Theorem Proving and Discovering
  • Ye, Z., Chou, S. C. & Gao, X. S. in Proc. Automated Deduction in Geometry: 7th International Workshop, ADG 2008 (eds Sturm, T. & Zengler, C.) 189–195 (Springer, 2011).

文中并没有对其进行过度的展开,只是给出了几个example如下:

在这里插入图片描述

3. Language Model

然后,文中关于Language Model的部分,则基本和普通的language model没啥太大的差别,唯一的问题在于说数据的表示和准备。

首先,关于数据的表示,这里主要就是使用latex的符号语言表达。

然后,关于数据的准备,则是使用上一部分当中给出的DD和AR的方式进行的,文中给出这部分内容的过程示意图如下:

在这里插入图片描述

文中得到的训练数据的推理长度分布,或者说单条数据的长度分布则如下所示:

在这里插入图片描述

而关于模型的训练部分倒是感觉没啥,基本就是一个Language Model而已。

4. 联合使用

具体到使用方面,其实就如上述Fig.1当中所展示的那样,整体过程就是:

  1. 先使用DD+AR进行符号推导,直至无法推出新的结论
  2. 使用LM生成辅助线,然后重复符号推理过程

当然,上述过程可能会陷入重复推理以及过于繁复的问题,因此文中还需要对中间过程进行一些剪操作。

3. 实验考察 & 结论

然后,我们来看一下文中对于AlphaGeometry的一些实验考察和分析。

1. 基础实验考察

首先,文中给出的最主要的实验结果就是在奥赛题目上面对AlphaGeometry进行了效果考察,得到结果如下:

在这里插入图片描述

可以看到,AlphaGeometry一共答出了25道IMO试题,操过了银牌选手,几乎逼近了金牌选手的水平。

其更为详细的结果可以查看下表获得:

在这里插入图片描述

2. 结果分析

然后,文中考察了一下上述IMO竞赛题当中题目的难度(选手的平均得分)和AlphaGeometry做题所使用的推导步数的关系如下:

在这里插入图片描述

可以看到:

  • 对于较难的问题,AlphaGeometry往往也需要很多的步数来完成题目,但是对于简单的题目,AlphaGeometry使用的步数和题目的难易关系没有可靠的关联关系。

3. 样例展示

最后,文中给出了一个具体的AlphaGeometry的题解如下:

在这里插入图片描述

可以看到,AlphaGeometry不但搞定了这道题目,且方法较之人类选手还更好。

4. 总结 & 思考

综上,文中提出了AlphaGeometry,能够在数学奥林匹克的几何问题上达到几乎金牌选手的水平,考虑到LLM在数学问题上的各种拉胯属性(毕竟数学还是推理系统不是模式匹配问题),AlphaGeometry简直强到不行了。

不过具体方法和实现方面,文中的方法倒是没觉得有什么特别大的突破,而且确实和工作差的有点远,所以细节就不打算去追了,有空的时候拿开源代码玩玩看好了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/25551.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

看似不同的事情,却是相同的坑

目录 一、背景二、过程1.遭遇战-微盘股的下杀2.不失为一件好事3.一切向后看吧,最近的学习感受4.该有的心境 三、总结 一、背景 也在一点点改变,期间势必要经历流血的过程;所谓无疯狂不成长,积极的心态去应对,去总结总…

引入Springcloud--Sleuth-链路追踪中MDC是如何获取到traceid和何时放入traceid的

在分布式项目中需要引入 spring-cloud-starter-sleuth框架来记录跟踪请求在不同服务之前流转的路径。在整个流转路径通过traceid将所有的路径给串联起来。 项目中需要保存traceid来实现日志快速搜索和定位,可以通过MDC.get("traceId")获取到traceId。 …

评书下载到u盘,下载到内存卡,下载到手机或电脑的方法

评书下载的方法有很多种,无论是通过什么方法,我们都可以快速的获取喜爱的评书。下面将详细介绍常见的评书下载方法,帮助您快速上手。 1、搜索“十方评书网”。 2、要下载那个评书家的选择那个评书家就可以。 3、点击进去后可以一键下载单部评…

nodejs 第三方库 exiftool-vendored

exiftool-vendored 是一款可以帮助你快捷修改图片信息的第三方库。如果你想要批量修改图片信息的话,那么它是一个不错的选择。 1.导入第三方库 在控制台中执行下面代码即可。 npm install exiftool-vendored --save2.获取信息 这里给出例子。 const { exiftool …

Elasticsearch中各种query的适用场景

Elasticsearch 提供了丰富的 Query 类型,以满足各种搜索需求。以下列举一些常见的 Query 类型,并分析其区别和应用场景: 一、 几个常用的基本Query 1. Term Query 应用场景: 查找包含特定词语的文档,适合精确匹配单个词语的场景…

【SpringBoot + Vue 尚庭公寓实战】标签和配套管理接口实现接口实现(六)

【SpringBoot Vue 尚庭公寓实战】标签和配套管理接口实现接口实现(六) 文章目录 【SpringBoot Vue 尚庭公寓实战】标签和配套管理接口实现接口实现(六)1、保存或更新标签信息2、根据id删除标签信息3、根据类型查询配套列表4、新…

Aptos Builder Jam 亚洲首站|见证 Aptos 公链 2024 年新突破

4 月下旬的「TinTin DESTINATION MOON」杭州站活动让我们构建下一个 Web3 巅峰的项目生态行动与未来战略。时隔三个月,「TinTin DESTINATION MOON」Aptos 线下活动将再次来到杭州,为 Aptos Builder Jam 亚洲首站火热造势,7 月 6 日诚邀 Web3 …

高精度|大数加减乘

一、大数加法 1.反转法 &#xff08;不开动态数组存&#xff09; #include<bits/stdc.h> using namespace std; string add(string s1,string s2){if(s1.length() < s2.length() ) swap(s1,s2);reverse(s1.begin(),s1.end());reverse(s2.begin(),s2.end());int carr…

Linux RedHat7.6操作系统的xfs格式化后,mount不生效

Linux RedHat7.6操作系统的xfs格式化后,mount不生效 问题现象 最近在准备测试环境的过程中&#xff0c;当对xfs文件系统格式化后,mount磁盘&#xff0c;通过df -h命令查看&#xff0c;未显示挂载磁盘信息 [rootZHZXLxjspo0db003 ~]# mount /dev/datavg/datavg-lv_data /data…

vue2中如何动态渲染组件

vue2中如何动态渲染组件 动态渲染组件代码解读通过函数调用渲染组件 封装一个函数调用的二次确认弹窗如何让外部知道用户点击了取消还是确定呢&#xff1f; 思考小结 vue2 的项目中&#xff0c;main.js 文件中有一个挂载 App.vue 组件的方法&#xff1a; new Vue({name: Root,…

工程师 - 什么是EMI测试

一、EMC EMI EMS定义&#xff1a; EMC&#xff08;ElectromagneticCompatibility&#xff09; 电磁兼容&#xff0c;是指设备或系统在电磁环境中性能不降级的状态。电磁兼容&#xff0c;一方面要求系统内没有严重的干扰源&#xff0c;一方面要求设备或系统自身有较好的抗电磁…

5G发牌五周年丨移远通信:全面发力,加快推进5G技术服务社会发展

2024年6月6日&#xff0c;正值中国5G商用牌照发牌五周年。根据移动通信“十年一代”的规律&#xff0c;5G已走过一半征程。在过去的五年时间里&#xff0c;5G技术从萌芽到成熟&#xff0c;深刻改变了工业、农业、医疗及消费端等各个领域的发展脉络。无论是无人机配送、自动驾驶…

5_1 Linux 计划任务

5_1 Linux 计划任务 文章目录 5_1 Linux 计划任务[toc]1. crontab 命令2. 计划任务书写格式 用途&#xff1a;按照设置的时间间隔&#xff0c;为用户反复执行某一固定的系统任务 软件包&#xff1a;cronie、crontabs 系统服务&#xff1a;crond 日志文件&#xff1a;/var/log/c…

【LeetCode】两数相加(基于单向链表)难度:中等

目录 理清题目 解题思路 题目代码 运行结果 我们来看一下题目描述&#xff1a; 理清题目 首先题目要求链表中的节点的值必须在[0,9]之间也就是说我们要处理的数字必为正整数&#xff0c;因此就不会涉及到太复杂的计算&#xff0c;题目其实就是要求对两个链表中的节点的值分…

详解 Flink 的状态管理

一、Flink 状态介绍 1. 流处理的无状态和有状态 无状态的流处理&#xff1a;根据每一次当前输入的数据直接转换输出结果的过程&#xff0c;在处理中只需要观察每个输入的独立事件。例如&#xff0c; 将一个字符串类型的数据拆分开作为元组输出或将每个输入的数值加 1 后输出。…

Set up a WordPress blog with Nginx

CentOS7 配置Nginx域名HTTPS Here is the revised guideline for setting up a WordPress blog with Nginx: Step 1: Install Nginx, MySQL, and PHP (LEMP Stack) Install Nginx: sudo yum install nginx sudo systemctl start nginx sudo systemctl enable nginxInstall MyS…

Java_字符串、字符与数字之间的相互转换

一、数字转字符串 //将整个数字转化为字符串int i456;//方法一 String str1 Integer.toString(i);System.out.println(str1);//方法二String str2i"";System.out.println(str2);二、字符串转数字 //整数方法一String str"123";int num1Integer.parseInt(st…

Vue3路由跳转并传递参数

文章目录 1. 前言2. 准备工作2.1 编写路由规则2.2 源页面2.3 目标页面 3. 源页面如何传递参数给目标页面3.1 通过 router-link 标签传递参数&#xff08;很少使用&#xff09;3.2 通过 js 代码传递参数&#xff08;经常使用&#xff09; 4. 目标页面接收源页面传递过来的参数5.…

台积电代工!Intel新AI PC芯片Lunar Lake发布:AI算力120TOPS!

根据英特尔披露的数据显示&#xff0c;Lunar Lake的GPU性能提升50%、NPU内核的AI算力增加了四倍、SoC耗电量减少40%、GPU AI算力增加3.5倍&#xff0c;整个SoC的算力超过了120TOPS。 6月4日&#xff0c;英特尔CEO帕特基辛格在COMPUTEX 2024上发表主题演讲&#xff0c;正式公布…

在 React 应用中,怎么封装一个路由权限

在React应用中,封装一个路由权限控制通常涉及到几个关键步骤。这通常涉及到React Router(特别是React Router v5或v6)和自定义的权限检查逻辑。以下是一个基本的步骤指南,以及如何使用React Hooks(如useEffect和useState)来封装路由权限: 定义权限检查逻辑: 首先,你需…