Nature:DeepMind大模型突破60年数学难题 解法超出人类已有认知

Nature:DeepMind大模型突破60年数学难题解法超出人类已有认知这项技术名为FunSearch,其中的Fun是函数(Function)一词的简写。利用大模型解决长期存在的科学难题,产生以前不存在的可验证且有价值*的新信息。在Nature论文配套的新闻解读中,DeepMind负责人称“我们使用大模型的方式是当做创造力引擎”。这是第一次有人证明基于大模型的系统可以超越数学家和计算机科学家的认知。它不仅新颖,而且比当今存在的任何其他东西都更有效。针对这项成果,有网友感慨:如果这是真的,那可是人类自火之后最重要的发现了。那么,FunSearch都解决了哪些问题呢?找到NP-hard问题更优解法DeepMind具体展示了两类问题,它们都属于NP-hard问题。在学界看来,没有而且可能永远也不会有一种算法能在所有情况下都在多项式时间内找到NP-hard问题的精确解。面对这样的问题,研究者通常会寻找近似解或适用于特定情况的有效算法。具体到FunSearch,它解决的第一类NP-hard问题是Capset问题,是上限集问题的一种,它的描述是这样的:在一个n维空间中的每个维度上都有等距的n个点(共n^n个,比如3维就是3*3*3),从中找出尽可能多的点构成一个集合,要求集合中任选3个点均不共线,这样的集合中最多有多少个点?如果看上去有些难以理解,不妨再了解一下Capset问题的前身——上世纪70年代遗传学家MarshaFalco发明的一套卡牌游戏。这套卡牌游戏中一共有81张牌,每张牌中都有1至3个颜色图案,同一张牌中的图案颜色、形状和阴影完都全相同。这套牌一共有3种颜色、3种形状和3种阴影,加上图案数量的不同,一共有3*3*3*3=81张,玩家需要翻开一些纸牌,找到3张牌的特殊组合。如果把这种“特殊组合”的具体方式用离散几何形式进行表达,就得到了Capset问题。Capset问题同样诞生于70年代,由牛津大学数学家RonGraham提出,而第一个重要结果直到90年代才出现。2007年,陶哲轩在一篇博客文章中提到,这是他最喜欢的开放式数学问题。在FunSearch出现之前,Capset问题最重大的突破是美国数学家JordanEllenberg和荷兰数学家DionGijswijt于2016年提出的。通过多项式方法,Ellenberg和Gijswijt将n>6时(n≤6时可精确找到最大集合)此类问题解的上确界缩小到了2.756^n。同样在n>6时,下确界的较新数字则是2.218^n,由布里斯托大学博士生FredTyrrell在2022年提出。但这个下确界仅仅存在于理论上——当n=8时,人类能构建出的最大集合中只有496个点,而按照Tyrrell的结论,点的数量应不少于585.7个。FunSearch则将集合规模扩大到了512个点——虽然和理论值依旧存在差距,但仍被视为20年来在此问题上最重大的突破。同时,Capset集合大小的下确界也被FunSearch提高到了2.2202^n。第二类是在线装箱问题:假设有一组容量为C的标准集装箱和n个物品序列(物品大小不超过C),这些物品按一定顺序到达。“在线”是指操作者无法事先看到所有的物品,但必须在物品到达时立刻决定将物品装入哪个集装箱。最终的目标,是使所用集装箱数量尽可能小。在线装箱问题引起广泛研究是从上世纪70年代开始的,最早更是可以追溯到1831年高斯所研究的布局问题。经过近200年的研究,仍然没有成熟的理论和有效的数值计算方法。传统上常用的贪心算法包括FirstFit和BestFit两种:FirstFit是指将每个物品放入第一个能容纳它的箱子中。BestFit则是将每个物品放入能容纳它的且箱子中剩余空间最小的箱子。而FunSearch则提出了新的算法,该算法在OR和Weibull两个测试数据集中,所用集装箱的数量均大幅下降。特别是在当测试集物品数目达到10万时,FunSearch找到的方案,消耗集装箱数量只比理论下界多出了0.03%。(下表中的数据表示与理论下界的差异,数字越小表现越好)那么,FunSearch是如何实现的呢?搜索“程序”而不是“答案”整体上看,FunSearch的工作流程是一个迭代过程,核心是搜索能解决问题的程序,而不是问题答案本身。搜索,正是DeepMind自AlphaGo以来一直坚持探索的路线。联合创始人ShaneLegg曾在一次访谈中作出解释:AlphaGo击败李世石的关键“第37步”从何而来?不是来自人类对弈数据,而是来自对概率空间的搜索。当前大模型只是模仿、混合不同的训练数据,要想产生真正的创造力并超越目前的架构,就需要结合搜索。回到最新成果FunSearch,系统当中有一个程序库,每次迭代时,系统会从其中搜索初始程序并输入大模型(实验用PaLM2,其他只要支持代码也兼容)。大模型在此基础上构建生成新的程序,并交给自动评估系统,得分最高的程序会被加入程序库,从而实现自我循环。其中,评估系统会根据用户的问题生成测试用例,然后判断候选程序的输出是否正确。根据复杂程度不同,判断正误的方法既包括直接检查输出值,也包括对相关函数进行调用。同时评估系统还设置有容错逻辑,避免超时等问题影响整体流程。最终,系统会根据备选程序在这些测试用例上的行为给出整体评分,为结果生成和后续程序库更新提供依据。论文合著者威斯康星大学麦迪逊分校的JordanEllenberg认为,FunSearch的一个重要特点是,人们可以看到AI产生的成功解决方案并从中学习,与之前AI的黑箱模式完全不同。对我来说最令人兴奋的是建立人机协作的新模式,我不希望用它们来替代人类数学家,而是作为力量倍增器。...PC版:https://www.cnbeta.com.tw/articles/soft/1404741.htm手机版:https://m.cnbeta.com.tw/view/1404741.htm

相关推荐

封面图片

Nature:DeepMind大模型突破60年数学难题,解法超出人类已有认知量子位https://www.qbitai.com/

封面图片

DeepMind攻克50年数学难题 史上最快矩阵乘法算法登Nature封面

DeepMind攻克50年数学难题史上最快矩阵乘法算法登Nature封面DeepMind碾压人类高手的AI围棋大师AlphaZero,下一个目标是数学算法!现已发现50年以来最快的矩阵乘法算法。下围棋碾压人类的AlphaZero,开始搞数学算法了,先从矩阵乘法开始!PC版:https://www.cnbeta.com/articles/soft/1324285.htm手机版:https://m.cnbeta.com/view/1324285.htm

封面图片

谷歌 DeepMind 利用大型语言模型解决了一个长期困扰人类的数学难题

谷歌DeepMind利用大型语言模型解决了一个长期困扰人类的数学难题谷歌DeepMind利用一大型语言模型成功破解了一项著名的未解数学难题。研究人员发表在《自然》杂志上的一篇中表示,这是首次使用大型语言模型发现长期科学难题的解决方案,产生了可验证且有价值的新信息,这些信息之前并不存在。“这不在训练数据中,甚至以前都不知道,”谷歌DeepMind研究副总裁PushmeetKohli说道。它结合了一个名为Codey的大型语言模型,这是Google的PaLM2的一个版本,经过对计算机代码进行了精细调整,还与其他系统结合使用,拒绝不正确或荒谬的答案,并将正确的答案重新插入其中。经过数百万次建议和几十次总体过程的重复——这花了几天的时间——FunSearch能够提出代码,产生了一个正确且以前未知的解决方案,解决了capset问题,涉及找到某一类型集合的最大大小。——

封面图片

Google的秘密AI模型未来很可能在难题数学领域打败人类

Google的秘密AI模型未来很可能在难题数学领域打败人类上周,双子座人工智能模型的最新技术报告公布了其最新数学成绩的详细信息。这份相当厚重的文件显示,Google打算模仿数学家接受的训练来解决复杂的问题,为了实现这一目标,该公司对其双子座人工智能模型进行了专门的变体训练。Gemini1.5Pro的数学变体似乎经过了多项基准测试。根据其文件,Google依靠各种基准来评估其最新人工智能数学模型的输出。这些基准包括MATH基准、美国数学邀请考试(AmericanInvitationalMathematicsExamination,AIME)和Google内部的HiddenMath基准。根据Google的数据,数学型Gemini1.5Pro在数学基准测试中的表现"与人类专家的表现相当",与标准的非数学型Gemini1.5Pro相比,数学型Gemini1.5Pro在AIME基准测试中解决的问题明显增多,在其他基准测试中的得分也有所提高。Google还举例说明了Gemini1.5Pro所解决的问题。根据该文件,这些问题是"Gemini1.5Pro、GPT-4Turbo和以前所有Gemini型号都没有正确解决的问题",最终提高了Google产品的性能标准。在它分享的三个示例中,两个是由数学专用的Gemini1.5Pro解决的,而一个是由标准的Gemini1.5Pro变体错误解决的。这些问题通常要求解题者回忆代数中的基本数学公式,并依靠它们的分段和其他数学规则得出正确答案。除了问题之外,Google还分享了Gemini1.5Pro基准测试的重要细节。这些数据表明,在所有五项基准测试成绩中,Gemini1.5Pro都领先于GPT-4Turbo和亚马逊的Claude。据Google公司称,其数学专用变体能够"从单个样本中获得80.6%的MATH基准准确率,在对256个解决方案进行采样并选择一个候选答案时(rm@256),准确率达到91.1%",这一成就使其与人类专家处于同等水平。事实上,根据Google深度思维首席科学家杰夫-迪恩(JeffDean)的说法,数学模型91.1%的得分大大高于三年前仅为6.9%的"SOTA"(最先进水平)得分。...PC版:https://www.cnbeta.com.tw/articles/soft/1431652.htm手机版:https://m.cnbeta.com.tw/view/1431652.htm

封面图片

Google DeepMind 用大模型解决尚未解决的数学问题

GoogleDeepMind用大模型解决尚未解决的数学问题GoogleDeepMind的研究人员在《》期刊上发表论文,报告他们首次用大模型(LLM)发现了一个尚未解决的数学问题的解。GoogleDeepMind的新工具被称为“”,研究人员将一组产生创造性解决方案的LLM和一个作为检查者以避免错误建议的评估程序结合起来。接着将一个多次迭代此过程的演化方法,作为输入来引导LLM。结果表明,这种方法可以得到新的、可验证的正确结果。他们将“FunSearch”应用到了著名的上限集问题(数学中涉及计数和排列领域的一个中心问题),发现了超越最著名上限集的大上限集新构造。研究人员表示,“FunSearch”的成功关键是它会寻找那些描述怎样解决问题的程序,而非直接寻找解决办法。因为“FunSearch”的结果易于被解释和验证,这意味着这一方法有望激发科学家在该领域的进一步思考。来源,频道:@kejiqu群组:@kejiquchat

封面图片

困扰世界近一个世纪的数学难题:拉姆齐问题已被破解

困扰世界近一个世纪的数学难题:拉姆齐问题已被破解拉姆齐问题,如r(4,5),陈述起来很简单,但如图所示,可能的解几乎是无穷无尽的图/JacquesVerstraete/加州大学圣地亚哥分校拉姆齐定理(英语:Ramsey'stheorem),又称拉姆齐二染色定理,断言对任意正整数k和l,若一个聚会的人数n足够大,则无论相识关系如何,必定有k个人相识或l个人互不相识。给定k,l时,保证前述结论的最小n值称为拉姆齐数R(k,l),其值取决于k,l。用图论术语复述:若将足够大的完全图各边染红蓝两色,则不论如何染,必定有红色的k阶完全图或蓝色的l阶完全图。拉姆齐定理是组合数学的重要结论,以弗兰克·普伦普顿·拉姆齐命名。他在1930年论文《论形式逻辑的一个问题》证明此定理最初的版本,开创现称拉姆齐理论的组合理论分支。拉姆齐理论的主题是从“无序”寻找“规律”,希望找出某数学结构中,存在规律子结构的一般条件。在拉姆齐定理的图论表述中,此“规律子结构”是同色集(monochromaticset),即顶点集的子集,其中各边皆染成同一颜色。拉姆齐理论是以英国数学家和哲学家弗兰克-P-拉姆齐(FrankP.Ramsey)的名字命名的数字游戏的一个分支,非常复杂。在这个图论数学的角落里,最著名的问题是r(3,3),通常被称为朋友和陌生人定理,它假设在一个由六个人组成的小组中,你会发现至少有三个人互相认识,或者有三个人互相不认识。显然,r(3,3)的答案是6。"这是自然界的事实,是绝对真理。不管情况如何,也不管你选择哪六个人,你都能找到三个互相认识的人,或者三个互相不认识的人。也许你能找到更多的人,但你能保证至少有三个人在一个小集团或另一个小集团中。"一旦找到了r(3,3),数学家们就开始寻找后续问题的答案:r(4,4)、r(5,5)和r(4,t),在这些问题中,不相连的点的数量各不相同。数学家们发现r(3,3)的答案是6之后,又发生了什么呢?自然,他们想知道r(4,4)、r(5,5)和r(4,t),其中不相连的点的数目是可变的。上世纪,埃尔德什和乔治-塞克雷斯发现r(4,4)的答案是18。与此同时,r(5,5)仍然是个未知数。"很多人都想过r(4,t)--90多年来,这一直是个悬而未决的问题,"Verstraete说。"但这并不是我研究的重点。每个人都知道这很难,每个人都想把它弄明白,所以除非你有新的想法,否则你不可能取得任何进展。"虽然从表面上看,这似乎不是那种需要花费近百年时间才能弄明白的问题,但在图论中,外表是会骗人的。例如,在求解r(5,5)时,如果你知道答案介于40和50之间,并且从图形上的45个点开始,那么将有10234个图形需要研究。Verstraete解释说:"因为这些数字很难找到,所以数学家们都在寻找估计值。这就是山姆和我最近的研究成果。'我们如何找到这些拉姆齐数字的最佳估计值,而不是准确答案?'"Verstraete第一次意识到r(4,t)是在《ErdösonGraphs》中:这本书由加州大学圣地亚哥分校教授FanChung和已故的RonGraham合著。这个问题是埃尔德斯提出的一个猜想,他向第一个能解决这个问题的人提供了250美元。我们可以想象,在20世纪30年代,250美元的奖金可能会比2023年要"丰厚"得多。虽然Verstraete在一段时间内一直惦记着r(4,t),但直到大约四年前,在与另一位数学家研究另一个问题时,他才在伪随机图方面取得了突破性进展,从而走上了解决拉姆齐之谜的道路。2019年,Verstraete和那位数学家DhruvMubayi解决了r(3,t),但也仅此而已。直到他与具有有限几何背景的马修斯合作,解决下一个问题的梦想才开始看起来有可能成为现实。"结果证明,我们需要的伪随机图可以在有限几何中找到,"Verstraete说。"山姆是最合适的人选,他可以帮助我们构建我们所需要的东西。我们花了将近一年的时间,终于找到了r(4,t)的解:从根本上说,如果要举办一个总是有4个相互认识的人或t个相互不认识的人参加的派对,那么大约需要t3个人参加。(因为不是精确的3,所以是近似值)。"Verstraete说:"我们真的花了很多年才解决这个问题。"有很多次我们都被卡住了,不知道我们是否能解决它。但无论花多长时间,我们都不应该放弃。"数学家们没有透露r(5,5)现在是否已经出现在白板上,因为他们在此期间要等待他们的研究通过同行评审和验收。"如果你发现问题很难,而且卡住了,那就说明这是一个好问题,好问题会反击。你不能指望它自己就显现出来。"他补充说:"我接到Fan的电话,说她欠我250美元。"遗憾的是,遥远的那笔1930年代的"找人费"没有进行通货膨胀调整。这项研究正在《数学年鉴》(AnnalsofMathematics)杂志上接受评审。...PC版:https://www.cnbeta.com.tw/articles/soft/1394101.htm手机版:https://m.cnbeta.com.tw/view/1394101.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人