Google DeepMind 用大模型解决尚未解决的数学问题

GoogleDeepMind用大模型解决尚未解决的数学问题GoogleDeepMind的研究人员在《》期刊上发表论文，报告他们首次用大模型（LLM）发现了一个尚未解决的数学问题的解。GoogleDeepMind的新工具被称为“”，研究人员将一组产生创造性解决方案的LLM和一个作为检查者以避免错误建议的评估程序结合起来。接着将一个多次迭代此过程的演化方法，作为输入来引导LLM。结果表明，这种方法可以得到新的、可验证的正确结果。他们将“FunSearch”应用到了著名的上限集问题（数学中涉及计数和排列领域的一个中心问题），发现了超越最著名上限集的大上限集新构造。研究人员表示，“FunSearch”的成功关键是它会寻找那些描述怎样解决问题的程序，而非直接寻找解决办法。因为“FunSearch”的结果易于被解释和验证，这意味着这一方法有望激发科学家在该领域的进一步思考。来源，频道：@kejiqu群组：@kejiquchat

在Telegram中查看

相关推荐

MAmmoTH：专门为解决通用数学问题而定制的开源大语言模型。

MAmmoTH：专门为解决通用数学问题而定制的开源大语言模型。MAmmoTH模型结合了CoT和PoT两种思维方式，使其能够更全面地解决各种数学问题（从基础算术到高等数学）。在九个数学推理数据集上显著超越了现有的开源模型，平均准确率提高了13%到29%。MAmmoTH在一个精心策划的指导调优数据集MathInstruct上进行训练，MathInstruct从13个带有中间理由的数学数据集中编译而来，其中六个是由作者新策划的。MAmmoTH基于LLaMa2和CodeLlama训练的数学领域的开源LLM，有7B、13B、34B、70B四个版本。MAmmoTH的工作原理是通过混合指导调优方法，结合两种不同的思维方式，训练模型来解决各种数学问题。这种方法确保了模型在各种数学领域都有很好的表现，并且在实际应用中也取得了显著的性能提升。

Google搜索和Lens新增更多功能解决数学和科学问题

Google搜索和Lens新增更多功能解决数学和科学问题"无论你是在钻研数学教科书，还是通过搜索来获取复杂物理问题的更多信息，有时都很难准确描述你要找的东西。以复杂的生物学概念或棘手的几何问题为例。借助搜索和Lens的新功能，您现在可以将STEM相关的概念可视化，并通过更自然、更直观的方式浏览这些概念，找出要使用的等式。"Google搜索的最新更新让用户可以输入方程或积分来获取问题的解决方案。他们还可以用Lens拍照扫描方程式，从而逐步获得答案。此外，如果是几何问题，用户还可以使用Lens分享手头的问题，而无需键入。该功能目前只在台式机上提供，移动版本也将很快推出。Google新增的另一个实用工具是问题求解。现在，只要输入一个文字问题，Google就能通过其语言模型的进步分享解决方案。文字问题的题目将从高中物理的基础题目开始。最后，Google还在搜索中添加了三维互动图表，以及近1000个生物、化学、物理、天文和相关主题的定义和概述。该公司称，这些三维模型有助于直观地理解复杂的概念，例如，用户可以查看线粒体的三维模型，了解线粒体的内膜或褶皱。最近，Google还宣布在其地图应用程序中加入更多功能，包括人工智能功能，以提供更准确的搜索结果。此外，Google还利用人工智能更新限速和电动汽车充电站等信息。...PC版：https://www.cnbeta.com.tw/articles/soft/1393247.htm手机版：https://m.cnbeta.com.tw/view/1393247.htm

NASA Pi Day挑战：用恒星的数学问题庆祝数学奇迹

NASAPiDay挑战：用恒星的数学问题庆祝数学奇迹要找到圆周率，又称希腊字母π，你只需将任何圆的周长除以其直径。这是一个对美国宇航局研究地球、火星和其他地方的任务不可或缺的比率。今年的Pi日是美国宇航局喷气推进实验室的教育办公室通过该机构的挑战活动来庆祝这个奇妙的有用数字的第10年。学生们可以通过测试他们的数学能力来解决NASA科学家和工程师所面临的实际问题。为了纪念数学常数圆周率--以及它在太空探索中的许多用途--美国宇航局年度圆周率挑战赛提供了四个涉及美国宇航局真实任务和科学的数学问题。利用圆周率来解决这四道问题，学生可以：计算美国宇航局"毅力"号漫游车收集的火星岩芯的体积，因为它收集的样品将在地球上进行研究。通过比较哈勃太空望远镜和詹姆斯-韦伯太空望远镜的主镜面积，了解它们的宇宙传输能力。对Psyche--美国宇航局的同名任务将访问的富含金属的小行星--的密度进行估算，并猜测它是由什么构成的；以及确定太阳圆盘有多少部分会被月球遮挡，以及今年10月会发生日全食还是日环食。所有四个挑战问题的答案将于3月15日公布。NASAPiDay挑战赛还为教育工作者、K-12学生和家长提供了其他与Pi有关的资源，包括课程和教学时刻、文章、可下载的海报和插图网络/移动背景。还提供了以前挑战中的30多个谜题。Pi是一个数学常数，代表圆的周长与直径的比率。它是一个非重复和非终止的数字，已经被计算到数万亿位，但通常被近似为3.14。Pi被用于许多领域，包括数学、物理学、工程学和统计学，在日常生活中也有许多应用，如建筑设计、航海中的距离计算以及圆和球体的测量。...PC版：https://www.cnbeta.com.tw/articles/soft/1349241.htm手机版：https://m.cnbeta.com.tw/view/1349241.htm

问医断病这届AI行不行？科学家评估大型语言模型回答医学问题的能力

问医断病这届AI行不行？科学家评估大型语言模型回答医学问题的能力图为研究团队的方法和现有技术的比较。Flan-PaLM540B模型在MedQA，MedMCQA和PubMedQA数据集上均超过了以往最先进的SOTA，每列上方显示的是准确率百分比。图片来源：《自然》就其本身而言，人工智能（AI）给出的答案是准确的。但英国巴斯大学教授詹姆斯·达文波特指出了医学问题和实际行医之间的区别，他认为“行医并不只是回答医学问题，如果纯粹是回答医学问题，我们就不需要教学医院，医生也不需要在学术课程之后接受多年的培训了。”鉴于种种疑惑，在《自然》杂志新近发表的一篇论文中，全球顶尖的人工智能专家们展示了一个基准，用于评估大型自然语言模型能多好地解决人们的医学问题。现有的模型尚不完善最新的这项评估，来自Google研究院和深度思维公司。专家们认为，人工智能模型在医学领域有许多潜力，包括知识检索和支持临床决策。但现有的模型尚不完善，例如可能会编造令人信服的医疗错误信息，或纳入偏见加剧健康不平等。因此才需要对其临床知识进行评估。相关的评估此前并非没有。然而，过去通常依赖有限基准的自动化评估，例如个别医疗测试得分。这转化到真实世界中，可靠性和价值都有欠缺。而且，当人们转向互联网获取医疗信息时，他们会遭遇“信息超载”，然后从10种可能的诊断中选择出最坏的一种，从而承受很多不必要的压力。研究团队希望语言模型能提供简短的专家意见，不带偏见、表明其引用来源，并合理表达出不确定性。5400亿参数的LLM表现如何为评估LLM编码临床知识的能力，Google研究院的专家希库费·阿孜孜及其同事探讨了它们回答医学问题的能力。团队提出了一个基准，称为“MultiMedQA”：它结合了6个涵盖专业医疗、研究和消费者查询的现有问题回答数据集以及“HealthSearchQA”——这是一个新的数据集，包含3173个在线搜索的医学问题。团队随后评估了PaLM（一个5400亿参数的LLM）及其变体Flan-PaLM。他们发现，在一些数据集中Flan-PaLM达到了最先进水平。在整合美国医师执照考试类问题的MedQA数据集中，Flan-PaLM超过此前最先进的LLM达17%。不过，虽然Flan-PaLM的多选题成绩优良，进一步评估显示，它在回答消费者的医疗问题方面存在差距。专精医学的LLM令人鼓舞为解决这一问题，人工智能专家们使用一种称为设计指令微调的方式，进一步调试Flan-PaLM适应医学领域。同时，研究人员介绍了一个专精医学领域的LLM——Med-PaLM。设计指令微调是让通用LLM适用新的专业领域的一种有效方法。产生的模型Med-PaLM在试行评估中表现令人鼓舞。例如，Flan-PaLM被一组医师评分与科学共识一致程度仅61.9%的长回答，Med-PaLM的回答评分为92.6%，相当于医师作出的回答（92.9%）。同样，Flan-PaLM有29.7%的回答被评为可能导致有害结果，Med-PaLM仅5.8%，相当于医师所作的回答（6.5%）。研究团队提到，结果虽然很有前景，但有必要作进一步评估，特别是在涉及安全性、公平性和偏见方面。换句话说，在LLM的临床应用可行之前，还有许多限制要克服。...PC版：https://www.cnbeta.com.tw/articles/soft/1371591.htm手机版：https://m.cnbeta.com.tw/view/1371591.htm

谷歌 DeepMind 利用大型语言模型解决了一个长期困扰人类的数学难题

谷歌DeepMind利用大型语言模型解决了一个长期困扰人类的数学难题谷歌DeepMind利用一大型语言模型成功破解了一项著名的未解数学难题。研究人员发表在《自然》杂志上的一篇中表示，这是首次使用大型语言模型发现长期科学难题的解决方案，产生了可验证且有价值的新信息，这些信息之前并不存在。“这不在训练数据中，甚至以前都不知道，”谷歌DeepMind研究副总裁PushmeetKohli说道。它结合了一个名为Codey的大型语言模型，这是Google的PaLM2的一个版本，经过对计算机代码进行了精细调整，还与其他系统结合使用，拒绝不正确或荒谬的答案，并将正确的答案重新插入其中。经过数百万次建议和几十次总体过程的重复——这花了几天的时间——FunSearch能够提出代码，产生了一个正确且以前未知的解决方案，解决了capset问题，涉及找到某一类型集合的最大大小。——

DeepMind 证实 AI 能发现真正的全新事物

DeepMind证实AI能发现真正的全新事物关于人工智能的一个非常重要的问题是它们是否能够真正发现新事物。今天，GoogleDeepMind发表在《Nature》上的论文表明大型语言模型可以。他们的FunSearch方法发现了迄今为止最大，也是20年来增幅最大的上限集(数学问题)，这标志着人工智能首次在数学科学领域产生新知识。FunSearch通过将大型语言模型与"评估器"配对(防止幻觉和错误想法)来实现AI的自我改进循环。最初的想法会在这两个组件之间来回迭代，最终进化成全新知识。投稿：@TNSubmbot频道：@TestFlightCN

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人