AI 新知: 像大脑一样学习的多模态(极简版起源故事)

AI新知:像大脑一样学习的多模态(极简版起源故事)近日,微软放出了多模态大语言模型的重要论文《LanguageIsNotAllYouNeed》。预示着今年AI的下一个重大突破。那么,什么是多模态学习,有没有一种人人皆可理解的方式,让更多人参与着技术民主化的浪潮呢?答案是乐观和肯定的。以下内容来自JeffDean去年在TED做的分享,面向所有人。无需担心技术理解力,更依赖你对大脑本身的好奇心。原始链接:https://youtu.be/J-FzHIQ7SOsJeffDean二十多年前加入谷歌,领导着谷歌的人工智能研究与健康部门。核心内容摘要如下:(这是我的几点解读,供非专业人士参考)神经网络的机器学习突破是来自科学界对大脑的运作规律的理解(它是自下而上的)算力是重要且有效的,深度学习突破了识别猫咪、机器翻译到AlphaGO等单一任务AI的单一任务导向的训练是极为低效的,可以请想象成我们从小失去听觉、嗅觉、味觉(去观看电影的感受)多模态的思想,是进一步模拟大脑运作,就像生物拥有多种感觉来整合认知世界像大脑一样多个区域进行超高效率的协作,是学习真正的「奥义」;AI的多模态即对大脑深度的模仿。部分讲稿如下(适当删减,以便于文字阅读):1/人工智能可以做什么?在过去的十年间,AI在帮助计算机识别物体、理解语言和谈话方面取得的巨大进步。以往的天方夜谭现在一一成为现实。计算机视觉来说,在过去的十年中,电脑快速地发展出了‘看’的能力。这在计算机运用上具有变革性的影响。还有一些了不起的实际应用。可以通过机器学习预测洪水、翻译一百多种语言、预测和诊断疾病。2/让我们来看看构成当代人工智能系统基础的两个关键元素。首先是神经网络,它是解决这些难题的一项重大突破。第二个是运算能力。驱动神经网络运作实际需要大量的运算能力,在过去的十五年,我们做到了使其减半,那也是整个人工智能得以发展至此的原因之一。JeffDean认为我们做错了几件事~3/AI小历史。数十年前几乎从计算机科学最早出现,人们就想建造可以识别语言及理解谈话的电脑。最初的方法一般是人们手动写下完成难题所需的算法,但成效一般。过去的十五年间,一个方法出其不意地一次性解决了所有难题:神经网络。神经网络并非一个新想法。背后的理念出现于1960和70年代。神经网络如同其字面意思一样,是一连串互相连接的神经元。它们大致上效仿了人体真正神经元的特性。4/神经网络如何计算?这种系统中的一个独立神经元,拥有一组输入信息,每组输入信息有对应的比重,神经元的信息输出就等于那些输入信息乘以它们对应的比重。其实挺简单的,无数神经元协同运作,就可以学习复杂的东西。我们如何在神经网络中学习的?其实,在学习过程中,比重在不断被微调,增强一些东西的影响,削弱其他的影响。5/JeffDean对神经网络的兴趣,始于1990年本科阶段时学到的一门相关课程。那时,神经网络在精细问题的解决上取得了惊人的成果,但还达不到完成真实世界中重要工作的程度。他觉得我们可能只是需要更强的运算能力。明尼苏达大学当时有一个32位处理器。JeffDean想:“如果有更强的运算能力,我们真能用神经网络干点大事。”所以决定以神经网络的并行训练作为毕业论文的课题,理念是将电脑或电脑系统中所有的处理器运用到同一件任务上,用来训练神经网络。32位处理器,哇,我们肯定能用它做点大事。但我错了。6/JeffDean意识到如果想用神经网络做些引人注目的事情,所需的算力大概是90年代算力的一百万倍。但从大概2005年开始,多亏了摩尔定律,我们真的开始拥有算力了,世界上一些大学里的研究员们开始成功用神经网络完成各种任务。和其他几个在谷歌的同事听闻了这些成功事例,于是决定启动一个项目,训练大型神经网络。7/用油管视频里随机截取的一千万帧照片对其进行训练。这个系统发展出了能够识别所有不同种类物体的能力,然后因为是油管的关系,所以它发展出了识别猫的能力。油管上全是猫。但让它如此引人注目的是从未有人告诉过这个系统猫到底是什么。仅仅依靠数据的形态规律,它就能自己琢磨出来猫究竟是什么。8/在那个时候,我们还对如何打造一个更适合神经网络运算所需的计算机硬件感兴趣。神经网络运算有两个特性。第一个是它们对精准度要求很低。几个有效位就够了,不需要六七个那么多。第二个是所有算法都普遍由多个不同的矩阵和向量的运算组成。它会非常适用于神经网络运算,虽然你无法用它做太多别的事,这是我们制作的第一个成品,TPUv1。“TPU”是张量处理器的意思。多年来,这一技术运用于谷歌搜索、翻译、以及AlphaGo围棋比赛,所以李世石和柯洁可能没意识到,他们其实是在和TPU架构比赛。9/我们仍然做错了很多事,讲三件我们做错的事情,以及如何修正他们。第一个是,现如今的大部分神经网络只被训练进行单一种类的任务。你训练它去做一件你很关心的事情,但这是一项非常繁重的工作。你需要搜索数据组,选择这个问题所需的网络架构,接着随机分配起始比重,然后为调整比重进行大量运算。到最后,如果你幸运的话,可以得到一个非常适用于你关心的问题的模型。但如果你一直这样做,到最后会得到几千个独立的模型,每个可能都很有用,但都只针对某个单一类型的问题。10/想一想人类是怎样学习的。想象我们沉浸于钻研园艺,尝试垂直水培园艺。无需为此重新学习一遍,我已经掌握的有关植物的知识。知道怎么把植物放进洞里,怎么浇水,以及植物需要光照,我只需要整合这些知识用以学习新的技术。(大脑整合了不同维度的知识和模型)11/电脑也可以这样运作,但目前还未实现。为了避免每次学习新东西时忘记之前的知识,我们可以训练一个多任务处理模型,该模型的每个部分都有自己的专长,能够完成成千上万种不同的任务。假设我们有一个能完成一千种任务的模型,当第一千零一种任务出现时,我们可以整合已有的和新任务相关的知识,更快地完成这项新任务。就像你面临新的问题时,能够快速识别已知并能够帮助解决这些新问题的知识一样。12/第二个问题是,大部分现今的模型只能应对一种形态的数据,图片、文字或语音,但无法做到一网打尽。但想一想人类如何在这世上生活。你不断地动用你所有的感官去学习,去做出反应,去搞清楚现在应该做什么。这样显然更加合理,我们也可以用同样的方式建造模型。13/我们可以建造一个可以接收所有不同种类数据的模型,文字,图像,语音,然后把它们融合在一起,这样无论这个模型看到文字“豹子”,看到豹子的视频,还是听到有人说出“豹子”这个词它都会触发同样的反应:一个豹子的概念可以应对很多种不同的数据输入项,甚至是非人工的输入项,例如基因序列,3D点云数据,当然也包括图片、文字和影像。14/第三个问题是现有人工智能模型过于稠密,这导致我们在执行某项任务时必须完全激活整个模型。与之相反,人脑的不同区块专注于不同的工作。我们可以制造一种激活反应较稀松的模型,训练时,模型可以学习哪个区块适用于哪个领域。此类模型高效,因为我们只使用完成任务所需的区块。解决这三个问题后,我们可以训练几个通用模型,能够应对成千上万件事情,并整合不同数据形态。我们已经制造了一种符合以上条件的模型,叫做“Pathways”。15/我们的理念是这个模型可以完成成千上万种不同类型的任务,然后我们可以逐步增加新的任务,它也可以同时处理各种形态的数据,然后逐步学习新技能,并按需为不同任务启动不同区块。我们对此感到非常兴奋,我们认为这将是人工智能系统建造迈出的重要一步。16/浅谈一下什么是可信赖的AI。我们要确保强大的人工智能系统造福所有人,但也要考虑公平性、可解释性、私密性和安全性。为训练这些模型完成成千上万种任务,我们需要大量数据,并确保数据的采集代表不同的社群和情况。数据担忧只是可靠人工智能这个议题的一部分。2018年,谷歌发表了开发此类科技时应注意的人工智能守则。17/这帮助指导了我们在研究领域和产品中使用人工智能。这对于思考复杂问题和在社会中应用人工智能非常有帮助和重要。我们不断更新这些准则,它们是现在研究的热点领域。从只能识别数据中的模式到通用智能系统,它们赋予我们解决人类面临的重大问题的能力。例如,我们可以诊断更多疾病,设计出更好的药品,优化教育系统,解决全球变暖等复杂问题。这些系统需要来自世界各地的多学科专家共同协作。18/将人工智能和你所在的领域相结合,从而推动产业的进程。我看到了许多计算机科学的优势,以及在过去的几十年中计算机科学如何帮助几百万人更好地理解世界。今天的人工智能拥有帮助数十亿人的潜力。我们真的生活在一个振奋人心的时代。谢谢。Invalidmedia:

相关推荐

封面图片

研究发现纳米线网络可以像人脑一样学习和记忆

研究发现纳米线网络可以像人脑一样学习和记忆现在,由悉尼大学的研究人员领导的一个国际团队已经证明了纳米线与人脑的相似程度。该研究的共同作者ZdenkaKuncic说:"这种纳米线网络就像一个合成的神经网络,因为纳米线的作用就像神经元,而它们相互连接的地方类似于突触"。为了弄清纳米线在多大程度上表现出认知功能,研究人员进行了一个用于评估人类工作记忆的测试版本,称为n-back测试。进行n-back测试的人可能会看到一系列字母或图像的序列。对于序列中的每个项目,他们必须确定它是否与"n"个项目之前呈现的项目相匹配。7分是平均分,表明一个人可以认出7个项目之前出现的项目。对于NWN,研究人员将n-back测试修改为可实施的子任务。为了进行测试,研究人员在他们想要的地方引导NWN的路径。"我们在这里所做的是操纵末端电极的电压,迫使路径发生变化,而不是让网络做自己的事情,强迫通路去我们希望它们去的地方。"该研究的主要作者AlonLoeffler说。研究人员发现,引导NWN的路径改善了它的记忆能力和准确性。Loeffler说:"当我们实施这种做法时,它的记忆具有更高的准确性,并没有随着时间的推移而真正减少,这表明我们已经找到了一种方法来加强路径,将它们推向我们想要的地方,然后网络就会记住它。"证据就在测试中。当他们对NWN进行修改后的N-back测试时,它可以"记住"电路中的一个想要的终点,并向后退七步,与人类的记忆相当。研究人员说,在不断强化NWN后,它达到了一个点,记忆变得固定,不需要进一步强化。"这有点像我们大脑中长期记忆和短期记忆之间的区别,"Kuncic说。"如果我们想长期记住一些东西,我们真的需要不断训练我们的大脑来巩固它,否则它就会随着时间的推移而逐渐消失。"研究人员说,他们的研究表明,NWNs可以以类似于人类大脑的方式运作,可以用来改进需要快速做出决定的机器人或传感器设备。"在这项研究中,我们发现我们通常与人脑有关的高阶认知功能可以在非生物硬件中得到模拟,"Loeffler说。"我们目前的工作为在非生物硬件系统中复制类似大脑的学习和记忆铺平了道路,并表明类似大脑的智能的基本性质可能是物理的。“”...PC版:https://www.cnbeta.com.tw/articles/soft/1356337.htm手机版:https://m.cnbeta.com.tw/view/1356337.htm

封面图片

深度学习数学工程 | YouTube | #机器学习 #电子书

#机器学习#电子书本书提供了深度学习的完整且简明的数学工程概述。内容包括卷积神经网络、递归神经网络、transformer、生成式对抗网络、强化学习、图神经网络等。书中聚焦于深度学习模型、算法和方法的基本数学描述,很大程度上与编程代码、神经科学关系、历史视角无关。数学基础的读者可以快速掌握现代深度学习算法、模型和技术的本质。深度学习可以通过数学语言在许多专业人员可理解的层面上进行描述。工程、信号处理、统计、物理、纯数学等领域的读者可以快速洞察该领域的关键数学工程组成部分。书里包含深度学习的基础原理、主要模型架构、优化算法等内容。另外还提供了相关课程、工作坊、源代码等资源。本内容面向想要从数学工程视角理解深度学习的专业人员,内容覆盖了深度学习的主要技术,使用简明的数学语言描述深度学习的关键组成部分,是了解深度学习数学本质的很好资源。

封面图片

MIT研究人员发现深层神经网络并不会像人类一样看待世界

MIT研究人员发现深层神经网络并不会像人类一样看待世界该研究的资深作者麦克德莫特说:“这篇论文表明,你可以使用这些模型来导出非自然信号,这些信号最终可以对模型中的表征进行诊断。这项测试将成为我们这个领域用来评估模型的一系列测试的一部分。”JenelleFeather博士22岁,现任Flatiron研究所计算神经科学研究中心研究员,是这篇开放获取论文的主要作者,该论文今天发表在《自然神经科学》杂志上。麻省理工学院研究生GuillaumeLeclerc和麻省理工学院Cadence设计系统计算教授AleksanderMądry也是该论文的作者。近年来,研究人员训练了深度神经网络,可以分析数百万个输入(声音或图像)并学习共同特征,使他们能够像人类一样准确地对目标单词或物体进行分类。这些模型目前被认为是生物感觉系统的领先模型。人们相信,当人类感觉系统执行这种分类时,它会学会忽略与物体核心身份无关的特征,例如照射在物体上的光线数量或从什么角度观看物体。这被称为不变性,意味着即使对象在那些不太重要的特征上表现出差异,也会被认为是相同的。“传统上,我们对感觉系统的思考方式是,它们为同一事物的不同示例可能具有的所有变异来源建立了不变性,”Feather说。“有机体必须认识到它们是同一件事,即使它们表现为非常不同的感官信号。”研究人员想知道,经过训练来执行分类任务的深度神经网络是否可能会产生类似的不变性。为了尝试回答这个问题,他们使用这些模型来生成刺激,这些刺激在模型内产生与研究人员给予模型的示例刺激相同的反应。当这些神经网络被要求生成图像或单词并将其与特定输入(例如熊的图片)归为同一类别时,它们生成的大部分内容对于人类观察者来说是无法识别的。右侧是模型分类为“熊”的示例。图片来源:麻省理工学院研究人员他们将这些刺激称为“模型同色异体”,复兴了经典感知研究中的一个想法,即系统无法区分的刺激可以用来诊断其不变性。同色异谱的概念最初是在人类感知研究中发展起来的,用于描述看起来相同的颜色,即使它们是由不同波长的光组成的。令他们惊讶的是,研究人员发现,以这种方式产生的大多数图像和声音看起来和听起来都与模型最初给出的例子完全不同。大多数图像都是一堆看起来随机的像素,声音类似于难以理解的噪音。当研究人员向人类观察者展示图像时,在大多数情况下,人类不会将模型合成的图像分类为与原始目标示例相同的类别。“人类根本无法识别它们。它们看起来或听起来都不自然,而且不具有人们可以用来对物体或单词进行分类的可解释特征,”Feather说。研究结果表明,这些模型以某种方式发展出了自己的不变性,与人类感知系统中发现的不变性不同。这导致模型将成对的刺激视为相同,尽管它们与人类截然不同。研究人员在许多不同的视觉和听觉模型中发现了相同的效果。然而,这些模型中的每一个似乎都发展出了自己独特的不变性。当一个模型的同色异谱显示给另一个模型时,第二个模型和人类观察者一样无法识别同色异谱。“从中得出的关键推论是,这些模型似乎具有我们所说的特殊不变性,他们已经学会了对刺激空间中的这些特定维度保持不变,并且它是特定于模型的,因此其他模型不具有相同的不变性。”研究人员还发现,他们可以通过使用一种称为对抗性训练的方法,使模型的同色异聚体更容易被人类识别。这种方法最初是为了克服对象识别模型的另一个限制而开发的,即对图像引入微小的、几乎难以察觉的变化可能会导致模型误识别它。研究人员发现,对抗性训练涉及在训练数据中包含一些稍微改变的图像,产生的模型的同色异体更容易被人类识别,尽管它们仍然不如原始刺激那么容易识别。研究人员表示,这种改进似乎与训练对模型抵抗对抗性攻击的能力的影响无关。“这种特殊形式的训练有很大的效果,但我们真的不知道为什么会产生这种效果,”Feather说。“这是未来研究的一个领域。”研究人员表示,分析计算模型产生的同色异体可能是一个有用的工具,可以帮助评估计算模型对人类感官知觉系统底层组织的模仿程度。“这是一个行为测试,你可以在给定的模型上运行,看看模型和人类观察者之间是否共享不变性,它还可以用来评估给定模型中不变性的特殊性,这可以帮助发现未来改进我们模型的潜在方法。”...PC版:https://www.cnbeta.com.tw/articles/soft/1393463.htm手机版:https://m.cnbeta.com.tw/view/1393463.htm

封面图片

基于AI芯片的神经网络优化实战

名称:基于AI芯片的神经网络优化实战描述:作为一个AI芯片轻量化设计的学习者,我深深体会到了网络结构、识蒸馏优化和低秩分解优化在实际应用中的重要性。以下是我个人的一些心得体会:网络结构剪枝是一种有效的减少复杂度和计算量的方法。通过对神经网络中冗余参数的剪枝,可以大幅减少模型的大小和计算复杂度,从而提高模型的训练和推理速度。同时,剪枝还可以使模型更加稀疏,从而提高模型的通用性和泛化能力。建议先收藏保存,不定时失效。链接:https://pan.quark.cn/s/a0d9260de283大小:NG标签:#quark#学习#资源#课程#网络优化频道:@yunpanshare群组:@yunpangroup

封面图片

学习脑:像训练肌肉一样训练大脑 | 电子书 [ pdf | mobi | epub ]

名称:学习脑:像训练肌肉一样训练大脑电子书[pdfmobiepub]描述:本书作者彼得•霍林斯在脑科学和学习法领域深耕十余年,他从大脑神经元的特性出发,提出了一套能够深度唤醒大脑潜能的科学学习法。稳定大脑的边缘系统,就能提升专注力;调控大脑的认知负荷,即可高效掌握知识;搭建信息的编码—储存—检索系统,可以让知识记得又快有牢……没有谁生来就是学霸,只要学会像训练肌肉一样训练大脑,人人都可以成为学习高手。链接:https://www.alipan.com/s/jqfkZoyJgAc大小:N标签:#电子书来自:雷锋频道:@Aliyundrive_Share_Channel群组:@alyd_g投稿:@AliYunPanBot

封面图片

AI根据人类大脑活动重建视觉图像

AI根据人类大脑活动重建视觉图像这项研究利用了开源的StableDiffusion模型,由日本大阪大学的科学家完成。该AI模型能够有效地生成高质量图像,并且能够捕捉到图像中不同层次的特征,从低级的边缘和纹理到高级的语义和场景。他们使用功能性磁共振成像(fMRI)记录了人类大脑在观看不同类型的图片时产生的神经活动。然后设计了一个AI神经网络,学习大脑活动与StableDiffusion的潜在表示(图片的多维特征)之间的映射关系。通过这个网络,他们能够从大脑活动中重建出与原始图片非常相似的图像。投稿:@ZaiHuabot频道:@TestFlightCN

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人