赶在谷歌Gemini发布前 OpenAI要抢发“多模态”大模型

赶在谷歌Gemini发布前OpenAI要抢发“多模态”大模型然而,OpenAI又要来截胡了。据媒体最新报道,OpenAI正在积极努力将多模态功能(类似于Gemini预计提供的功能)纳入GPT-4,目标赶在Gemini发布前推出多模态大型语言模型(MLLM),即代号为Gobi的下一代大型语言模型,以击败谷歌并保持领先地位。随着ChatGPT在各领域展现出非凡能力,多模态大型语言模型近来也成为了研究的热点,它利用强大的大型语言模型(LLM)作为“大脑”,可以执行各种多模态任务。MLLM展现出了传统方法所不具备的能力,比如能够根据图像创作故事、视觉知识问答、无需OCR(光学字符识别)的数学推理等,从自然语言理解到图像解释等,提供更广泛的信息处理能力。报道称,OpenAI早在3月份发布GPT-4时就预先展示了这些功能,但除了一家名为“BeMyEyes”的公司外,没有向其他公司开放。后者主要为有视力障碍或失明的人开发移动应用程序。六个月后,OpenAI正准备在更大范围内推出被称为GPT-Vision的功能。为什么OpenAI花了这么长时间才推出这项功能?报道称主要是担心新的视觉功能会被不良行为者利用,比如通过自动解决验证码来冒充人类,或者通过面部识别来跟踪人们。但OpenAI的工程师们似乎接近于解决围绕这项新技术的法律担忧。谷歌也面临这个问题,当该公司被问及正在采取哪些措施来防止Gemini滥用时,谷歌发言人指出,该公司在7月份做出了一系列承诺,以确保其所有产品能够负责任地开发。然而,考虑到谷歌拥有与文本、图像、视频和音频相关的专有数据(包括来自搜索和YouTube等平台的数据),该行业向多模态模型的发展可能会有利于发挥谷歌的优势。一位使用过早期版本的人说,与现有的模型相比,Gemini似乎已经产生了更少的错误答案。OpenAI首席执行官SamAltman在最近的各种采访中暗示,GPT-5还没有出现,但他们计划对GPT-4进行各种增强,新的增强模型可能是其中之一。报道称,OpenAI似乎还没有开始训练Gobi,所以现在就说它最终会成为GPT-5还为时过早。在上周接受《连线》杂志采访时,谷歌CEO皮查伊表达了他对谷歌目前在AI领域地位的信心,并认可技术进步的持久性,以及他们在平衡创新与责任方面深思熟虑的战略。无论如何,这场竞赛就相当于人工智能版的iPhone与Android。人们正屏息以待Gemini的到来,它将揭示谷歌和OpenAI之间的差距到底有多大。风险提示及免责条款市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。...PC版:https://www.cnbeta.com.tw/articles/soft/1384867.htm手机版:https://m.cnbeta.com.tw/view/1384867.htm

相关推荐

封面图片

OpenAI 发布新一代大型多模态模型 GPT-4

OpenAI发布新一代大型多模态模型GPT-4GPT-4是一个大型多模态模型,可以接受文本和图像输入。GPT-4在各种专业学术基准上有着人类水平表现,例如模拟律师考试中,GPT-4的得分约为前10%,而GPT-3.5的得分约为倒数10%。在多语言测试中,GPT-4优于GPT-3.5和Chinchilla(来自DeepMind)还有PaLM(来自谷歌),包括英语性能还有拉脱维亚语、威尔士语和斯瓦希里语等低资源语言。OpenAI还开放了角色扮演和性格定制能力,开发人员和用户可以自定义他们的AI风格,而不是具有固定冗长、语气和风格的经典ChatGPT个性。ChatGPTPlus订阅用户现可直接GPT-4,未来将对免费用户开放一定数量的GPT-4体验。GPT-4API需要候选名单,每1kprompttokens的价格为$0.03,每1kcompletiontokens的价格为$0.06。目前图像输入处在研究预览阶段,仅对少部分客户开放。微软在GPT-4发布后也正式BingChat基于GPT-4运行,同时BingChat的Edge边栏功能上线。与数据停留在2021年9月的GPT-4离线版本不同,BingChat可联网获取实时信息并且免费。——投稿:@ZaiHuabot频道:@TestFlightCN

封面图片

中信证券:谷歌 Gemini 模型发布,AI 进入多模态时代

中信证券:谷歌Gemini模型发布,AI进入多模态时代中信证券研报指出,近日,谷歌宣布发布新一代大模型Gemini,再次引发市场对人工智能产业的持续关注。Gemini模型作为谷歌以及全球范围内最先发布的多模态模型,在性能上是第一个在MMLU上超越人类专家的模型。模型根据体量大小分为GeminiUltra、GeminiPro、以及GeminiNano三个版本,支持在云端以及边缘测运行。同时谷歌同步发布最新版本的计算芯片TPUv5p,相较上一代TPUv4性价比提升2.3倍。我们认为,多模态Gemini模型的正式发布,一方面可以拓宽应用场景的拓展,另一方面能够带来算力需求的持续升级。我们持续看好后续AI产业的前景,认为后续GPT-5等模型的发布亦将带来更多的催化。

封面图片

传谷歌推迟发布Gemini大模型 或要到明年初上线

传谷歌推迟发布Gemini大模型或要到明年初上线谷歌首席执行官桑达尔·皮查伊(SundarPichai)周四则表示,该公司“正专注于尽快推出Gemini1.0版本,确保它具有竞争力,是最先进的模型,我们将在此基础上继续迭代。”知情人士透露,谷歌推迟向云客户推出大型Gemini模型,意味着该公司希望在让外部软件开发商使用这项新技术之前,先用其来支持其消费者产品。谷歌对Gemini寄予厚望,希望其不仅能提振企业软件的销售,还能为YouTube上的创作者提供新的工具,并改进Bard以及谷歌助手的功能。Gemini团队面临的一个关键挑战是确保初级模型与OpenAI最先进的GPT-4一样好或更好。但知情人士说,目前还不清楚谷歌是否实现了这一标准。据悉,Gemini的开发人员得到了联合创始人谢尔盖·布林(SergeyBrin)的帮助,后者现在每周花四到五天时间前往该公司位于加州山景城的总部,与Gemini的开发人员一起工作。知情人士说,布林不是正式的决策者,但最近几周他对Gemini提出了批评和反馈,并帮助不同的团队协调工作。...PC版:https://www.cnbeta.com.tw/articles/soft/1397597.htm手机版:https://m.cnbeta.com.tw/view/1397597.htm

封面图片

中信证券:OpenAI 推出视频生成模型 Sora,AI 产业围绕多模态不断加码

中信证券:OpenAI推出视频生成模型Sora,AI产业围绕多模态不断加码中信证券研报指出,近一周内,OpenAI和谷歌分别推出了他们的最新AI模型,围绕视频多模态这个核心关键点双方不断加码。Gemini1.5Pro基于大语言模型处理视频模态,上下文长度超过百万,Sora在技术上采用了DiffusionTransformer的路线,OpenAI表示Sora在训练过程中表现出了与其他模型不同的涌现能力,有望成为真正的“世界模型”。从投资角度来看,Sora背后的涌现能力为自动驾驶、设计等需要现实世界建模的行业提供了明确方向。Gemini在短期内的部分商业场景表现可能会更为出色,尤其是需要结合图片与文字的多模态应用场景。除去应用端的投资机会,硬件端的需求也必然会随着多模态的技术进步而不断提高,我们仍然持续看好AI算力,尤其是后续商业端成熟而带来的更多AI推理侧算力的机会。

封面图片

谷歌集大成之作要来了 据称将发布AI大模型Gemini 对标GPT-4

谷歌集大成之作要来了据称将发布AI大模型Gemini对标GPT-4在ChatGPT掀起的人工智能浪潮中,谷歌今年加大了对生成式人工智能(AIGC)的投资,试图迎头赶上。该公司花费了大量的计算资源和人力来开发这款产品,因此对谷歌来说,Gemini的发布事关重大。而允许外部开发者使用Gemini意味着谷歌正在考虑将其纳入其消费者服务。据知情人士透露,谷歌并将发布不同大小的Gemini版本,这样开发者就可以购买一个不那么复杂的版本来处理简单的任务,或者一个足够小的版本来在个人设备上运行。Gemini的功能Gemini是一个大语言模型的集合,它支持多种功能,包括:聊天机器人、生成原始文本、根据用户的要求总结文本等。Gemini还有望帮助软件工程师编写代码,并根据用户的要求生成原始图像。与现有型号相比,Gemini将大大提高帮助软件开发人员生成代码的能力。谷歌希望用它来追赶微软的GitHubCopilot代码助手,该助手由OpenAI的模型驱动,现在已经成为一个大热产品。谷歌此前还讨论过使用Gemini来增强图表分析等功能,比如让该模型解释已完成图表的含义;以及使用文本或语音命令来浏览网页浏览器或其他软件。此外,谷歌计划通过其谷歌云的VertexAI服务向企业提供Gemini模型,变相促进了谷歌的云服务业务。除了推动云服务器租赁业务外,谷歌还寄望于该软件为其所有业务提供动力,从其Bard聊天机器人到Workspace软件的新功能。...PC版:https://www.cnbeta.com.tw/articles/soft/1384103.htm手机版:https://m.cnbeta.com.tw/view/1384103.htm

封面图片

传谷歌即将发布GPT-4竞品Gemini

传谷歌即将发布GPT-4竞品Gemini据知情人士透露,国外媒体TheInformation报道称,Google已向少数公司提供了Gemini早期版本进行测试,Gemini模型的正式发布即将到来。Gemini是GoogleDeepMind团队紧锣密鼓开发的下一代AI模型,据悉是Google第一个能够处理文字、图片、视频等不同数据形式的多模态模型,同时可望帮助软件工程师根据提示需求生成代码,加速软件开发。投稿:@ZaiHuaBot频道:@TestFlightCN

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人