华科大发布AI大模型猴子:部分超越GPT-4

华科大发布AI大模型猴子:部分超越GPT-4官方介绍称,在18个数据集上的实验中,华科大Monkey模型表现出色,特别是在图像描述和视觉问答任务方面,超越了众多现有知名的模型如微软的LLAVA、Google的PALM-E、阿里的Mplug-owl等。此外,Monkey在文本密集的问答任务中显示出显著的优势,甚至在某些样本上超越了业界公认的领先者GPT-4V。Monkey的一个显著特点是其出色的“看图说话”能力。在详细描述任务中,Monkey展现了对图像细节的感知能力,能够察觉到其他多模态大模型所忽略的内容。另一亮点是能够处理分辨率高达1344x896像素的图像,这是目前其他多模态大模型所能处理的最大尺寸的6倍。据悉,目前业内能处理的图片最大分辨率为448×448像素。值得一提的是,该团队已将Monkey代码在全球最大的代码托管服务平台GitHub上开源。...PC版:https://www.cnbeta.com.tw/articles/soft/1403903.htm手机版:https://m.cnbeta.com.tw/view/1403903.htm

相关推荐

封面图片

LLaV:一个拥有类似 GPT-4 的大语言+视觉模型

LLaV:一个拥有类似GPT-4的大语言+视觉模型“使用机器生成的指令跟踪数据对大型语言模型(LLM)进行指令调优提高了新任务的零样本能力,但这一想法在多模式领域的探索较少。所以,我们开始尝试使用纯语言GPT-4生成多模态语言图像指令跟踪数据。通过对此类生成的数据进行指令调整,并推出了LLaVA:大型语言和视觉助手。这是一种端到端训练的大型多模态模型,连接视觉编码器和LLM以实现通用视觉和语言理解。早期实验表明,LLaVA展示了令人印象深刻的多模型聊天能力,有时在看不见的图像/指令上表现出多模态GPT-4的行为,并且与合成多模态指令跟随数据集上的GPT-4相比,相对分数达到了85.1%。当在ScienceQA上进行微调时,LLaVA和GPT-4的协同作用达到了92.53%,这个准确率颇高。因此,我们在GitHub正式开放GPT-4生成的视觉指令调整数据、模型和代码库。”

封面图片

OpenAI 新一代模型 GPT-4 将于下周发布

OpenAI新一代模型GPT-4将于下周发布微软德国CTOAndreasBraun在3月9日举行的「AIinFocus-DigitalKickoff」活动中透露到:GPT-4将于下周发布,它是一个多模态模型,除了生成文本还可以生成图像、视频和音乐。这项技术已经发展到基本上"适用于所有语言"。微软德国CEOMarianneJanik还在活动上强调:"微软不会使用客户的数据来训练模型。"GPT-4的发布活动可能是指微软将在3月16日(北京时间17日0点)举办的「」发布会,届时微软CEOSatyaNadella和Microsoft365负责人JaredSpataro将在直播中展示最新的AI产品。投稿:@ZaiHuabot频道:@TestFlightCN

封面图片

中信证券:Anthropic 推出 Claude3 全面超越 GPT-4,仍持续看好 AI 算力层面

中信证券:Anthropic推出Claude3全面超越GPT-4,仍持续看好AI算力层面中信证券研报指出,北京时间3月4日晚,Anthropic,一家获得谷歌和亚马逊投资的初创公司,宣布发布其最新的通用大语言模型Claude3。Claude3Opus标志着模型能力的实质性飞跃,实现了在全方位能力上对GPT-4的超越,尽管优势微弱,但其成就不容小觑,使其成为全球唯一能与GPT-4匹敌的模型。投资层面来看,Claude3对于视频多模态的重视亦强调今年多模态将会是发展的重心。具体而言应用层面,随着底层模型算法能力提升,应用端场景有望实现0到1的突破,软件、互联网有望率先受益。除去应用端的投资机会,硬件端的需求也必然会随着多模态的技术进步而不断提高,我们仍然持续看好AI算力层面,尤其是得益于商业端成熟而带来的更多的AI推理侧算力的机会。

封面图片

全球最强大模型一夜易主 GPT-4被全面超越

全球最强大模型一夜易主GPT-4被全面超越几项数学类评测都是用0-shot超越GPT-4的4-8shot。除此之外,此前就以长下文窗口见长的Claude,此次全系列大模型可提供200K上下文窗口,并且接受超过100万Tokens输入。Gemini1.5Pro:嗯?目前可以免费体验第二强Sonnet,Opus最强版供ClaudePro付费用户使用,但大模型竞技场也可以白嫖。于是乎,网友们已经开始疯玩上了。(Doge)另外,Opus和Sonnet也开放API访问,开发者可以立即使用。有人直接艾特奥特曼:好了,你现在可以发布GPT-5了。不过奥特曼可能还在烦马斯克的诉讼……最新最强大模型发布此次Claude3家族共有三个型号:小杯Haiku、中杯Sonnet以及大杯Opus,成本和性能依次递增。首先,在性能参数上,Claude3全系多方面全面提升。其中Opus在MMLU、GPQA、GSM8K等评估基准上领先于其他所有模型:还有在视觉能力上,它能可以处理各种视觉格式,包括照片、图表、图形和技术图表。对于这样性能结果,有专业人士表达了自己的看法。比如爱丁堡大学博士生、中文大模型知识评估基准C–Eval提出者之一符尧就表示,像MMLU/GSM8K/HumanEval这些基准,已经严重饱和:所有模型的表现都相同。他认为,真正区分模型性能基准的是MATHandGPQA。另外,在拒绝回答人类问题方面,Claude3也前进了一大步,拒绝回答的可能性显著降低在上下文以及记忆能力上,他们用大海捞针(NeedleInAHaystack,NIAH)来评估衡量大模型从大量数据中准确召回信息的能力。结果Claude3Opus不仅实现了近乎完美的召回率,超过99%的准确率。而且在某些情况下,它甚至能识别出“针“句似乎是人为插入原文的,从而识别出评估本身的局限性。还在生物知识、网络相关知识等方面取得了进步,但出于负责任的考虑,仍处于AI安全级别2(ASL-2)。其次,在响应时间上,Claude3大幅缩短,做到近乎实时。官方介绍,即将发布的小杯Haiku能够在三秒内阅读并理解带有图表的长度约10ktoken的arXiv论文。而中杯Sonnet能够在智能水平更高的基础上,速度比Claude2和Claude2.1快2倍,尤其擅长知识检索或自动化销售等需快速响应的任务。大杯Opus的智能水平最高,但速度不减,与Claude2和Claude2.1近似。官方对三款型号的模型也有清晰的定位。大杯Opus:比别家模型更智能。适用于复杂的任务自动化、研发和制定策略;中杯Sonnet:比其他同类模型更实惠。更适合规模化。适用于数据处理、RAG、在中等复杂度工作流程中节省时间;小杯Haiku:比同类模型更快速、实惠。适用于与用户实时互动,以及在简单工作流程中节省成本;在价格方面,最便宜的小杯定价0.25美元/1Mtokens输入,最贵的大杯定价75美元/1Mtokens输入对比GPT-4Turbo,大杯价格确实高出不少,也能体现AnthropicAI对这款模型非常有信心。第一手实测反馈既如此,那就先免费来尝尝鲜~目前官方页面已经更新,Claude展现了“理解和处理图像”这一功能,包括推荐风格改进、从图像中提取文本、将UI转换为前端代码、理解复杂的方程、转录手写笔记等。即使是模糊不清的有年代感的手记文档,也能准确OCR识别:底下写着:你正在使用他们第二大智能模型Claude3Sonnet。然鹅,可能是人太多的原因,尝试了几次都显示“Failed”不过,网友们也已经po出了一些测试效果,比如让Sonnet解谜题。为其提供一些示例,要求它找出数字之间的关系,比如“1Dimitris2Q3”,意思是3是1和2相加的结果。结果Sonnet成功解出-1.1加8等于6.9,所以“X”的值应该是6.9:还有网友发现Sonnet现在也可以读取ASCII码了,直呼:这是GPT-4++的水平了。在编程任务上,谁写的代码好先不说,Claude3至少不会像GPT-4一样偷懒。还有体验到了Opus的玩家,在线给模型挖坑,可opus硬是完美躲避不上当:初看这效果,感觉还行。这时候应该艾特OpenAI:GPT-5在哪里?好了,感兴趣的朋友,可以戳下方链接体验啦~https://claude.ai/参考链接:[1]https://www.anthropic.com/news/claude-3-family[2]https://twitter.com/AnthropicAI/status/1764653830468428150/photo/1...PC版:https://www.cnbeta.com.tw/articles/soft/1422389.htm手机版:https://m.cnbeta.com.tw/view/1422389.htm

封面图片

OpenAI 发布新一代大型多模态模型 GPT-4

OpenAI发布新一代大型多模态模型GPT-4GPT-4是一个大型多模态模型,可以接受文本和图像输入。GPT-4在各种专业学术基准上有着人类水平表现,例如模拟律师考试中,GPT-4的得分约为前10%,而GPT-3.5的得分约为倒数10%。在多语言测试中,GPT-4优于GPT-3.5和Chinchilla(来自DeepMind)还有PaLM(来自谷歌),包括英语性能还有拉脱维亚语、威尔士语和斯瓦希里语等低资源语言。OpenAI还开放了角色扮演和性格定制能力,开发人员和用户可以自定义他们的AI风格,而不是具有固定冗长、语气和风格的经典ChatGPT个性。ChatGPTPlus订阅用户现可直接GPT-4,未来将对免费用户开放一定数量的GPT-4体验。GPT-4API需要候选名单,每1kprompttokens的价格为$0.03,每1kcompletiontokens的价格为$0.06。目前图像输入处在研究预览阶段,仅对少部分客户开放。微软在GPT-4发布后也正式BingChat基于GPT-4运行,同时BingChat的Edge边栏功能上线。与数据停留在2021年9月的GPT-4离线版本不同,BingChat可联网获取实时信息并且免费。——投稿:@ZaiHuabot频道:@TestFlightCN

封面图片

谷歌发布AI语言模型PaLM 2 挑战OpenAI的GPT-4

谷歌发布AI语言模型PaLM2挑战OpenAI的GPT-4皮查伊称:“PaLM2在逻辑和推理方面进行了广泛的训练,具有极强的逻辑和推理能力。同时,它还接受了多语言文本训练,支持100多种语言。谷歌在2022年4月首次发布了PaLM语言模型。谷歌高级研究总监斯拉夫·彼得罗夫(SlavPetrov)称,最新的PaLM2在一系列基于文本的任务上表现更好,包括推理、编码和翻译等。他说:“与PaLM1相比,PaLM2有了显著提升。”对于PaLM2,谷歌工程师在一份研究论文中称,该系统的语言熟练程度“足以教授这门语言”。与其他大型语言模型一样,PaLM2与其说是一款单一产品,不如说是一系列产品。它拥有不同的版本,可部署在消费者和企业环境中。确切而言,PaLM2分为四种规格,从小到大依次为Gecko、Otter、Bison和Unicorn,依据特定领域的数据进行了微调,以执行企业客户的特定任务。其中,体积最小的Gecko可以在手机上运行,每秒可处理20个Token,大约相当于16或17个单词。谷歌还称,PaLM2已被用于支持自家的25项功能和产品,其中包括AI聊天机器人Bard,以及谷歌文档、幻灯片和工作表等。...PC版:https://www.cnbeta.com.tw/articles/soft/1359045.htm手机版:https://m.cnbeta.com.tw/view/1359045.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人