X 上的 Bindu Reddy关于Gemini测试后的一些判断,总得来说她认为Gemini不会对Bard之前的表现产生太大改变

X上的BinduReddy关于Gemini测试后的一些判断,总得来说她认为Gemini不会对Bard之前的表现产生太大改变,特别是如果他们计划对此收费的话。Gemini详细的问题在于:Gemini仍然在某种程度上受限,不愿回答某些问题。它拒绝创建一个简单的乔治·克鲁尼插图,ChatGPT在这方面做得更好。缺少PDF文件上传功能。答案看起来比之前版本要好。给人一种“逻辑推理”的印象。然而,它没有回答一些GPT-4能够解答的难题。比如,对于问题“在一个房间里,我只有3个姐妹。安娜在看书。爱丽丝在下国际象棋。那么第三个姐妹阿曼达在做什么?”它没有给出正确答案。答案应该是第三个姐妹也在下棋。GPT-4对此回答得很准确。

相关推荐

封面图片

谷歌Gemini刚发就惹质疑:测试标准有失偏颇、效果视频疑剪辑

谷歌Gemini刚发就惹质疑:测试标准有失偏颇、效果视频疑剪辑AI实时对人类的涂鸦和手势动作给出评论和吐槽,流畅还很幽默,最接近贾维斯的一集。然鹅当大家从惊喜中冷静下来,仔细阅读随之发布的60页技术报告时,却发现不妥之处。(没错,没有论文,OpenAICloseAI你开了个什么坏头啊)MMLU测试中,Gemini结果下面灰色小字标称CoT@32,展开来代表使用了思维链提示技巧、尝试了32次选最好结果。而作为对比的GPT-4,却是无提示词技巧、只尝试5次,这个标准下GeminiUltra其实并不如GPT-4。以及原图比例尺也有点不厚道了,90.0%与人类基准89.8%明明只差一点,y轴上却拉开很远。HuggingFace技术主管PhilippSchmid用技术报告中披露的数据修复了这张图,这样展示更公平恰当:每到这种时候,总少不了做表情包的老哥飞速赶到战场:但好在,同样使用思维链提示技巧+32次尝试的标准时,GeminiUltra还是确实超越了GPT-4的。JeffDean在一处讨论中对这个质疑有所回应,不过大家并不买账。另外,对于那段精彩视频,也有人从开篇的文字免责声明中发现了问题。机器学习讲师SantiagoValdarrama认为声明可能暗示了展示的是精心挑选的好结果,而且不是实时录制而是剪辑的。后来谷歌在一篇博客文章中解释了多模态交互过程,几乎承认了使用静态图片和多段提示词拼凑,才能达成这样的效果。但不管怎么样,谷歌Gemini的发布还是给了其他团队很大信心,GPT-4从此不再是独一无二、难以企及的存在了。正如AI搜索产品PerplexityAI创始人AravindSrinivas总结:1、Gemini证明了OpenAI之外的团队可以搞出超越GPT-4的模型2、训练到位的密集模型可以超越GPT-4的稀疏模型架构推论:从大教师模型蒸馏小尺寸密集模型会成为未来趋势,实现效率和能力的最佳结合。更多网友关心的话题是,这下子还有必要继续为ChatGPTPlus付费每月20美元吗??目前,GeminiPro版本已更新到谷歌聊天机器人Bard中,水平到底有没有宣传的好,可以看看实际情况。Gemini真的超越ChatGPT?首先明确一点,目前大家能上手玩到的是GeminiPro版本,也就是中杯,对标GPT-3.5。对标GPT-4的大杯GeminiUltra,要明年才出。另外目前Gemini仅支持英文,中文和其他语言也是后面才会出。虽然暂时玩不到GeminiUltra,威斯康星大学麦迪逊分校的副教授DimitrisPapailiopoulos找了个好办法:把Gemini发布时展示的原题发给GPT-4对比,结果14道题中,GPT-4约获得12分。其中有两题由于截图没法再清晰了,给GPT-4算0.5分。还有一道数学题GPT-4做错,其他题基本平手。接下来,要说最能体现一个大模型综合能力的,肯定少不了写代码。根据大家的测试结果来看,Gemini编程水平还是有保证的。有开发者测试用Pytorch实现一个简单的CNN网络,Gemini只用了2秒而且代码质量更高。当然速度快可能是由于Bard搭载的GeminiPro尺寸更小,GPT-4现在有多慢懂得都懂了。但是下一项编写SQL语句方面,这位开发者就认为Gemini表现就不太行了。不过对于广大开发者来说还有一个利好消息,在遵循指令方面,Gemini对比Bard升级之前可谓是史诗级进步。提示工程师先驱RileyGoodside,此前想要Bard输出纯JSON格式前后不带任何废话,百般尝试也不成功,最后需要假装威胁AI不这么做就鲨个无辜的人才行。现在更新以后,只需要把要求说出来,无需任何提示词技巧就能完成了。Gemini还有一大卖点是多模态能力,针对开头画小鸭子的视频,我们从中抽取了8个关键帧,分别进行提问,看看Gemini的表现有没有那么神奇。(不确定视频中是Ultra还是Pro版本,现在只能测试Pro版本)对于图1-4,我们问的问题都是“Whatisthispersondoing?”,Gemini给出的回答分别是:可能在用马克笔写字,但不知道具体是什么在用铅笔画蛇,而且是一条眼镜蛇在用铅笔画乌龟,而且正处于画画的初期阶段在用黑色马克笔画鸟,脸朝左,头朝右,站在树枝上,翅膀没有展开对于图1和图2,的确判断线索还不是很明显,出现这样的结果情有可原,不过图3这个“乌龟”的答案就有些绷不住了。至于图4,至少可以肯定的是鸭子的确属于鸟类,但是其它细节分析得还是欠缺了一些准确性。而当我们拿出图5的成型作品时,Gemini终于分析出了这是一只鸭子,水波纹也分析对了。但分析出的绘画工具变成了铅笔,头的朝向问题也依然没说对,喙被说成了张开的,还臆想出了一些芦苇。接下来是图6和图7的上色过程,一般情况下鸭子不会是蓝色,所以我们问了Gemini图片中有什么异常(Isthereanythingabnormal?)。针对图6,Gemini给出的回答不能说十分精准,只能说是驴唇不对马嘴,还配上了一张风马牛不相及的图片。针对图7的成品,Gemini直接说没毛病,该有的东西都有,背景也很真实,甚至没忘继续提根本不知道哪里来的芦苇。但下面的一句“Hereistheimageyousent”就属实令人费解了:说Gemini没看我们上传的图吧,读出来的又的确是鸭子;说它看了吧,又给出了完全不同的一张的图说是我们传上去的。所以我们想到了用“深呼吸”和“一步一步解决”提示词技巧看看能不能提高一下Gemini的表现,其中深呼吸正是适用于谷歌上一代大模型PaLM的提示词。结果这次的答案直接让人笑出了声:不正常的是,鸭子被画到了纸上,鸭子是一种活的生物,在纸上是无法存在的……视频的结尾,博主还拿出了橡胶鸭子玩具,我们也拿这一帧(图8)让Gemini分析一下鸭子的材质。结果橡胶倒是分析对了,但是蓝色的鸭子被说成了黄色,难怪上一张图会说没有异常……逐帧询问完成后,我们又把8张图放在一起询问,结果也是只有鸭子说对了。“打假”完这段视频后,我们又用之前拿来考察GPT-4V的“吉娃娃和松饼”图给Gemini试了试。结果Gemin直接摆烂,告诉我们所有的图都是“吉娃娃坐在松饼上”,甚至连图的数量都没数对……于是我们换了种问法,让它告诉我们哪些是吉娃娃,哪些是松饼。这次Gemini倒是诚实的很,直接告诉我们吉娃娃和松饼实在太像了自己区分不出来。和蓝色鸭子的问题一样,“深呼吸”在这里依然是没起到什么作用,Gemini还是连数量都搞不清楚。而勉强解说了的8个(实际上是6个,因为有两个是重复的)图,只有左下和右下两张图是对的,至于middle指的到底是哪一行,我们不得而知……或许是这样细小的差别实在是难为Gemini了,我们接下来换一些图形推理题试试。第一题的前四个符号是由1-4这四个数字与镜像后的结果拼接而成,所以下一个图应该是5与其镜像拼接,答案是C。(蓝色块是为了方便观察,传给Gemini的图中没有)这里一开始还出现了一段小插曲:最开始的提示词中是没有最后一句话(注意字母不是符号本身)的,结果Gemini真的就把ABCD这四个字母当成了备选的符号。调整之后,Gemini前面给出的分析基本正确,可惜到最后选择了错误选项D。第二题,每个框中的第三个符号是前两个的交集,答案为A。结果Gemini研究起了这些表情,一番分析猛如虎,最后给出的答案还是错的。两道题下来,一道对了百分之七八十,另一道完全错误,看来GeminiPro的图形推理能力还有很大提升空间。不过如果把目光放到生活场景当中,Gemini的表现还是值得肯定的。我们用ChatGPT(DALL·E)生成了一张包含鸡肉、胡萝卜和黄瓜的图片,Gemini正确地识别出了这三种食材,然后给出了很多种可以烹饪的菜肴,而且每个都配有图片和教程链接。这么多测试结果看下来,回到最初的问题,有了Gemini还有必要为GPT-4付费吗?沃顿商学院副教授EthanMollick给出一个不错的建议:...PC版:https://www.cnbeta.com.tw/articles/soft/1402755.htm手机版:https://m.cnbeta.com.tw/view/1402755.htm

封面图片

Ethan Mollick已经使用了一段时间的Gemini Advanced,从他的判断看Gemini Ultra好像确实跟 G

EthanMollick已经使用了一段时间的GeminiAdvanced,从他的判断看GeminiUltra好像确实跟GPT-4差不多,不过他们还是有一些区别的,我大概总结了一下:在性能基准测试中,GeminiAdvanced并没有明显胜过GPT-4,但两者实力相当,各有所长。比如,Gemini在解释事物和结合图像及搜索功能方面表现更佳,而GPT-4则在编写代码和执行某些语言任务上有优势。这两种AI都展现出了一种“异类”或“幽灵”特质,这指的是它们意想不到的能力和似乎透露出的智能,这种表现有时令人感到既神秘又迷人。这种现象暗示,这样的智能“闪光点”可能是大型AI模型的一个自然生成的特性。相较于GPT-4,GeminiAdvanced表现出不同的个性,给人更友好、更易于沟通的印象,同时能够兼容在GPT-4上有效的复杂指令。不过,两者在安全机制的触发方式以及对某些类型内容的处理态度上存在差异。文章还提及了GeminiAdvanced作为一款强大的集成式个人助手的潜力,特别是它在性能上的提升以及与Google生态系统的深度融合。这预示着一个未来,即AI智能体可以代表我们执行任务,尽管像GeminiAdvanced这样的当前模型仍然有其局限性。作者最后指出,GeminiAdvanced的问世显示了Google在AI竞赛中的实力,也说明其他公司有能力开发出与OpenAI的GPT-4相匹敌的模型。GeminiAdvanced和GPT-4的存在表明AI模型仍有很大的提升空间,我们可能会持续见证该领域的快速进步。测试原文:

封面图片

新版ChatGPT火速发布:十大改进变厉害 但仍存缺陷

新版ChatGPT火速发布:十大改进变厉害但仍存缺陷以下是外媒汇总的GPT-4主要改进和不足:更精确人工智能专家、风险投资公司PageOneVentures合伙人克里斯·尼克尔森(ChrisNicholson)告诉GPT-4,自己的母语是英语,不懂西班牙语。他希望GPT-4给他一份可以教他西班牙基础知识的教学大纲。结果,GPT-4提供了一份详细而有条理的教学大纲。它甚至为学习和记忆西班牙语单词提供了广泛的技巧,尽管并不是所有建议都中肯。准确性提高GPT-4比GPT-3.5更准确它还提高了准确性。当人工智能研究员兼教授奥伦·埃齐奥尼(OrenEtzioni)第一次尝试使用GPT-4时,他问了一个直截了当的问题:“奥伦·埃齐奥尼和伊莱·埃齐奥尼(EliEtzioni)之间是什么关系?”机器人的反应是正确的,称两人是父子关系。相比之下,GPT-3.5的回答则是错误的,称他们两人是兄弟关系。但是,GPT-4也存在错误。它说,奥伦是奥伦人工智能研究所的CEO,但实际上奥伦已经卸任了这一职位。更详细描述图像能详细描述图像GPT-4能够对图像和文本做出惊人的详细描述。OpenAI总裁兼联合创始人格雷格·布罗克曼(GregBrockman)演示了该系统如何细致地描述来自哈勃太空望远镜的图像。它还可以回答有关图像的问题。如果给出一张冰箱内部的照片,它就能建议你用手边的东西做几顿饭。擅长标准化考试OpenAI表示,新系统可以在美国41个州和地区的统一律师资格考试(UBE)中获得前10%左右的成绩。根据该公司的测试,它还可以在SAT考试中获得1300分(满分1600分),在高中生参加的大学生物、微积分、宏观经济学、心理学、统计学和历史先修课程考试中获得5分(满分5分)。不擅长讨论未来尽管这个新的机器人似乎能对已经发生的事情进行推理,但当被要求对未来进行假设时,它就不那么擅长了。它似乎是在借鉴别人的说法,而不是创造新的猜测。仍会产生幻觉新的机器人还是会瞎编。这个问题被称为人工智能“幻觉”,困扰着所有领先的聊天机器人。由于系统不知道什么是真的,什么是假的,它们可能会生成完全错误的文本。当被要求提供描述最新癌症研究的网站地址时,它有时会生成不存在的互联网地址。...PC版:https://www.cnbeta.com.tw/articles/soft/1349487.htm手机版:https://m.cnbeta.com.tw/view/1349487.htm

封面图片

谷歌确认在全球限制 Gemini 选举查询

谷歌确认在全球限制Gemini选举查询谷歌开始推出对其AI聊天机器人Gemini的新限制,以限制全球范围内出现与选举相关的查询的答案。该更新已在美国上线,并开始在印度和未来几个月将举行选举的所有主要国家推出。当用户询问有关特定政党或候选人的问题时,Gemini会显示一条消息:“我还在学习如何回答这个问题。在那之前,你可以尝试在Google上进行搜索。”这种转变突显了谷歌对该服务可能被武器化以及产生不准确或误导性回答的担忧。——

封面图片

Bard 在 Imsys 排行榜排名超越 GPT-4,Bard + Gemini Ultra 即将发布

GoogleDeepMind和谷歌研究院首席科学家JeffDean在X上表示,由GeminiPro模型提供支持的Bard首次亮相就在Imsys排行榜排名第二,超越了GPT-4,Bard+GeminiUltra即将发布。LMSYSOrg是一个开放的研究组织,由加州大学伯克利分校的学生和教师与加州大学圣地亚哥分校和卡耐基梅隆大学合作创立。via匿名标签:#Bard#AI频道:@GodlyNews1投稿:@GodlyNewsBot

封面图片

Google的Med-Gemini医疗人工智能模型被证明表现不输人类医生

Google的Med-Gemini医疗人工智能模型被证明表现不输人类医生医生每天要治疗众多病人,他们的需求从简单到非常复杂。为了提供有效的医疗服务,他们必须熟悉每位患者的健康记录,了解最新的治疗程序和治疗方法。此外,建立在同理心、信任和沟通基础上的医患关系也至关重要。要想让人工智能接近真实世界中的医生,它必须能够做到所有这些。Google的Gemini模型是新一代多模态人工智能模型,这意味着它们可以处理来自不同模态的信息,包括文本、图像、视频和音频。这些模型擅长语言和对话,理解它们所训练的各种信息,以及所谓的"长语境推理",即从大量数据(如数小时的视频或数十小时的音频)中进行推理。Gemini医学模型具有Gemini基础模型的所有优点,但对其进行了微调。研究人员测试了这些以药物为重点的调整,并将结果写入了论文中。这篇论文长达58页,内容丰富,我们选取了其中最令人印象深刻的部分。自我培训和网络搜索功能要做出诊断并制定治疗方案,医生需要将自己的医学知识与大量其他相关信息结合起来:病人的症状、病史、手术史和社会史、化验结果和其他检查结果,以及病人对先前治疗的反应。治疗方法是"流动的盛宴",现有的治疗方法会不断更新,新的治疗方法也会不断推出。所有这些都会影响医生的临床推理。因此,Google在Med-Gemini中加入了网络搜索功能,以实现更高级的临床推理。与许多以医学为重点的大型语言模型(LLM)一样,Med-Gemini也是在MedQA上进行训练的,MedQA是美国医学执照考试(USMLE)的多选题,旨在测试不同场景下的医学知识和推理能力。Med-Gemini如何使用自我培训和网络搜索工具不过,Google也为他们的模型开发了两个新的数据集。第一个是MedQA-R(推理),它通过合成生成的推理解释(称为"思维链",CoTs)对MedQA进行了扩展。第二种是MedQA-RS(推理和搜索),它为模型提供使用网络搜索结果作为额外上下文的指令,以提高答案的准确性。如果一个医学问题的答案不确定,就会提示模型进行网络搜索,以获取更多信息来解决不确定问题。Med-Gemini在14个医学基准上进行了测试,并在10个基准上建立了新的最先进(SoTA)性能,在可以进行比较的每个基准上都超过了GPT-4模型系列。在MedQA(USMLE)基准测试中,Med-Gemini利用其不确定性指导搜索策略达到了91.1%的准确率,比Google之前的医学LLMMed-PaLM2高出4.5%。在包括《新英格兰医学杂志》(NEJM)图像挑战(具有挑战性的临床病例图像,从10个病例中做出诊断)在内的7项多模态基准测试中,Med-Gemini的表现优于GPT-4,平均相对优势为44.5%。研究人员说:"虽然结果......很有希望,但还需要进一步开展大量研究。例如,我们还没有考虑将搜索结果限制在更具权威性的医学来源上,也没有考虑使用多模态搜索检索或对搜索结果的准确性和相关性以及引文的质量进行分析。此外,是否还能教会较小规模的法律硕士使用网络搜索还有待观察。我们将这些探索留待今后的工作中进行。"从冗长的电子病历中检索特定信息电子病历(EHR)可能很长,但医生需要了解其中包含的内容。更复杂的是,它们通常包含相似的文本("糖尿病"与"糖尿病肾病")、拼写错误、缩略词("Rx"与"prescription")和同义词("脑血管意外"与"中风"),这些都会给人工智能带来挑战。为了测试Med-Gemini理解和推理长语境医疗信息的能力,研究人员使用一个大型公开数据库--重症监护医疗信息市场(MIMIC-III)--执行了一项所谓的"大海捞针任务",该数据库包含重症监护患者的去标识化健康数据。该模型的目标是在电子病历("大海")中的大量临床记录中检索到与罕见而微妙的医疗状况、症状或程序("针")相关的内容。共收集了200个案例,每个案例都由44名病史较长的重症监护室患者的去标识化电子病历记录组成。他们必须具备以下条件:100多份医学笔记,每个例子的长度从20万字到70万字不等在每个例子中,条件只被提及一次每个样本都有一个感兴趣的条件这项大海捞针的任务分为两个步骤。首先,Med-Gemini必须从大量记录中检索所有与指定医疗问题相关的内容。其次,该模型必须评估所有提及内容的相关性,对其进行分类,并得出结论:患者是否有该问题的病史,同时为其决定提供清晰的推理。Med-Gemini的长语境能力示例与SoTA方法相比,Med-Gemini在"大海捞针"任务中表现出色。它的精确度为0.77,而SoTA方法为0.85,召回率也超过了SoTA方法:0.76对0.73。研究人员说:"也许Med-Gemini最引人注目的方面是长语境处理能力,因为它们为医疗人工智能系统开辟了新的性能前沿和新颖的、以前不可行的应用可能性。这项'大海捞针'式的检索任务反映了临床医生在现实世界中面临的挑战,Med-Gemini-M1.5的性能表明,它有潜力通过从海量患者数据中高效提取和分析信息,显著降低认知负荷,增强临床医生的能力。"有关这些关键研究点的浅显易懂的讨论,以及Google和微软之间争论的最新情况,请观看《AIExplained》从13:38开始的视频。新的OpenAI模型即将诞生,人工智能的赌注又提高了(还有MedGemini、GPT2聊天机器人和ScaleAI)与Med-Gemini对话在一次实际应用测试中,Med-Gemini收到了一位患者用户关于皮肤肿块瘙痒的询问。在要求提供图像后,模型提出了适当的后续问题,并正确诊断出了这种罕见的病变,同时建议用户下一步该怎么做。Med-Gemini诊断对话在皮肤科的应用实例Med-Gemini还被要求在医生等待放射科医生的正式报告期间,为其解读胸部X光片,并编写一份通俗易懂的英文版报告提供给病人。Med-Gemini的放射诊断对话辅助系统研究人员说:"Med-Gemini-M1.5的多模态对话功能很有前景,因为它们无需进行任何特定的医疗对话微调即可实现。这些功能可以实现人、临床医生和人工智能系统之间无缝、自然的互动。"不过,研究人员认为还需要进一步的工作。他们说:"这种能力在帮助临床医生和患者等现实世界应用方面具有巨大潜力,但当然也会带来非常大的风险。在强调这一领域未来研究潜力的同时,我们并没有在这项工作中对临床对话的能力进行严格的基准测试,正如其他人之前在对话诊断人工智能的专门研究中所探索的那样。"未来愿景研究人员承认,要做的工作还有很多,但Med-Gemini模型的初步能力无疑是很有希望的。重要的是,他们计划在整个模型开发过程中纳入负责任的人工智能原则,包括隐私和公平。隐私方面的考虑尤其需要植根于现有的医疗保健政策和法规,以管理和保护患者信息。公平性是另一个可能需要关注的领域,因为医疗保健领域的人工智能系统有可能无意中反映或放大历史偏见和不公平,从而可能导致边缘化群体的不同模型性能和有害结果。但归根结底,Med-Gemini被视为一种造福人类的工具。大型多模态语言模型为健康和医学带来了一个全新的时代。Gemini"和"医学Gemini"所展示的能力表明,在加速生物医学发现、协助医疗保健服务和体验的深度和广度方面,都有了重大飞跃。然而,在提高模型能力的同时,必须对这些系统的可靠性和安全性给予细致的关注。通过优先考虑这两个方面,我们可以负责任地展望未来,让人工智能系统的能力成为科学进步和医疗保健有意义且安全的加速器。该研究可通过预印本网站arXiv获取。...PC版:https://www.cnbeta.com.tw/articles/soft/1429826.htm手机版:https://m.cnbeta.com.tw/view/1429826.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人