谷歌 Gemini 1.5 Pro 锐评 Sora 生成的视频：视觉上很吸引人，但存诸多不合理之处

近日，谷歌的人工智能模型Gemini1.5对OpenAISora生成的一段视频进行了评价，称其在视觉上很吸引人，但一些不合理之处可以看出其不是真实的视频。双方分别发布了各自的最新技术：谷歌推出Gemini1.5Pro，OpenAI则推出了文本转视频工具Sora。Sora的发布时机引发猜测，有人认为OpenAI是为了转移公众对谷歌Gemini1.5的注意力。谷歌一位高管在X平台上分享了对Sora生成视频的详细分析，Gemini1.5Pro以Sora生成的日本一条既有雪景又有樱花盛开的街道视频为例，指出视频存在明显不合理之处。根据Gemini1.5Pro的分析，大雪纷飞和盛开的樱花同时出现并不符合常理，因为樱花通常在春季开放，不会伴有降雪。而且雪的下落方式非常均匀，这不是现实生活中通常的降雪方式。此外，视频中的人物虽然身处大雪环境，却并未穿着任何冬装，这也显得非常违和。Gemini1.5在分析中总结道：“总而言之，这段视频虽然视觉上很吸引人，但其中的矛盾之处表明它并非现实生活中的场景。”Sora是一款能够生成长达60秒视频的文本转视频工具，可以创建包含细节丰富的场景、复杂摄像机运动以及具有丰富情感的多个人物画面，许多人将其称为视频生成领域的“ChatGPT时刻”。而谷歌的Gemini1.5则拥有惊人的100万词条上下文窗口，远超GPT-4Turbo的12.8万和AnthropicClaude2.1的20万。这意味着它可以一次处理大量信息，包括1小时的视频、11小时的音频以及超过30,000行代码或70万字的代码库。via匿名标签:#Google#OpenAI频道:@GodlyNews1投稿:@GodlyNewsBot

在Telegram中查看

相关推荐

Google Gemini 1.5 Pro 评价 OpenAI 最新 Sora 视频

GoogleGemini1.5Pro评价OpenAI最新Sora视频让GoogleGemini1.5Pro判断OpenAI在TikTok发布的最新Sora视频是否是AI生成的，有什么不合理的地方，它表示，这段视频是由人工智能生成的。视频中的蜜蜂飞得太快，而且不稳定，似乎能够瞬间改变方向。此外，蜜蜂的翅膀拍打方式也不真实。TikTok视频链接：https://www.tiktok.com/@openai/video/7345507213349408046via匿名标签:#Google#Gemini频道:@GodlyNews1投稿:@GodlyNewsBot

谷歌升级Gemini 1.5 Pro AI可以听音频了

谷歌升级Gemini1.5ProAI可以听音频了Gemini1.5Pro被视为Gemini家族中的“中量级”（middle-weight）模型，其性能已经超越了最大规模、最强大的GeminiUltra。谷歌表示，Gemini1.5Pro能够理解复杂指令，而且使用时无需对模型进行特别调整。需要指出的是，不通过VertexAI的用户无法体验到Gemini1.5Pro的全部功能。目前，大众主要通过Gemini聊天机器人与Gemini大语言模型互动。尽管GeminiUltra为GeminiAdvanced聊天机器人提供了强大支持，能理解较长的指令，但在反应速度上不及Gemini1.5Pro。除了Gemini1.5Pro的更新，谷歌还对其它大型人工智能模型进行了升级。特别是作为文本转图像生成模型的Imagen2，它增强了Gemini的图像生成能力。通过引入图像外延（Outpainting）和内填（Inpainting）功能，用户现在能更灵活地对图像的元素进行添加或删除。为确保Imagen模型生成的图片版权和来源可追溯，谷歌为所有生成图片加入了SynthID数字水印技术。这种创新技术通过几乎不可见的水印明确标识图片来源，可以通过专用工具进行检测。Imagen模型的许多新特性，如图像外延和内填技术，已被其他文本转图像模型采用，例如StabilityAI的StableCascade和Getty的GenerativeAIbyiStock。此外，这些技术也被广泛应用于消费电子产品中，如三星Galaxy手机。除图像生成的创新外，谷歌还公开展示了一种结合人工智能生成回答和谷歌搜索结果的方法，旨在为用户提供更实时、更准确的信息。然而，大语言模型生成的回答并非总是精准无误，有时可能会误导用户。因此，谷歌对Gemini模型设置了一些限制，比如禁止回答与2024年美国大选相关的问题。此前，Gemini模型因在生成历史人物描述时出现不准确而受到批评。...PC版：https://www.cnbeta.com.tw/articles/soft/1426835.htm手机版：https://m.cnbeta.com.tw/view/1426835.htm

谷歌宣布推出 Gemini 1.5 闪电模型等

谷歌宣布推出Gemini1.5闪电模型等当地时间5月14日，谷歌DeepMind首席执行官宣布推出Gemini1.5闪电模型，该模型能够兼顾快速和成本效益。该公司还展示了Astra模型，该模型通过智能手机摄像头分析世界，并与用户进行对话。该公司将推出人工智能视频生成模型Veo，对标OpenAI的文生视频模型Sora。谷歌发布第六代TPU芯片Trillium。谷歌宣布推出Imagen文生图模型，相较于其他同类产品具备更高的细节调整功能，逼真的光线和更少的干扰，能够从草图快速升成高分辨率图像。安卓15已融入谷歌Gemini大模型升级后能力，Android15Beta2将在当地时间5月15日正式推出。谷歌宣布推出全新音乐工具MusicAISandbox。——财联社、、、、、

Google Gemini 1.5 Pro 现已拥有“听觉”并推出公共预览版

Google对Gemini1.5Pro进行更新，赋予了模型“听觉”能力。现在，该模型可以聆听上传的音频文件，并从中提取信息，例如财报电话会议或视频中的音频，而无需参考文字记录。在GoogleNext大会上，Google还宣布将首次通过其构建AI应用的平台VertexAI向公众开放Gemini1.5Pro。Gemini1.5Pro最初于2月份发布。这个新版本的GeminiPro被认为是Gemini家族中的中量级模型，但在性能方面已经超越了最大、最强大的模型GeminiUltra。Google声称，Gemini1.5Pro可以理解复杂的指令，并且无需微调模型。目前，Gemini1.5Pro仅对拥有VertexAI访问权限的用户开放。大多数人通过Gemini聊天机器人接触到Gemini语言模型。GeminiUltra为GeminiAdvanced聊天机器人提供支持，虽然它功能强大，也能理解长指令，但速度不如Gemini1.5Pro。除了Gemini1.5Pro，Google的其他大型AI模型也获得了更新。Imagen2是支持Gemini图像生成功能的文本到图像生成模型，它将添加修复和扩展功能，允许用户添加或删除图像中的元素。Google还将其SynthID数字水印功能应用于所有通过Imagen模型创建的图片。SynthID在图像上添加了一个对观众不可见的水印，通过检测工具查看时可以标记其来源。Imagen的许多新功能，尤其是修复和扩展功能，已经是其他文本到图像模型的一部分，例如StabilityAI的StableCascade和Getty的GenerativeAIbyiStock，以及在较新的三星Galaxy手机上更广泛的消费者可用性。Google表示，它还公开预览了一种将AI响应与Google搜索结合起来的方式，以便AI能够提供最新的信息。via匿名标签:#Google#Gemini#AI频道:@GodlyNews1投稿:@GodlyNewsBot

Gemini 1.5 Pro 已上线 Poe

Poe在X表示，Gemini1.5Pro已在Poe推出，Google的这个强大的新多模态模型引入了业界领先的100万个tokens（约70万个单词）的上下文窗口，具有近乎完美的检索能力，可实现需要长上下文理解的复杂任务。Gemini1.5Pro支持文本、图像和视频输入，并具有文本输出功能。它目前在Poe中提供三个版本：Gemini1.5Pro、128k、1M。此外，Poe还添加了原版GeminiPro的升级版。该机器人经过微调，具有更具对话性的个性，并在推理、数学、延迟、讲故事和总结等方面具有质量改进。via匿名标签:#Gemini#Poe#AI频道:@GodlyNews1投稿:@GodlyNewsBot

Gemini 数据分析能力并不像宣称的那么好

Gemini数据分析能力并不像宣称的那么好谷歌AI模型Gemini1.5Pro和1.5Flash据称能够凭借其“长上下文”完成以前不可能完成的任务，例如总结数百页的文档或搜索电影镜头中的场景。但新的研究表明，这些模型实际上在这些方面并不是很擅长。两项独立研究调查了Gemini模型和其他模型如何很好地理解大量数据。两项研究都发现Gemini1.5Pro和1.5Flash很难正确回答有关大型数据集的问题；在一系列基于文档测试中，这些模型给出正确答案的概率只有40%到50%。马萨诸塞大学阿默斯特分校博士后、其中一项研究的合著者MarzenaKarpinska说：“虽然像Gemini1.5Pro这样的模型在技术上可以处理长篇上下文，但我们已经看到许多案例表明，这些模型实际上并不‘理解’内容。”——

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人