微软展示VASA-1人工智能模型能将照片变成"会说话的人脸"

微软展示VASA-1人工智能模型能将照片变成"会说话的人脸"该模型目前只是研究预览版，微软研究团队以外的任何人都无法试用，但演示视频看起来令人印象深刻。Runway和NVIDIA已经推出了类似的唇部同步和头部运动技术，但这种技术的质量和逼真度似乎要高得多，可以减少嘴部伪影。这种音频驱动动画的方法也与Google研究院最近推出的VLOGGER人工智能模型类似。VASA-1如何工作？微软表示，这是一个新的框架，用于创建栩栩如生的会说话的人脸，专门用于虚拟人物的动画制作。示例中的所有人物都是合成的，是用DALL-E制作的，但如果它能为逼真的人工智能图像制作动画，那么它也能为真实的照片制作动画。在演示中，我们看到人们说话时就像在被拍摄一样，动作略显生涩，但看起来非常自然。唇语同步令人印象深刻，动作自然，嘴部上下没有其他工具中出现的假象。VASA-1最令人印象深刻的一点似乎是，它不需要正面朝上的人像图像就能工作。其中有面向不同方向拍摄的例子。该模型似乎还具有很强的控制能力，能够将眼睛注视的方向、头部距离甚至情绪作为输入来引导生成。VASA-1的意义何在？其中一个最明显的应用案例就是游戏中的高级唇语同步。如果能创造出具有自然唇部动作的人工智能驱动的NPC，就能改变游戏的沉浸感。它还可用于为社交媒体视频创建虚拟化身，HeyGen和Synthesia等公司已经采用了这种技术。另一个领域是基于人工智能的电影制作。如果能让人工智能歌手看起来像在唱歌，就能制作出更逼真的音乐视频。尽管如此，该团队表示，这只是一次研究演示，并没有公开发布的计划，甚至也不会提供给开发人员在产品中使用。VASA-1的效果如何？让研究人员感到惊讶的是，VASA-1能够完美地对歌曲进行歌词嘴型同步，尽管训练数据集中没有使用音乐，但它仍能毫无问题地反映歌手的歌词。它还能处理不同风格的图像，包括蒙娜丽莎。他们让它以每秒45帧的速度创建512x512像素的图像，使用桌面级NVIDIARTX4090GPU可在大约2分钟内完成。虽然他们说这只是用于研究，但如果它不能进入公共领域，那就太可惜了，即使只是面向开发者，鉴于微软在OpenAI中拥有巨大的股份，这甚至可能成为未来CopilotSora集成的一部分。...PC版：https://www.cnbeta.com.tw/articles/soft/1427876.htm手机版：https://m.cnbeta.com.tw/view/1427876.htm

在Telegram中查看

相关推荐

知情人士：微软准备新的人工智能模型

知情人士：微软准备新的人工智能模型据TheInformation援引知情人士报道，微软(MSFT.O)首次在内部训练一个新的人工智能模型，其规模足以与谷歌、Anthropic和OpenAI的模型相抗衡。该新模型在内部被称为MAI-1，由前谷歌AI领导者MustafaSuleyman负责，MustafaSuleyman最近曾担任人工智能初创公司Inflection的首席执行官，今年3月微软雇佣了这家初创公司的大部分员工，并支付了6.5亿美元购买其知识产权。知情人士称，新模型与Inflection之前发布的Pi模型是分开的，可能基于该初创公司的训练数据和其他技术。

人工智能对人工智能生成的内容进行训练将导致人工智能崩溃

人工智能对人工智能生成的内容进行训练将导致人工智能崩溃用于训练大型语言模型的数据最初来自人类来源，如书籍、文章、照片等，这些都是在没有人工智能的帮助下创建的。但随着越来越多的人使用人工智能来制作和发布内容，一个明显的问题出现了：当人工智能生成的内容在互联网上扩散时，人工智能模型开始对其进行训练。研究人员发现，“在训练中使用模型生成的内容会导致所产生的模型出现不可逆转的缺陷。”他们研究了文本到文本和图像到图像的人工智能生成模型的概率分布，得出结论：“从其他模型产生的数据中学习会导致模型崩溃——这是一个退化的过程，并且随着时间的推移，模型会忘记真正的基础数据分布。”他们观察到模型崩溃发生得如此之快：模型可以迅速忘记它们最初学习的大部分原始数据。这导致它们随着时间的推移，表现越来越差，错误越来越多。来源，来自：雷锋频道：@kejiqu群组：@kejiquchat投稿：@kejiqubot

【知情人士：微软正在开发成本更低的人工智能，以模仿OpenAI模型的质量】

【知情人士：微软正在开发成本更低的人工智能，以模仿OpenAI模型的质量】2023年09月27日09点43分老不正经报道，据财联社援引TheInformation9月27日报道，知情人士透露，微软正在开发成本更低的人工智能，旨在模仿OpenAI模型的质量。微软产品团队正在测试该公司使用开源人工智能模型构建的更小、更便宜的模型。该公司正在考虑是否向其Azure云客户提供这些更便宜的模型。

调查发现：人工智能生成的白色人脸比照片更有说服力

调查发现：人工智能生成的白色人脸比照片更有说服力研究人员报告说："令人吃惊的是，人工智能生成的白色人脸可以令人信服地比人脸更真实--而且人们并没有意识到自己上当受骗了。"该研究小组包括来自澳大利亚、英国和荷兰的研究人员，他们表示，他们的发现对现实世界具有重要意义，包括在身份盗窃方面，人们最终可能会被数字冒名顶替者欺骗。不过，研究小组表示，这一结果在有色人种图像中并不成立，这可能是因为用于生成人工智能人脸的算法主要是在白人图像中训练出来的。这项研究的共同作者、阿姆斯特丹大学的扎克-维特考尔博士说，这可能会对从在线治疗到机器人等领域产生影响。他说："与其他种族的面孔相比，白人面孔会产生更真实的情况。"研究小组提醒说，这种情况也可能意味着对种族的认知最终会与对"人类"的认知相混淆，并补充说，这也可能使社会偏见长期存在，包括在寻找失踪儿童方面，因为这可能依赖于人工智能生成的人脸。研究小组在《心理科学》（PsychologicalScience）杂志上撰文介绍了他们是如何进行两项实验的。在其中一项实验中，白人成年人分别从100张人工智能生成的白人面孔和100张人类生成的白人面孔中各选择一半进行观看。研究小组选择这种方法是为了避免在识别同种族面孔与识别其他种族面孔时可能出现的偏差。研究人员要求参与者选择每张面孔是人工智能生成的还是真实的，并以100分制来衡量他们的自信程度。124名参与者的结果显示，66%的人工智能图像被评为人类图像，而真实图像的这一比例仅为51%。研究小组说，对之前一项研究的数据进行重新分析后发现，与真实的白人面孔相比，人们更有可能将白色的人工智能面孔评为人类面孔。然而，有色人种的情况并非如此，大约51%的人工智能和真实面孔都被评为人类。研究小组补充说，他们没有发现结果受到参与者种族的影响。在第二个实验中，参与者被要求对人工智能和人类面孔的14项属性（如年龄和对称性）进行评分，而不告诉他们有些图像是人工智能生成的。研究小组对610名参与者的结果进行了分析，结果表明，导致人们错误地认为人工智能人脸是人类的主要因素包括：人脸的比例更协调、更熟悉和更难记忆。有点讽刺的是，虽然人类似乎无法区分真实的人脸和人工智能生成的人脸，但研究小组开发的机器学习系统却能以94%的准确率做到这一点。这项研究的共同作者、阿伯丁大学的克莱尔-萨瑟兰（ClareSutherland）博士说，这项研究强调了解决人工智能中的偏见问题的重要性。她说："随着人工智能的引入，世界发生了极其迅速的变化，我们必须确保在任何情况下--无论是由于种族、性别、年龄还是任何其他受保护的特征--都不会有人落在后面或处于不利地位，这一点至关重要。"...PC版：https://www.cnbeta.com.tw/articles/soft/1397133.htm手机版：https://m.cnbeta.com.tw/view/1397133.htm

微软公布新人工智能模型Kosmos-1：了解图像内容、解决视觉难题

微软公布新人工智能模型Kosmos-1：了解图像内容、解决视觉难题研究人员在他们的学术论文《语言不是你的全部》中写道："作为智能的一个基本部分，多模态感知是实现人工通用智能的一个必要条件，在知识获取和立足于现实世界方面，将感知与语言模型结合起来。"Kosmos-1论文中的视觉案例显示，该模型分析图像并回答有关问题，从图像中阅读文本，为图像编写标题，并以22-26%的准确率进行视觉智商测试。当媒体热议大型语言模型（LLM）的突破时，一些人工智能专家指出，多模态人工智能是通往通用人工智能的潜在途径，这种假想的技术表面上将能够在任何智力任务（和任何智力工作）中取代人类。AGI是OpenAI的既定目标，它是微软在人工智能领域的一个重要商业伙伴。在这种情况下，Kosmos-1似乎是一个没有OpenAI参与的微软公司内部项目。研究人员将他们的创造称为"多模态大语言模型"（MLLM），因为它的根源在于自然语言处理，就像纯文本的LLM，如ChatGPT就是其中的杰出代表。为了让Kosmos-1接受图像输入，研究人员必须首先将图像翻译成LLM能够理解的一系列特殊标记（基本上是文本）。Kosmos-1的论文对此有更详细的描述：对于输入格式，我们将输入平铺为一个用特殊标记物装饰的序列。具体来说，我们使用和来表示序列的开始和结束。特殊标记和表示编码后的图像嵌入的开始和结束。例如，"document"是一个文本输入，而"paragraphImageEmbedding paragraph"是一个交错的图像-文本输入。...一个嵌入模块被用来将文本标记和其他输入模式都编码为向量。然后，嵌入被送入解码器。对于输入标记，我们使用一个查找表将其映射到嵌入中。对于连续信号的模态（如图像和音频），将输入表示为离散代码，然后将其视为"外语"也是可行的。微软使用网络上的数据训练Kosmos-1，包括ThePile（800GB的英文文本资源）和CommonCrawl的节选。训练结束后，他们在一些测试中评估了Kosmos-1的能力，包括语言理解、语言生成、无光学字符识别的文本分类、图像说明、视觉问题回答、网页问题回答和零拍图像分类。据微软称，在许多这些测试中，Kosmos-1的表现超过了目前最先进的模型。Kosmos-1负责解决的瑞文智商测试的一个例子特别令人感兴趣的是Kosmos-1在瑞文推理中的表现，该测试通过展示一连串的形状并要求测试者完成该序列来测量视觉智商。为了测试Kosmos-1，研究人员将一个个填写好的测试题输入，每次完成每个选项，并询问答案是否正确。Kosmos-1只能在22%的时间内正确回答瑞文测试中的问题（微调后为26%），方法上的错误可能会影响结果，但Kosmos-1在拉文智商测试中击败了随机机会（17%）。尽管如此，虽然Kosmos-1代表了多模态领域的早期步骤（其他厂商也在追求这种方法），但很容易想象，未来的优化可能会带来更重要的结果，使人工智能模型能够感知任何形式的媒体并对其采取行动，这将大大增强人工助理的能力。研究人员说，在未来，他们希望扩大Kosmos-1的模型规模，并将语音能力也整合进去。微软表示，它计划将Kosmos-1提供给开发者，尽管该论文引用的GitHub页面在本文发表时还没有提供Kosmos特定代码。...PC版：https://www.cnbeta.com.tw/articles/soft/1347289.htm手机版：https://m.cnbeta.com.tw/view/1347289.htm

人工智能将简陋的X光胸透变成更好的诊断工具

人工智能将简陋的X光胸透变成更好的诊断工具胸部X光是世界上最经常进行的放射学检查，也是卫生专业人员诊断肺部和心脏疾病的常见方法。但是，虽然它们快速且容易执行，但X光是一种静态图像，无法提供有关心脏如何运作的信息。为此，你需要进行超声心动图检查。超声心动图--通常称为"回声"--评估心脏的泵送效率如何，以及心室之间的瓣膜是否漏气或病变。如果心脏瓣膜发生病变，心脏就不能有效地泵血，不得不更加努力工作，这可能导致心脏衰竭或心脏骤停和死亡。然而，超声心动图需要一个具有专业技能的技术人员。现在，来自大阪市立大学的研究人员招募了一个深度学习的人工智能模型，将简陋的胸部X光检查转变为一个更详细的诊断工具。深度学习是人工智能（AI）使用的一个过程，教计算机以模仿人脑的方式处理数据。该模型可以识别图片、文本、声音和其他数据中的复杂模式，从而产生准确的洞察力和预测。研究人员用2013年至2021年期间从四个机构的16946名患者那里获得的与22551张超声心动图相关的胸部X光片来训练深度学习模型。他们使用了来自多个机构的数据，以减少人工智能产生偏颇结果的风险。X光片被设定为输入数据，超声心动图被设定为输出数据，模型被训练为学习连接两个数据集的特征。在测试他们的深度学习模型时，研究人员发现，它可以精确地将六种类型的瓣膜性心脏病分类。曲线下面积（AUC）--表示人工智能模型区分类别的能力的评分指数--在0.83至0.92之间。AUC的数值范围从0到1；越接近1越好。研究人员说，他们的新型人工智能方法可以补充超声心动图，特别是在需要快速诊断或技术人员短缺的时候。"我们花了很长时间才得到这些结果，但我相信这是一项重要的研究，"该研究的主要作者DaijuUeda说。"除了提高医生的诊断效率外，该系统还可能用于没有专家的地区，用于夜间急诊，以及用于难以接受超声心动图的病人。"该研究发表在《柳叶刀数字健康》杂志上。...PC版：https://www.cnbeta.com.tw/articles/soft/1370021.htm手机版：https://m.cnbeta.com.tw/view/1370021.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人