微软公布可以理解图像内容的 AI 模型

微软公布可以理解图像内容的AI模型微软的研究人员介绍了多模态模型,它可以分析图像内容,解决拼图问题,进行视觉文本识别,通过视觉智商测试,并理解自然语言指令。研究人员认为,整合了文本、音频、图像和视频等不同输入模式的多模态人工智能,是建立人工通用智能(AGI)的关键步骤,可以执行人类水平的一般任务。他们在一些测试中评估了Kosmos-1的能力,包括语言理解、语言生成、无光学字符识别的文本分类、图像说明、视觉问题回答、网页问题回答和零样本图像分类。微软称,在许多这些测试中,Kosmos-1的表现超过了目前最先进的模型。来源,来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

相关推荐

封面图片

微软公布新人工智能模型Kosmos-1:了解图像内容、解决视觉难题

微软公布新人工智能模型Kosmos-1:了解图像内容、解决视觉难题研究人员在他们的学术论文《语言不是你的全部》中写道:"作为智能的一个基本部分,多模态感知是实现人工通用智能的一个必要条件,在知识获取和立足于现实世界方面,将感知与语言模型结合起来。"Kosmos-1论文中的视觉案例显示,该模型分析图像并回答有关问题,从图像中阅读文本,为图像编写标题,并以22-26%的准确率进行视觉智商测试。当媒体热议大型语言模型(LLM)的突破时,一些人工智能专家指出,多模态人工智能是通往通用人工智能的潜在途径,这种假想的技术表面上将能够在任何智力任务(和任何智力工作)中取代人类。AGI是OpenAI的既定目标,它是微软在人工智能领域的一个重要商业伙伴。在这种情况下,Kosmos-1似乎是一个没有OpenAI参与的微软公司内部项目。研究人员将他们的创造称为"多模态大语言模型"(MLLM),因为它的根源在于自然语言处理,就像纯文本的LLM,如ChatGPT就是其中的杰出代表。为了让Kosmos-1接受图像输入,研究人员必须首先将图像翻译成LLM能够理解的一系列特殊标记(基本上是文本)。Kosmos-1的论文对此有更详细的描述:对于输入格式,我们将输入平铺为一个用特殊标记物装饰的序列。具体来说,我们使用和来表示序列的开始和结束。特殊标记和表示编码后的图像嵌入的开始和结束。例如,"document"是一个文本输入,而"paragraphImageEmbedding paragraph"是一个交错的图像-文本输入。...一个嵌入模块被用来将文本标记和其他输入模式都编码为向量。然后,嵌入被送入解码器。对于输入标记,我们使用一个查找表将其映射到嵌入中。对于连续信号的模态(如图像和音频),将输入表示为离散代码,然后将其视为"外语"也是可行的。微软使用网络上的数据训练Kosmos-1,包括ThePile(800GB的英文文本资源)和CommonCrawl的节选。训练结束后,他们在一些测试中评估了Kosmos-1的能力,包括语言理解、语言生成、无光学字符识别的文本分类、图像说明、视觉问题回答、网页问题回答和零拍图像分类。据微软称,在许多这些测试中,Kosmos-1的表现超过了目前最先进的模型。Kosmos-1负责解决的瑞文智商测试的一个例子特别令人感兴趣的是Kosmos-1在瑞文推理中的表现,该测试通过展示一连串的形状并要求测试者完成该序列来测量视觉智商。为了测试Kosmos-1,研究人员将一个个填写好的测试题输入,每次完成每个选项,并询问答案是否正确。Kosmos-1只能在22%的时间内正确回答瑞文测试中的问题(微调后为26%),方法上的错误可能会影响结果,但Kosmos-1在拉文智商测试中击败了随机机会(17%)。尽管如此,虽然Kosmos-1代表了多模态领域的早期步骤(其他厂商也在追求这种方法),但很容易想象,未来的优化可能会带来更重要的结果,使人工智能模型能够感知任何形式的媒体并对其采取行动,这将大大增强人工助理的能力。研究人员说,在未来,他们希望扩大Kosmos-1的模型规模,并将语音能力也整合进去。微软表示,它计划将Kosmos-1提供给开发者,尽管该论文引用的GitHub页面在本文发表时还没有提供Kosmos特定代码。...PC版:https://www.cnbeta.com.tw/articles/soft/1347289.htm手机版:https://m.cnbeta.com.tw/view/1347289.htm

封面图片

BuboGPT:可以理解图像和音频的内容,并将这些理解与文本输入和输出相结合。

:可以理解图像和音频的内容,并将这些理解与文本输入和输出相结合。BuboGPT是由字节跳动开发的大型语言模型,能够处理多模态输入,包括文本、图像和音频,并具有将其响应与视觉对象相对应的独特能力。它可以进行细粒度的视觉理解,音频理解,以及对齐的音频-图像理解和任意音频-图像理解。BuboGPT的架构是通过学习一个共享的语义空间并进一步探索不同视觉对象和不同模态之间的细粒度关系,从而实现了包括图像、音频和文本在内的多模态理解。它的训练过程包括两个阶段:单模态预训练和多模态指令调整。在单模态预训练阶段,对应的模态Q-Former和线性投影层在大量的模态-文本配对数据上进行训练。在多模态指令调整阶段,使用高质量的多模态指令跟踪数据集对线性投影层进行微调。当你给它一个图像和一段描述图像的文本时,BuboGPT能够理解文本和图像之间的关系,并生成一个与图像内容相对应的响应。这种能力使得BuboGPT可以在对话中提供更丰富、更具上下文的回答。音频理解能力:当你给它一个音频剪辑时,它可以生成一个详细的描述,涵盖音频中的所有声音部分,甚至包括一些人类可能无法注意到的短暂音频片段。BuboGPT还可以处理匹配的音频-图像对,进行声音定位。例如,如果你给它一个场景的图片和场景中发生的声音,它可以理解声音和图像之间的关系,并生成一个描述声音来源位置的响应。即使音频和图像之间没有直接的关系。在这种情况下,BuboGPT可以生成一个高质量的响应,描述音频和图像之间的可能关系。

封面图片

微软推出了一个小型语言模型,能够分析图片内容

微软宣布推出了新版小型语言模型Phi-3,这款模型能够查看图片并告诉你图片中有什么。Phi-3-vision是一种多模态模型,也就是说它能同时处理文本和图像,而且最适合在移动设备上使用。微软表示,现已提供预览的Phi-3-vision是一个拥有42亿参数的模型(参数指的是模型的复杂程度以及它对训练内容的理解程度),能够执行一般的视觉推理任务,比如对图表或图片提出问题。但是,Phi-3-vision的规模远小于其他以图像为中心的人工智能模型,比如OpenAI的DALL-E或StabilityAI的StableDiffusion。与这些模型不同,Phi-3-vision并不生成图像,但它能理解图像中的内容,并为用户分析这些内容。标签:#微软#AI频道:@GodlyNews1投稿:@GodlyNewsBot

封面图片

阿里巴巴开源能理解图像的 AI 模型 Qwen-VL

阿里巴巴开源能理解图像的AI模型Qwen-VL阿里巴巴周五开源了能理解图像和完成更复杂对话的AI模型和Qwen-VL-Chat。阿里巴巴称,Qwen-VL基于Qwen-7B,可以以图像、文本、检测框作为输入,并以文本和检测框作为输出,它使用了约1.5B的图文数据训练。在四大类多模态任务的标准英文测评中上,Qwen-VL均取得同等通用模型大小下最好效果;支持英文、中文等多语言对话,端到端支持图片里中英双语的长文本识别;支持多图输入和比较,指定图片问答,多图文学创作等;相比于目前其它开源LVLM使用的224分辨率,Qwen-VL是首个开源的448分辨率的LVLM模型。更高分辨率可以提升细粒度的文字识别、文档问答和检测框标注。Qwen-VL和Qwen-VL-Chat使用名为TongyiQianwenLICENSEAGREEMENT的许可证,有限制条件,如果商业使用,则需要从阿里巴巴获得授权。来源,https://github.com/QwenLM/Qwen-VL频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态

剑桥、腾讯AILab等提出大语言模型PandaGPT:一个模型统一六种模态项目主页:https://panda-gpt.github.io/代码:https://github.com/yxuansu/PandaGPT论文:http://arxiv.org/abs/2305.16355线上Demo展示:https://huggingface.co/spaces/GMFTBY/PandaGPT为了实现图像&视频、文本、音频、热力图、深度图、IMU读数六种模态下的指令跟随能力,PandaGPT将ImageBind的多模态编码器与Vicuna大型语言模型相结合(如上图所示)。为了使ImageBind的多模态编码器和Vicuna的大型语言模型的特征空间对齐,PandaGPT使用了组合LLaVa和Mini-GPT4发布的共160k基于图像的语言指令跟随数据作为训练数据。每个训练实例包括一张图像和相应一组多轮对话。为了避免破坏ImageBind本身的多模态对齐性质和减少训练成本,PandaGPT只更新了以下模块:在ImageBind的编码结果上新增一个线性投影矩阵,将ImageBind生成的表示转换后插入到Vicuna的输入序列中;在Vicuna的注意力模块上添加了额外的LoRA权重。两者参数总数约占Vicuna参数的0.4%。训练函数为传统的语言建模目标。值得注意的是,训练过程中仅对模型输出对应部分进行权重更新,不对用户输入部分进行计算。整个训练过程在8×A100(40G)GPUs上完成训练需要约7小时。值得强调的是,目前的PandaGPT版本只使用了对齐的图像-文本数据进行训练,但是继承了ImageBind编码器的六种模态理解能力(图像/视频、文本、音频、深度度、热量图和IMU)和它们之间的对齐属性,从而具备在所有模态之间跨模态能力。在实验中,作者展示了PandaGPT对不同模态的理解能力,包括基于图像/视频的问答,基于图像/视频的创意写作,基于视觉和听觉信息的推理等等,下面是一些例子:图像:音频:视频:与其他多模态语言模型相比,PandaGPT最突出的特点是它能够理解并将不同模态的信息自然地组合在一起。视频+音频:图像+音频:总结作者们也总结了目前PandaGPT的诸多问题以及未来的发展方向。尽管PandaGPT在处理多种模态及其组合方面具有惊人的能力,但仍有多种方法可以极大程度的提升PandaGPT的性能。PandaGPT可以通过使用其他模态对齐数据来进一步提升图像以外模态的理解能力,例如利用ASR和TTS数据来进行音频-文本模态的模态理解和指令跟随能力。文本以外的其他模态仅仅使用了一个embedding向量进行表示,导致语言模型无法理解文本之外模型的细粒度信息。更多关于细粒度特征提取的研究,如跨模态注意力机制,可能有助于提高性能。PandaGPT目前仅允许将文本之外的模态信息用作输入。未来该模型有潜力将整个AIGC统一到同一个模型之中,即一个模型同时完成图像&视频生成、语音合成、文本生成等任务。需要新的基准测试来评估多模态输入的组合能力。PandaGPT还可能表现出现有语言模型的一些常见缺陷,包括幻觉、毒性和刻板印象。最后,作者们强调,PandaGPT仅仅是一个研究原型,暂时还不足以直接应用于生产环境。...PC版:https://www.cnbeta.com.tw/articles/soft/1363375.htm手机版:https://m.cnbeta.com.tw/view/1363375.htm

封面图片

【xAI发布支持视觉的多模态AI模型Grok-1.5V】

【xAI发布支持视觉的多模态AI模型Grok-1.5V】2024年04月13日05点09分老不正经报道,马斯克旗下人工智能公司xAI宣布推出首个多模态AI模型Grok-1.5V。除了强大的文本处理能力,Grok还能够处理各种视觉信息,包括文档、图表、屏幕截图和照片等。在多个领域的基准测试中,Grok-1.5V的表现均可与现有的前沿多模态模型相媲美。尤其在xAI新推出的RealWorldQA基准测试中,Grok在现实世界空间理解能力上超越了同类模型。RealWorldQA数据集包含700多张图像,旨在评估多模态模型对物理世界的基本理解能力。Grok-1.5将很快向早期测试人员和现有用户开放。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人