苹果研究人员开发了可以“看到”和理解屏幕上下文的人工智能

苹果研究人员开发了可以“看到”和理解屏幕上下文的人工智能根据周五发表的一篇,苹果研究人员开发了一个新的人工智能系统,可以理解对屏幕上实体的模糊引用以及对话和背景背景,从而能够与语音助理进行更自然的互动。该系统称为ReALM(参考分辨率作为语言建模),利用大型语言模型将参考分辨率的复杂任务(包括理解屏幕上对视觉元素的引用)转换为纯粹的语言建模问题。这使得ReALM能够与现有方法相比实现显著的性能提升。为了解决基于屏幕的引用,ReALM的一个关键创新是使用解析的屏幕中对象位置。研究人员证明,这种方法,结合专门用于参考分辨率的微调语言模型,在任务上可以优于GPT-4。线索:@ZaiHuabot投稿:@TNSubmbot频道:@TestFlightCN

相关推荐

封面图片

苹果发布了专门用于理解应用 UI 界面的 MLLLM Ferret-UI 。

苹果发布了专门用于理解应用UI界面的MLLLMFerret-UI。专门针对移动UI屏幕进行了优化,具备了指向、定位和推理等多种能力。看来iOS18有可能会有类似通过Siri自动操作应用界面的能力?---------详细介绍---------Ferret-UI模型的介绍与特点:Ferret-UI是一个新的MLLM,专门为提高对移动UI屏幕的理解而设计。它具备引用、定位和推理能力,能够处理UI屏幕上的各种任务。Ferret-UI的一个关键特点是其“任何分辨率”(anyresolution)技术,该技术通过放大细节来解决UI屏幕中小型对象的识别问题,从而提高模型对UI元素的理解精度。移动用户界面(UI)屏幕的理解:UI屏幕的理解是一个复杂的问题,因为它不仅要求模型能够理解屏幕上的内容,还要能够识别和操作具体的UI元素。与传统的自然图像相比,UI屏幕通常具有更多的长宽比和更小的元素,这些元素对于模型来说是一个挑战。此外,UI屏幕的理解还涉及到对屏幕元素间关系的识别,以及对用户可能采取的行动的预测。“任何分辨率”(anyresolution)技术的应用:为了克服UI屏幕中的小对象识别问题,Ferret-UI采用了“任何分辨率”技术。该技术通过将屏幕分割成基于原始宽高比的子图像,并对每个子图像进行单独编码,从而在不丢失重要视觉信号的情况下放大细节。这种方法使得模型能够更准确地识别和理解UI屏幕上的小型对象。训练样本的收集与任务制定:Ferret-UI的训练涉及从基础UI任务到高级任务的广泛数据样本收集。这些样本被格式化为带有区域注释的指令遵循格式,以便于模型进行精确的引用和定位。此外,为了提高模型的推理能力,还特别编制了一个包含详细描述、感知/交互对话和功能推断等高级任务的数据集。模型架构与数据集的建立:Ferret-UI的架构基于Ferret模型,后者在自然图像的引用和定位任务中表现出色。为了适应UI屏幕的特点,Ferret-UI进行了架构调整,包括集成“任何分辨率”技术和使用预定义的网格配置来划分全图图像。此外,为了全面评估模型的能力,还建立了一个包含所有研究任务的综合测试基准。高级任务中的对话能力:Ferret-UI在高级任务中的对话能力表现突出,尤其是在详细描述和交互对话任务中。

封面图片

苹果研究人员探索放弃“Siri”短语,改用人工智能聆听

苹果研究人员探索放弃“Siri”短语,改用人工智能聆听据周五(3月22日)发表的一篇论文称,苹果公司的研究人员正在研究是否有可能利用AI来检测用户何时在对iPhone等设备说话,从而消除对“Siri”等触发短语的技术需求。在一项上传到Arxiv且未经同行评审的研究中,研究人员使用智能手机捕获的语音以及来背景噪声的声学数据来训练一个大型语言模型,以寻找可能表明用户何时需要设备帮助的模式。论文中研究人员写道:“该模型部分基于OpenAI的GPT-2版本构建,因为它相对轻量级,可以在智能手机等设备上运行。”论文描述了用于训练模型的超过129小时的数据和额外的文本数据,但没有说明训练集的录音来源。据领英个人资料,七位作者中有六位列出他们的隶属关系为苹果公司,其中三人在该公司的Siri团队工作。论文称,结果令人鼓舞。该模型能够比纯音频或纯文本模型做出更准确的预测,并且随着模型规模的扩大而进一步改进。——、

封面图片

研究人员让人工智能帮助反证 P=NP 问题

研究人员让人工智能帮助反证P=NP问题一个来自国内的研究团队发表了一篇预印本,介绍了他们利用OpenAI的GPT-4来帮助反证问题不成立。该团队的方法相当于从之前的论文中提取论点,然后灌输给GPT-4,以促使其做出有用的反应。他们通过97轮提示,让GPT-4扮演“一位睿智的哲学家”、“一位精通概率论的数学家”,诱导GPT-4证明P事实上不等于NP。他们观察到,GPT-4演示了一些论据,从而得出P事实上不等于NP的结论。他们认为,这项工作表明大型语言模型不仅能吐回大量文本,还能“发现新的见解”,从而带来“科学发现”,他们将这一前景命名为“科学的LLM”。来源,频道:@kejiqu群组:@kejiquchat

封面图片

研究人员使用人工智能对1560万个流行密码进行破解 ——

研究人员使用人工智能对1560万个流行密码进行破解——来自Homesecurityheroes的研究人员决定调查使用人工智能的密码破解速度。他们使用了1560万个流行密码的集合进行测试。结果显示,PassGAN人工智能可以做到:-51%的密码集合在1分钟内被破解;-在1小时内破解集合中65%的密码;-在24小时内破解集合中71%的密码;-1个月内从集合中破解81%的密码。“人工智能根据它所学到的一切,预测最可能的下一个数字。它没有寻求外部知识,而是依靠它通过学习形成的模式”,研究人员说。当然,算力始终是挑战。越复杂越长的密码需要的破解时间就越多,对AI来说也一样。您可以在这里查看AI在2023年破解您选择的密码需要多长时间:https://www.homesecurityheroes.com/ai-password-cracking/#Security#Passwords#Privacy#AI

封面图片

Google向由前OpenAI研究人员创办的人工智能公司Anthropic投资3亿美元

Google向由前OpenAI研究人员创办的人工智能公司Anthropic投资3亿美元根据《金融时报》的报道,2022年底,Google向这家初创公司投资了约3亿美元,尽管当时没有报道这一消息。作为回报,Google获得了该公司10%的股份,Anthropic需要从这家搜索巨头那里购买云计算资源。这有点类似于微软和OpenAI之间的合作。在那里,OpenAI提供了研究专长,而微软不仅提供了数十亿美元的投资,还提供了其强大的云平台,这是训练最新的计算密集型AI模型所需要的。值得注意的是,Anthropic也在开发自己的通用聊天机器人:一个名为Claude的ChatGPT潜在对手。(Claude处于封闭测试阶段,但你可以在这里阅读Anthropic和OpenAI的系统之间的比较。)然而,目前还不清楚Google是否计划像微软对ChatGPT那样将Claude整合到其服务中。Google内部已经有很多开发人工智能语言系统的专业技术,《金融时报》认为这笔交易的一个动机只是为了建立Google的云计算业务。Anthropic是由对公司发展轨迹不满意的OpenAI员工创立的。Anthropic成立的背景故事也很有意义。该组织由OpenAI前研究副总裁达里奥-阿莫代(DarioAmodei)于2021年创建,是一家公益公司。阿莫代带走了OpenAI的一些研究人员,包括人工智能语言模型GPT-3的首席工程师汤姆-布朗。正如英国《金融时报》所指出的,阿莫代是在"对公司的方向产生分歧后"离开OpenAI的--即该公司在2019年与微软达成第一笔交易后越来越注重商业运用。此后,许多人工智能研究人员批评OpenAI的行为越来越鲁莽,特别是它在去年年底将ChatGPT发布到公共网络上,而没有适当的保障措施可以可靠地检测其输出。相比之下,Anthropic在其网站上强调了其建立"可靠、可解释和可引导的人工智能系统"的工作。但Google的投资会影响这些优先事项的转变吗?无论如何,我们可以期待很快听到更多关于Google人工智能的未来。该公司将在下周(2月8日)举行关于这一主题的活动。我们可能会在不久的将来从微软那里看到更多关于其将ChatGPT添加到必应的计划。...PC版:https://www.cnbeta.com.tw/articles/soft/1342531.htm手机版:https://m.cnbeta.com.tw/view/1342531.htm

封面图片

史无前例的细节:研究人员利用全新成像技术捕捉到基因的折叠和工作方式

史无前例的细节:研究人员利用全新成像技术捕捉到基因的折叠和工作方式这项新技术使研究人员能够创建并以数字方式浏览基因的三维模型,不仅能看到它们的结构,还能看到它们如何移动或它们的灵活性的信息。了解基因的功能可能有助于我们更好地理解它们如何在健康和疾病中影响人体,因为几乎每一种人类疾病都有一些遗传基础。使用传统显微镜(左)来观察NANOG基因的结构,显示为一个明亮的绿色斑点,与使用MiOS(右)进行比较,MiOS可以对单个基因成像。MiOS的分辨率大约提高了10倍,而且还详细说明了使用传统方法无法辨别的结构的关键方面。资料来源:VickyNeguembor/CRG和PabloDans/IRBBarcelona科学家们最终将能够利用这些知识来预测当事情发生时基因会发生什么,例如对导致疾病的基因结构的差异进行编目。该方法有可能被用来测试改变异常基因形状的药物,帮助开发各种疾病的新疗法。该技术是用于研究生物体的成像技术的下一步发展,它最早始于四百多年前显微镜的诞生。这些在推动医学和人类健康方面发挥了至关重要的作用,例如,罗伯特·胡克首次使用显微镜来描述细胞,后来圣地亚哥·拉蒙·卡贾尔使用显微镜来识别神经元。尽管取得了巨大的进步,但光学显微镜的局限性早在1873年就已明确,研究人员其最大分辨率不超过0.2微米。这一物理限制在21世纪随着超分辨率显微镜的诞生而被克服,这一突破在2014年被授予诺贝尔化学奖。利用荧光,研究人员扩展了光镜的极限,捕捉到了20纳米的事件,这一壮举揭示了生命如何在前所未有的分子尺度上运作。MiOS模型的例子显示了一个基因如何在三维中折叠。这揭示了某些区域是如何被压缩的,而其他区域是如何被拉伸和更容易接近的。资料来源:巴勃罗-丹斯/巴塞罗那IRB超分辨率显微镜改变了生物医学研究的进程,使科学家能够追踪各种疾病中的蛋白质。它还使研究人员能够研究调节基因表达的分子事件。科学家们现在希望在该技术的基础上,通过增加更多的信息层而使其更进一步。研究人员假设,采用超分辨率显微镜并将其与先进的计算工具相结合,可能是一种在必要的细节水平上对基因进行成像以研究其形状和功能的方法。一个跨学科的科学家团队分享了他们的专业知识,并创造了一种新的技术,称为建模免疫-OligoSTORM-或简称MiOS。这两个研究小组的合作是巴塞罗那科技学院(BIST)"点燃计划"的一部分,该计划促进了不同科学领域的知识交流,探索解决复杂问题的新方法。从左至右:PiaCosma,LauraMartin,RafaelLema,XimenaGarate,VictoriaNeguembor,PabloDans,JuanPabloArcon,JürgenWalther,IsabelleBrunHeath,PabloRomero,DianaBuitrago.资料来源:BIST"我们的计算建模策略整合了来自DNA测序技术和超分辨率显微镜的数据,以超过核糖体大小的分辨率提供基因三维形状的基本图片(或影像),达到详细了解染色质和其他细胞因子之间相互作用所需的规模,"该工作的共同第一作者、巴塞罗那IRB的博士后研究员胡安·巴勃罗·阿肯博士说。作为概念证明,研究小组利用MiOS对关键的内务和多能性基因的位置、形状和压实提供了新的见解,揭示了仅使用传统技术无法捕捉到的新结构和细节。这些发现发表在《自然·结构与分子生物学》杂志上。该研究的通讯作者包括CRG的ICREA研究教授PiaCosma和巴塞罗那IRB的ModestoOrozco教授,以及PabloDans,以前是巴塞罗那IRB的研究员,现在在共和国大学(乌拉圭)和蒙得维的亚巴斯德研究所工作。"MiOS提供了前所未有的细节,帮助研究人员在基因内部进行虚拟导航,揭示它们是如何在一个全新的尺度上组织的。这就像从哈勃太空望远镜升级到詹姆斯-韦伯望远镜,但我们不是看到遥远的星星,而是探索人类细胞核内最远的地方,"该研究的共同第一作者和CRG的研究员VickyNeguembor博士说。虽然很多基于基因组的研究已经在改变我们诊断、治疗或预防疾病的方式,但MiOS的影响更为长远。通过揭示基因如何工作以及它们如何在纳米尺度上被调节,该技术将使科学实验室有新的发现,其中一些可能最终转化为临床实践。研究小组已经通过探索对人类发展很重要的基因,将MiOS投入使用。该团队还将继续进一步开发MiOS,增加额外的功能,例如可以检测转录因子--参与将DNA转换或转录为RNA过程的蛋白质--如何与DNA结合。...PC版:https://www.cnbeta.com.tw/articles/soft/1333789.htm手机版:https://m.cnbeta.com.tw/view/1333789.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人