会畅通讯:公司 AIGC 技术与 SORA 有一定不同 主要涉及三维直播、视频,更侧重企业沟通场景应用

会畅通讯:公司AIGC技术与SORA有一定不同主要涉及三维直播、视频,更侧重企业沟通场景应用会畅通讯在互动平台表示,公司目前主营智能云视频通讯业务,未发生重大变化。公司AIGC技术与SORA有一定不同,主要涉及三维直播、视频,更侧重企业沟通场景应用。2023年1-9月公司基于三维云视频的相关贡献占营收比例为5.09%,尚未对营业收入构成重大影响。近期公司股价涨幅较大,敬请广大投资者注意投资风险,理性决策,审慎投资。

相关推荐

封面图片

【会畅通讯:类GPT大模型对公司三维元宇宙和虚拟人产品加强作用】

【会畅通讯:类GPT大模型对公司三维元宇宙和虚拟人产品加强作用】会畅通讯在互动平台表示,公司致力于以“AI+元宇宙”的视频通讯技术为垂直行业和大型头部企业提供三维云视讯产品和服务。未来的AI+视讯是基于客户场景的,公司在较早时间已落地基于知识图谱的AI2.0产品能力,覆盖混合办公,远程三维虚拟线上会议和活动多个场景。类GPT大模型对于公司三维元宇宙和虚拟人产品有至关重要的加强作用,公司对此已有相关预研和规划,考虑基于客户需求和场景适时接入,并基于客户专业数据调优。

封面图片

大华股份:公司拥有视频大模型能力,但方向与 Sora 相反,大华侧重解析

大华股份:公司拥有视频大模型能力,但方向与Sora相反,大华侧重解析据澎湃新闻,AI视频模型Sora引发外界关注。2月19日,记者以投资者身份致电大华股份,相关人士表示,公司拥有视频大模型的能力,目前在两个行业做研发。不一样的点是Sora是生成式的,大华做的是解析式的,方向刚好是反过来的,大华主要拿既有的素材或者客户内容去做解析,然后告诉客户视频里发生了什么,根据这个发生的事情来做行为判断。截至19日午盘,大华股份涨3.14%。

封面图片

凌云光:未来将借助 AIGC 技术进一步拓展创意内容生产的应用场景

凌云光:未来将借助AIGC技术进一步拓展创意内容生产的应用场景凌云光在互动平台表示,Sora是一个很好的AI工具,必将对行业发展产生深远的影响。在文化元宇宙内容创作方面,公司结合智谱大模型及AIGC数字内容技术,能够实现AI生成文本、语音、图像、视频等多模态内容,通过对内容生成创作的智能升级,加快视频生成效率,公司在以AI技术为驱动的虚拟数字人语音、动作及视频驱动上已有成功实践,未来将借助AIGC技术进一步拓展创意内容生产的应用场景。

封面图片

AIGC变天?OpenAI推出文生视频模型Sora 官方合集来了

AIGC变天?OpenAI推出文生视频模型Sora官方视频合集来了Prompt: “Beautiful,snowyTokyocityisbustling.Thecameramovesthroughthe bustlingcitystreet,followingseveralpeopleenjoyingthebeautiful snowyweatherandshoppingatnearbystalls.Gorgeoussakurapetalsare flyingthroughthewindalongwithsnowflakes.”美丽雪景中的东京城繁忙喧嚣。摄像机穿过繁忙的街道,跟随几个人享受美丽的雪景和在附近摊位购物。美丽的樱花瓣随风飘落,与雪花一起飞舞。Prompt: “Severalgiantwoolymammothsapproachtreadingthroughasnowymeadow, theirlongwoolyfurlightlyblowsinthewindastheywalk,snow coveredtreesanddramaticsnowcappedmountainsinthedistance,mid afternoonlightwithwispycloudsandasunhighinthedistancecreates awarmglow,thelowcameraviewisstunningcapturingthelargefurry mammalwithbeautifulphotography,depthoffield.”几头巨大的羊毛猛犸象踏过雪地草甸,它们长长的羊毛皮毛在风中轻轻摆动,远处覆盖着雪的树木和戏剧性的雪顶山脉,午后的光线透过稀疏的云层和远处高悬的太阳创造出温暖的光芒,低角度的摄像机视角令人惊叹,以美妙的摄影技术捕捉这大型毛茸茸的哺乳动物,景深效果。Prompt: “Amovietrailerfeaturingtheadventuresofthe30yearoldspaceman wearingaredwoolknittedmotorcyclehelmet,bluesky,saltdesert, cinematicstyle,shoton35mmfilm,vividcolors.”一部电影预告,展现一个穿着红色羊毛编织摩托车头盔的30岁太空人的冒险,蓝天、盐沼、电影风格,使用35mm胶片拍摄,色彩鲜艳。Prompt:“Agorgeouslyrenderedpapercraftworldofacoralreef,rifewithcolorfulfishandseacreatures.”一个华丽渲染的纸艺世界珊瑚礁,充满了五彩缤纷的鱼类和海洋生物。Prompt: “Animatedscenefeaturesaclose-upofashortfluffymonsterkneeling besideameltingredcandle.theartstyleis3dandrealistic,witha focusonlightingandtexture.themoodofthepaintingisoneofwonder andcuriosity,asthemonstergazesattheflamewithwideeyesand openmouth.itsposeandexpressionconveyasenseofinnocenceand playfulness,asifitisexploringtheworldarounditforthefirst time.theuseofwarmcolorsanddramaticlightingfurtherenhancesthe cozyatmosphereoftheimage.”动画场景特写一个短小毛茸茸的怪物跪在一根融化的红蜡烛旁。艺术风格为3D且逼真,专注于光照和质感。画面氛围充满了惊奇和好奇,当怪物睁大眼睛,张开嘴巴凝视着火焰时。它的姿势和表情传达出一种纯真和顽皮的感觉,仿佛它是第一次探索周围的世界。温暖的色彩和戏剧性的光照进一步增强了画面的舒适氛围。Prompt: “AstylishwomanwalksdownaTokyostreetfilledwithwarmglowing neonandanimatedcitysignage.shewearsablackleatherjacket,along reddress,andblackboots,andcarriesablackpurse.shewears sunglassesandredlipstick.shewalksconfidentlyandcasually.the streetisdampandreflective,creatingamirroreffectofthecolorful lights.manypedestrianswalkabout.”一位时尚女士走在东京街头,街道充满了温暖的霓虹灯和动态的城市标志。她穿着黑色皮夹克,一条长红裙和黑色靴子,并携带一个黑色手提包。她戴着太阳镜和红色口红,自信而随意地行走。街道潮湿且能反射,创造出色彩斑斓灯光的镜面效果。许多行人来往。Prompt:Abicycleraceonoceanwithdifferentanimalsasathletesridingthebicycleswithdronecameraview一场在海面上的自行车比赛,不同的动物作为运动员骑着自行车,无人机摄像机视角。Prompt: Ainstructionalcookingsessionforhomemadegnocchihostedbya grandmothersocialmediainfluencersetinarusticTuscancountry kitchenwithcinematiclighting由一位祖母社交媒体影响者主持的家庭自制意大利面食教学课程,设置在具有电影级照明的乡村托斯卡纳厨房中。Prompt:Twogoldenretrieverspodcastingontopofamountain两只金毛寻回犬在山顶上播客。Prompt:afuturisticdroneraceatsunsetontheplanetmars在火星上日落时分的未来派无人机比赛。纽约时报相关报道:OpenAI公布新技术Sora,能即时生成令人瞩目的视频OpenAI, 一家位于旧金山的创业公司,最近推出了一项名为Sora的新技术。这项技术能够基于简短描述即时生成视频,展示了如同从好莱坞电影中提取出来的画面。Sora的演示视频包括毛茸茸的猛犸象在雪地中奔跑、怪物凝视融化的蜡烛,以及仿佛通过飞跃城市拍摄的东京街景等短片。作为ChatGPT聊天机器人和静态图像生成器DALL-E的背后公司,OpenAI正与包括Runway和大型科技巨头如Google及Meta(Facebook和Instagram的母公司)等在内的多家公司竞争,以改进这种即时视频生成技术。这项技术不仅可以加速经验丰富的电影制作人的工作,也可能完全取代经验较少的数字艺术家。然而,这项技术也可能成为在线虚假信息的快速且低成本的制作方式,使得网络上区分真实内容变得更加困难。华盛顿大学专门研究人工智能的教授OrenEtzioni表示:“我非常担心这类技术会影响一些竞争激烈的选举。”OpenAI将其新系统命名为Sora,取自日语中“天空”的意思,象征着无限的创造潜力。公司目前还未向公众发布Sora,因为它还在努力了解系统的潜在危险。相反,OpenAI正在与一小群学者和其他外部研究人员共享这项技术,这些人将对其进行“红队”测试,寻找可能的滥用方式。OpenAI正在对系统生成的视频加上水印,以标识这些视频是由AI生成的。但该公司承认这些水印可以被移除,且可能难以被察觉。Sora生成视频的方式是响应简短的描述,尽管视频可能令人印象深刻,但并不总是完美的,可能会包含奇怪和不合逻辑的图像。例如,该系统最近生成了一个人正在吃饼干的视频——但饼干从未变小。随着DALL-E、Midjourney等静态图像生成器在过去几年的快速改进,它们现在生成的图像几乎与照片无法区分。这使得在线识别虚假信息变得更加困难,许多数字艺术家抱怨说,这让他们更难找到工作。密歇根州的电影概念艺术家ReidSouthen表示:“当Midjourney在2022年首次推出时,我们都笑称‘哦,那很可爱’。现在,人们因为Midjourney而失去工作。”...PC版:https://www.cnbeta.com.tw/articles/soft/1418495.htm手机版:https://m.cnbeta.com.tw/view/1418495.htm

封面图片

OpenAI 的 Sora 首次受托制作音乐视频

OpenAI的Sora首次受托制作音乐视频如果你想制作一段令人瞠目的飞越视频,就像几年前JayBirdFilms的病毒式一镜到底宣传片那样,过程中可能需要一名熟练的无人机驾驶员、一架性能超强的无人机和相当多的后期制作知识。但那是在OpenAI于今年早些时候发布Sora文字视频模型之前。我们最初看到的是由文字提示生成的令人惊叹的视频片段,一个月后又看到了一些由才华横溢的创意人士制作的短片。其中一个短片最近引起了一些争议,因为总部位于多伦多的制作公司shykids透露,其出色的《AirHead》短片实际上包含了大量的后期制作工作。上个月,电子音乐家奥古斯特-坎普(AugustKamp)的歌曲《世界重量》(Worldweight)就使用了Sora,为影片提供了三维移动图像。现在,来自洛杉矶的导演保罗-特里罗(PaulTrillo)将人工智能平台用于其首部官方音乐视频的拍摄。据说,这段视频实现了特里罗酝酿了10年的想法,是3年前为TheShins的歌曲《TheGreatDivide》制作的3D动画音乐视频的改进版。现在,虚拟摄像机通过场景向前移动,而不是向后拉,为歌手兼作曲家ErnestWeatherlyGreeneJr.完成"最难的部分"。这段四分钟的视频是由55个Sora片段组成的一系列飞越场景,这些片段由文本输入生成,并在AdobePremierePro软件中拼接在一起,只进行了"非常细微的润色"。由人工智能生成的年轻角色和地点在屏幕上只是一闪而过,目前还不清楚诸如奇怪的身体角度、外星人的头、奇怪的生涩动作和明显的镜头技巧等是否是预期效果的一部分,或者仅仅是渲染错误。无论如何,这都是一个很酷的曲子的很酷的视频。...PC版:https://www.cnbeta.com.tw/articles/soft/1429555.htm手机版:https://m.cnbeta.com.tw/view/1429555.htm

封面图片

爆火Sora震惊威尔·史密斯 OpenAI技术路线或早在1月被成功预言

爆火Sora震惊威尔·史密斯OpenAI技术路线或早在1月被成功预言你以为,上面是一年前的AI视频,下面是如今的AI视频?错!这个所谓AI生成的视频,其实正是威尔史密斯本人!威尔·史密斯吃意面这个“图灵测试”,曾让Runway、Pika等屡屡翻车。Runway生成的,是这样的——但如今,Sora已经做到了逼真似真人、毫无破绽,所以才让威尔史密斯成功骗过了大众,这太可怕了!Sora的出现,其实在今年1月就已被人预言1月5日,一位前阿里的AI专家表示——我认为,Transformer框架和LLM路线,将是AI视频的一个突破口和新范式,它将使AI视频更加连贯、一致,并且时长更长。目前的Diffusion+Unet路线(如Runway、Pika等),只是暂时的解决方案。无独有偶,斯坦福学者李飞飞在去年年底,就用Transformer就做出了逼真的视频。而马毅教授也表示,自己团队去年在NeurIPS一篇论文中也已经证实,用Transformer可以实现diffusion和denosing。马毅团队提出:假设数据分布是mixedGaussians,那Transformerblocks就是在实现diffusion/扩散和denoising/压缩能想到Sora技术路线的,肯定不止一个人。可是全世界第一个把Sora做出来的,就是OpenAI。OpenAI为何总能成功?无他,唯手快尔。Runway和Pika“点歪”的科技树,被OpenAI掰正了在此之前,Runway、Pika等AI视频工具吸引了不少聚光灯。而OpenAI的Sora,不仅效果更加真实,就是把Transformer对前后文的理解和强大的一致性,发挥得淋漓尽致。这个全新的科技树,可真是够震撼的。不过我们在开头也可以看到,OpenAI并不是第一个想到这个的人。Transformer框架+LLM路线这种新范式,其实早已有人想到了。就如同AI大V“阑夕”所言,OpenAI用最简单的话,把最复杂的技术讲清楚了——“图片只是单帧的视频。”科技行业这种从容的公共表达,真是前所未见,令人醍醐灌顶。“阑夕”指出,“图片只是单帧的视频”的妙处就在于,图片的创建不会脱离时间轴而存在,Sora实际上是提前给视频写了脚本的。甚至无论用户怎样Prompt,SoraAI都有自己的构图思维。而这,就是困住Runway、Pika等公司最大的问题。它们的思路,基本都是基于一张图片来让AI去想象,完成延伸和填补,从而叠加成视频。比拼的是谁家的AI更能理解用户想要的内容。因此,这些AI视频极易发生变形,如何保持一致性成了登天般的难题。DiffusionModel这一局,是彻底输给Transformer了。ChatGPT故事再次重演,Sora其实站在Google的肩膀上让我们深入扒一扒,Sora是站在哪些前人的肩膀上。简而言之,最大创新Patch的论文,是Google发表的。DiffusionTransformer的论文,来自WilliamPeebles和谢赛宁。此外,Meta等机构、UC伯克利等名校皆有贡献。WilliamPeebles和谢赛宁提出的框架纽约大学计算机系助理教授谢赛宁在分析了Sora的技术报告后表示,Sora应该是基于自己和WilliamPeebles提出的框架设计而成。这篇提出了Sora基础架构的论文,去年被ICCV收录。论文地址:https://arxiv.org/abs/2212.09748随后,WilliamPeebles加入了OpenAI,领导了开发Sora的技术团队。图灵三巨头之一、MetaAI主管LeCun,也转发了谢赛宁的帖子表示认可。巧合的是,谢赛宁是LeCun的前FAIR同事、现纽约大学同事,WilliamPeebles是LeCun的前伯克利学生、现任OpenAI工程师。AI果然是个圈。最近,谢赛宁对说自己是Sora作者的说法进行了辟谣CVPR“有眼不识泰山”,拒掉Sora基础论文有趣的是,DiffusionTransformer这篇论文曾因“缺乏创新性”被CVPR2023拒收,后来才被ICCV2003接收。谢赛宁表示,他们在DIT项目没有创造太多的新东西,但是两个方面的问题:简单性和可扩展性。这可能就是Sora为什么要基于DIT构建的主要原因。此前,生成模型的方法包括GAN、自回归、扩散模型。它们都有各自的优势和局限性。而Sora引入的,是一种全新的范式转变——新的建模技术和灵活性,可以处理各种时间、纵横比和分辨率。Sora所做的,是把Diffusion和Transformer架构结合在一起,创建了diffusiontransformer模型。这也即是OpenAI的创新之处。时空Patch是Google的创新时空Patch,是Sora创新的核心。它建立在GoogleDeepMind早期对NaViT和ViT(视觉Transformer)的研究之上。论文地址:https://arxiv.org/abs/2307.06304而这项研究,又是基于一篇2021年的论文“AnImageisWorth16x16Words”。论文地址:https://arxiv.org/abs/2010.11929传统上,对于视觉Transformer,研究者都是使用一系列图像Patch来训练用于图像识别的Transformer模型,而不是用于语言Transformer的单词。这些Patch,能使我们能够摆脱卷积神经网络进行图像处理。然而,视觉Transforemr对图像训练数据的限制是固定的,这些数据的大小和纵横比是固定的,这就限制了质量,并且需要大量的图像预处理。而通过将视频视为Patch序列,Sora保持了原始的纵横比和分辨率,类似于NaViT对图像的处理。这种保存,对于捕捉视觉数据的真正本质至关重要!通过这种方法,模型能够从更准确的世界表示中学习,从而赋予Sora近乎神奇的准确性。时空Patch的可视化GooglePatch的论文,发表于2021年。3年后,OpenAI基于这项技术,做出了Sora。这段历史看起来是不是有点眼熟?简直就像“AttentionIsAllYouNeed”的历史重演。2017年6月12日,8位Google研究人员发表了AttentionisAllYouNeed,大名鼎鼎的Transformer横空出世。它的出现,让NLP变了天,成为自然语言领域的主流模型。论文地址:https://arxiv.org/pdf/1706.03762.pdf它完全摒弃了递归结构,依赖注意力机制,挖掘输入和输出之间的关系,进而实现了并行计算。在Google看来,Transformer是一种语言理解的新型神经网络架构。不过它当初被设计出来,是为了解决翻译问题。而后来,Transformer架构被OpenAI拿来发扬光大,成为ChatGPT这类LLM的核心。2022年,OpenAI用Google17年发表的Transformer做出ChatGPT。2024年,OpenAI用Google21年发表的Patch做出Sora。这也让人不由感慨:诚如《为什么伟大不能被计划》一书中所言,伟大的成就与发明,往往是偏离最初计划的结果。前人的无心插柳,给后人的成功做好了奠基石,而一条成功的道路是如何踏出的,完全是出于偶然。Meta微软UC伯克利斯坦福MIT亦有贡献此外,从Sora参考文献中可以看出,多个机构和名校都对Sora做出了贡献。比如,用Transformer做扩散模型的去噪骨干这个方法,早已被斯坦福学者李飞飞证明。在去年12月,李飞飞携斯坦福联袂Google,用Transformer生成了逼真视频。生成的效果可谓媲美Gen-2比肩Pika,当时许多人激动地感慨——2023年已成AI视频元年,谁成想2024一开年,OpenAI新的震撼就来了!李飞飞团队做的,是一个在共享潜空间中训练图像和视频生成的,基于Transformer的扩散模型。史上首次,AI学者证明了:Transformer架构可以将图像和视频编码到一个共享的潜空间中!论文:https://walt-video-diffusion.github.io/assets/W.A.L.T.pdfMSRA和北大联合团队提出的统一多模态预训练模型——NÜWA(女娲),也为Sora做出了贡献。此前的多模态模型要么只能处理图像,要么只能处理视频,而NÜWA则可以为各种视觉合成任务,生成新的图像和视频数据。项目地址:https://github.com/microsoft/NUWA为了在不同场景下同时覆盖语言、图像和视频,团队设计了一个三维变换器编码器-解码器框架。它不仅可以处理作为三维数据的视频,还可以适应分别作为一维和二维数据的文本和图像。在8个下游任务中,NÜWA都取得了新的SOTA,在文本到图像生成中的表现,更是直接超越了DALL-E。NÜWA模型支持的8种典型视觉生成任务草蛇灰线,伏脉千里。踩在前人的肩膀上,通过敏锐的直觉和不眠不休的高强度工作,OpenAI的研究者...PC版:https://www.cnbeta.com.tw/articles/soft/1419363.htm手机版:https://m.cnbeta.com.tw/view/1419363.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人