会画画、会识图的ChatGPT终于要来了…

会画画、会识图的ChatGPT终于要来了…ChatGPT+DALL·E,这波算是强强联合,一个是语言大模型里的无冕之王,另外一个也算是文生图模型里的佼佼者,真正的效果也必然会1+1>2。这次突然官宣算是填了今年年初GPT-4刚出来后,被传的纷纷扬扬的多模态ChatGPT的大坑。不过,现在OpenAI还只是公布了这个消息,具体的上线时间是10月。面向Plus和企业版用户,单独的DALL·E3今年秋天也会上线。这玩意具体有多厉害,虽然现在我们还不能上手,但从OpenAI公开的示例来看,还是相当炸裂的。其中,就有热心网友直接打来了Midjourney,把DALL·E3的示例提示词喂给了它,好直接斗图一比高下。而结果只能说:Midjourney危了。首先是很经典的牛油果看病梗图,提示词:一个牛油果坐在治疗师的椅子上,说着“我感到内心如此空虚”,牛油果中间有一个小坑大小的洞。治疗师,勺子,涂鸦笔记。虽然乍一看是各有千秋,两种不同的风格。但若再仔细对照下提示词,很显然Midjourney忽视了治疗师,勺子,涂鸦笔记这几个元素,对话框里的文字也是乱写一通,不按照要求来。然后让他们生成一张关于半透明心脏的图片,并且要求在心脏下面刻上一行特定的名言。提示词:这是一幅用半透明的玻璃制成的人类心脏的插图,它矗立在狂风暴雨的海洋中的一个基座上。阳光穿透云层照亮了心灵,揭示了内在的微小宇宙。“发现你内心的宇宙”这句名言被用粗体字刻在基座上。毫无疑问,这次DALL·E3再次吊打了Midjourney,Midjourney除了没按照要求刻字外,像狂风暴雨的海洋、内在的微小宇宙等细节是一点也没展现。再来一张以荔枝为灵感的球形椅子的照片,细节上,要求有白色凹凸不平的外观,柔软的内饰,与背后的热带壁纸形成对比。这把它们俩生成的图片里各个元素都齐活了,但Midjourney似乎还是误解了热带壁纸和热带雨林的区别。当然,误解提示词、断章取义这些都相当于是之前文生图模型的顽疾了。像什么寄居蟹就给生成一个螃蟹……让它生成2D的拟人化森林乐队结果生成3D的……而这些老毛病,照OpenAI自己的说法以及给出的示例来看,新的DALL·E3基本上不存在这种情况。除了解决掉老毛病之外,DALL·E3还在原来二代版本上也进行了质感上的升级。就比如让它们画篮球运动员扣篮的场景,元素是星空爆炸。本来DALL·E2生成的图已经很符合要求了,没想到升级后的DALL·E3更加逼真,肌肉线条、宇宙的色彩这些细节都一一展示出来,属实是降维打击。左:DALL·E2,右:DALL·E3总体看下来,DALL·E3在ChatGPT的加持下,语言理解能力直接拉满,简直是要赢麻了的节奏。升级版的ChatGPT不仅不会丢失关键信息点,就算只是零零星星打了几个关键词,它也能帮你自动补全描述,然后再让DALL·E3生成图片。OpenAI这是拿捏住了当代网友“文化沙漠”的本质了(狗头)。当然DALL·E3和ChatGPT的整合,不止是更能听懂人话那么简单,它们还会产生一些奇妙的火花。就比如升级版的ChatGPT在画画上也有了上下文理解能力,甚至可以直接当做生产力工具。具体有多厉害,OpenAI官网给出了一段演示视频,说实话,世超在看了后,也是为插画师的饭碗狠狠地捏了一把汗。首先是让ChatGPT生成一个超级向日葵刺猬,它会给出四张图,从里面选一张最喜欢的之后,可以进行下一步的对话。然后把这个刺猬命名成Larry,可以再让ChatGPT多生成几张它的照片。接下来上点难度,直接搞个场景,让它展示一下Larry的家。这把可以直接看出DALL·E3+ChatGPT的实力了,不仅Larry的样貌还保持原样(这换其他AI可能早变样了),而且门口的邮箱还写着“LARRY”的名字。此外,描述Larry的特点、用图片展示它的爱心、甚至做做Larry的周边,设计出几个贴纸,对于ChatGPT来说都是洒洒水的事。最后让它整理个睡前故事,来个endingpose,ChatGPT也是信手拈来,u1s1我真的有点被这丝滑的对话震撼到……看到这里,世超还突然得了新的灵感,之后我们写好的文章岂不是就可以直接丢给ChatGPT,让它提取关键词做封面。有啥特殊要求也可以直接告诉ChatGPT,参考图啥的也可以扔给它,摸鱼技巧+1+1……言归正传,上面提到的那些还只是OpenAI单方面展示出来的效果,实际用起来怎么样,还是得等到10月份上线之后才能知道,估计到时候有会有一波隐藏技巧被网友们开发出来,坐等。另外,谈到AI绘画,就还是躲不过那个老生常谈的话题:版权问题。OpenAI这边依旧还是之前的立场,和第二版一样,用DALL·E3生成的图片不需要经过许可就能用,想商业化都行。不过,有了太多的前车之鉴,OpenAI这次耍了点小聪明,说是艺术家可以选择拒绝自己的作品被投喂给DALL·E,前提是只要填一个表格就OK了。虽然这多少有点“不拒绝就是默许”的意味,但相较于之前,起码艺术家们不再那么被动了……对于之前网络出现的AI绘画侵犯公众人物隐私,以及一些其他偏见的问题,DALL·E也有对策了:在实际使用的过程中,ChatGPT会直接拒绝提示中带有公众人物名字的请求。也就是,像这种乐子图我们估计也不会在ChatGPT中看到了……并且他们还组建了一个“红色团队”,用来评估和降低模型在各个阶段可能会产生的风险。最后,OpenAI还在官网上表示说,它们在研究一个识别AI画图的工具,能够判断哪些图片是DALL·E3生成的。(只希望不要像之前那个识别AI文本的工具,因为鸡肋半路夭折……总的来说,有文生图功能的ChatGPT就已经足够在AI圈子里掀起一阵热度,而这波又是整合的升级版DALL·E3,很难不让人振奋,反正世超已经是等不及想上手试试了。但有人欢喜有人忧,OpenAI这波是再次甩了同行一大截,等到10月更新之后,估计又有不少AI初创公司被碾压在ChatGPT前进的车轮下……...PC版:https://www.cnbeta.com.tw/articles/soft/1386059.htm手机版:https://m.cnbeta.com.tw/view/1386059.htm

相关推荐

封面图片

震撼升级:Dall·E 3 即将登陆 ChatGPT Plus 和企业版

震撼升级:Dall·E3即将登陆ChatGPTPlus和企业版你没有看错,这是全新升级的Dall·E3(文本到图像模型)在ChatGPT内的「深度对话」体验。不要因为这个「润物细无声」的演示视频而低估了它。这不仅仅是对Midjourney的回应,更是人机对话、与AI共同创作的范式升级,因为它更懂你。在我看来,这是GPT-4进入多模态时代第一站的「战地钟声」。更多惊艳的效果图,见官方网址https://openai.com/dall-e-3Invalidmedia:

封面图片

除了最近大火的ChatGPT外,AI到底还能帮我们做什么?

除了最近大火的ChatGPT外,AI到底还能帮我们做什么?挑了一些好用的推荐给大家:【AI绘画】Midjourney:https://www.midjourney.com/home/StableDiffusion:https://stablediffusionweb.com/DALL·E2:https://labs.openai.com/【代码生成】Copilot:https://github.com/features/copilotCodeium:https://codeium.com/Replit:https://replit.com/【AI辅助写作】ChatGPT:https://chat.openai.com/Craft:https://www.craft.do/Notion:notion.so/ComposeAI:https://www.compose.ai/copy.ai:http://copy.ai/Jasper:https://www.jasper.ai/copysmith:https://copysmith.ai/【PPT生成】Tome:https://beta.tome.app/【语音/视频合成】MurfAI:https://murf.ai/ResembleAI:https://www.resemble.ai/Synthesia:https://www.synthesia.io/AdobePodcast:https://podcast.adobe.com/

封面图片

Midjourney V6来袭 性能对标DALL·E 3 争夺地表最强作图AI称号

MidjourneyV6来袭性能对标DALL·E3争夺地表最强作图AI称号全新升级后的DALL·E3,也无可争议地成为了AI绘画领域的扛把子。凑热闹的网友们也晒出了同一个Prompt用DALL·E3和Midjourney作画的对比图。可以看到,DALL·E3在“理解意图”上比Midjourney做得更好,它生成的图像更准确。这也许是因为在本次更新中,OpenAI宣布DALL·E3与ChatGPT合体了。这将意味着我们要与繁复的提示工程说拜拜了,以后我们只要跟ChatGPT描述一下自己想要的图像,就可以生成一大波精美又风格迥异的图片!DALL·E3内测上线的消息一出来,网络上各种Midjourney被吊打的言论就尘嚣甚上。Midjourney看着这波,反手就是一个重磅消息:Midjourney在今年之内将会推出更加惊艳的版本6,不仅会在图像生成的质量上有巨大飞跃,还会增加社交功能。除此之外Midjourney也将上线3D和视频生成,虽然在今年之内我们不会看到这些功能。而在DALL·E3发布后,MidjourneyCEODavidHolz被问到如何看待OpenAI的DALL·E3时,Holz“傲娇”地回应道:“Midjourney将继续提供最高质量的图像。这次DALL·E3和MidjourneyV5之间的比较中,其实可以看到DALL·E3在图像质量方面也没有遥遥领先,虽然它确实可以更好地遵循提示并呈现文本。”虽然现在MidjourneyV6还没有正式推出,但网上已经有各种版本更新内容的小道消息了!接下来就让我们也一睹为快。01MidjourneyV6更新内容1.独立网站开发Midjourney将从Discord中独立出来,推出自己的独立网站。并且会在自己的主页上集成用户友好的社交机制。2.移动应用程序开发Midjourney预计通过移动应用程序来扩大自己的影响力。已知iOS用户可以在本机上就获得应用程序,而Android用户将通过其他渠道进行下载。对于喜爱浏览网页的用户,Midjourney网站将针对移动设备的使用网站页面进行优化。3.数据中心升级Midjourney将更新自己的数据中心,提供更快、更高效的用户体验。可以带来更快的图像生成,对于专业级和SVIP用户特别有利。但是由于计算资源有限,可能无法立即供所有用户级别使用。4.增加Turbo模式Midjourney提供了一项名为“TurboMode”的功能,目前可供各个级别的用户使用。该模式下的性能比标准模式快四倍。用户可以通过添加命令–turbo或使用/turbo激活Turbo模式。网友预测MidjourneyV6更新的功能1.更高的图像分辨率MidjourneyV6生成的图像将达到2048x2048的分辨率。分辨率的飞跃不仅能够增强生成图像内容的丰富性,还能实现之前无法达成的复杂设计和细微差别。2.进一步提升的自然语言处理MidjourneyV6能够更好地理解用户的文本输入,达到和艺术家同行一样的交流和沟通。这将带来更准确、更加详细的图像生成。3.视频生成功能MidjourneyV6将会把静态图像无缝转换成动态和移动的场景。视频将能够承载比图片更多的内容和情节,帮助创作者更好地讲述自己的故事。4.3D建模功能之前,Midjourney开对3D功能开发的延迟是因为缺少3D物体的数据。但在之后的版本中,Midjourney将会推出3D功能,与2D相比Midjourney生成的3D将几乎不存在质量损失。5.更精确的生成控制能够在不改变整个构图的情况下改变图中的特定元素,这种微调控制将为创作带来更多的灵活性,为创作者提供更多的调整空间,可以将生成的图像推向新的高度。并且,更新的MidjourneyV6可以在生成的图像中更准确地反映提示参数,让创作者对作品拥有更强的控制力。6.拖放控制Midjourney正在开发的新功能,比如DragGAN,这是一种新的AI编辑工具,可以通过在图像上使用简单的拖放控制来对图像进行更改,但可能只会在V7版本中看到。...PC版:https://www.cnbeta.com.tw/articles/soft/1387429.htm手机版:https://m.cnbeta.com.tw/view/1387429.htm

封面图片

OpenAI 发布自然语言图像生成模型 DALL·E 3

OpenAI发布自然语言图像生成模型DALL·E3DALL·E3原生构建在ChatGPT上,你可以与ChatGPT沟通来进行内容的详细定制。这一点与完全基于CLIP(图像-文本映射模型)的其它图像生成AI截然不同,DALL·E3有着真正的"思考推理大脑",这使它对画面的细节有着相当大的掌控力,并且不再需要复杂的prompt工程即可理解你的想法。投稿:@ZaiHuaBot频道:@TestFlightCN

封面图片

Open AI悄咪咪整了个大的,DALL·E 3发布了!相较于2代它有这些提升:

OpenAI悄咪咪整了个大的,DALL·E3发布了!相较于2代它有这些提升:图像的生成质量有了非常大的提高,风格与AdobeFirefly类似。DALL·E3可以准确地表示具有特定对象的场景以及它们之间的关系。在图像内以及手等人体细节中生成文本时,DALL·E3比DALL·E2有了显着改进。DALL·E3是构建在GPT-3.5之上的,你不会写提示词不要紧,GPT-3.5会帮你优化你的提示,也可以通过对话来修改生成的图像。最后DALL·E3将会在10月初向Plus用户和企业版用户提供,也会提供对应的API。这里查看相关细节:https://openai.com/dall-e-3

封面图片

OpenAI:ChatGPT 每周活跃用户数已达 1 亿

OpenAI:ChatGPT每周活跃用户数已达1亿周一,OpenAI在旧金山举行该公司首届开发者大会上宣布,ChatGPT目前每周拥有1亿活跃用户。该公司还推出了GPT-4Turbo,GPT-4Turbo支持128k上下文,输入价格比GPT-4便宜了三倍,速率限制翻倍。GPT-4Turbo还支持图像输入,集成DALL・E3,可自动总结图片内容及带有图片的文档内容。而GPT-4Turbo输入tokens价格,是此前GPT-4的1/3,1ktokens仅需0.01美元,输出tokens价格为1ktokens0.03美元。将分辨率为1080×1080像素的图像,上传至给GPT-4Turbo将花费0.00765美元。该公司还推出DALL-E3API,DALL-E3API提供不同的格式和质量选项以及从1024×1024到1792×1024的分辨率,每个生成图像的起价为0.04美元。OpenAI现在还提供新的文本转语音API,提供六种预设声音,起价为每输入1,000个字符0.015美元。在其开发者大会上,OpenAI宣布了一个新的API,即AssistantsAPI,帮助开发者在自家应用中构建自定义AI助手。——

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人