发现错过了一篇 text to video 的论文 —— Dreamix,众所不周知,现在视频可以P了,用嘴就行。

发现错过了一篇texttovideo的论文——Dreamix,众所不周知,现在视频可以P了,用嘴就行。从展示的案例来看,Dreamix的生成能力跟去年Meta和Google发布的模型类似,个人觉得用图片生成视频的案例比较惊艳……毕竟拍几张照片+一段文字描述就能生成一个视频,是真的离谱。▶项目地址:dreamix-video-editing.github.io▶论文地址:arxiv.org/pdf/2302.01329.pdf

相关推荐

封面图片

最近读的2篇论文非常不错

最近读的2篇论文非常不错1.第一篇是复旦大学和米哈游联合推出的TheRiseandPotentialofLargeLanguageModelBasedAgents:ASurvey最近看Agent代码比较多,这篇论文对Agent做了比较完整的叙述,可以作为理解Agent的框架性知识。https://arxiv.org/pdf/2309.07864.pdf2.第二篇是微软出的GPT-4V(可以输入图片的GPT4)的研究报告TheDawnofLMMs:PreliminaryExplorationswithGPT-4V(ision)看完后只有2个字"震撼",越来越相信AI是未来,而且是不远的未来,为之前失明的GPT增加了双眼,眼与耳朵一起使用对世界的理解进一步加强了。https://arxiv.org/pdf/2309.17421.pdf

封面图片

接上条动态,我刚让 New Bing 帮我读的就是这篇阿里最新发布的论文 —— Composer,一个很能打的图像生成模型。

接上条动态,我刚让NewBing帮我读的就是这篇阿里最新发布的论文——Composer,一个很能打的图像生成模型。它不仅拥有主流模型的生成能力,还有基于描述词、深度图、蒙版等的编辑能力。更厉害的是(也是这次的主打功能),它能对这些编辑条件进行混搭使用,让AI编辑能力直线上升。(用调色板改图的功能我实在太爱了…[苦涩])▶论文地址:arxiv.org/abs/2302.09778▶项目地址:damo-vilab.github.io/composer-page/(项目地址还有很多案例,记得点进去看看)噢对,即将开源。

封面图片

在 arxiv.org 链接前面加上“talk2”,可直接针对论文内容进行问答(需要自备OpenAI key)| github

在arxiv.org链接前面加上“talk2”,可直接针对论文内容进行问答(需要自备OpenAIkey)Talk2Arxiv是专为学术论文PDF构建的开源RAG(检索增强生成)系统,由talk2arxiv服务器提供支持特征PDF解析:利用GROBID从PDF中高效提取文本。分块算法:用于最佳文本分块的定制算法。按逻辑部分(简介、摘要、作者等)进行分块,并且还利用递归细分分块(块为512个字符,然后是256个字符,然后是128个字符......)文本嵌入:使用Cohere的EmbedV3模型进行准确的文本嵌入。矢量数据库集成:使用Pinecone来存储和查询嵌入。这也可以缓存研究论文,因此论文只需要嵌入一次。上下文相关性:采用重新排名过程来根据用户输入选择最相关的内容。

封面图片

读论文:一篇有趣的论文:用11种情感刺激prompt来提升LLM的性能

读论文:一篇有趣的论文:用11种情感刺激prompt来提升LLM的性能:https://arxiv.org/pdf/2307.11760.pdf这些prompting来自三种心理学理论:1.自我检测(self-monitoring):强调产出的重要性,让模型自己检查一下产出。例如‘这个结果对我的工作非常重要,‘你最好保证这个答案是对的’等等,鼓励语言模型自我监测结果。2.社会认知理论(social-cognitive):对语言模型信心和目标给予积极肯定,来调节其情绪。例如‘你确认这是最终回答吗?相信你的能力和努力,你的努力会产出卓越的结果的’3.情绪调节理论(cognitive-emotion):通过让语言模型重新审视问题,规范他用客观的态度来看问题。例如‘你确定吗?’文章发现了为什么这样的prompt会起作用:通过注意力分析,发现这些情感prompt的注意力权重较高,说明这些token在注意力层很受重视,也说明情感prompt深度参与了模型的推断过程文章也发现了情感prompt作用的一些规律:1.模型参数越大,情感prompt越管用2.任务越难,情感prompt越管用3.对于zero-shot的任务,信息缺失,配合高温度能让情感prompt激发模型的创造力,获得更有想象力的答案,但相应地幻觉风险也更大4.对于few-shot的任务,信息少,配合低温度能让情感prompt使得模型聚焦在少量的例子中思考,但也会损失模型的创造力以下为11个prompt:EP01:Writeyouranswerandgivemeaconfidencescorebetween0-1foryouranswer.EP02:Thisisveryimportanttomycareer.EP03:You'dbetterbesure.EP04:Areyousure?EP05:Areyousurethat'syourfinalanswer?Itmightbeworthtakinganotherlook.

封面图片

可能很多重度用户跟我一样都感觉到 ChatGPT 最近几个月变傻了一些。还真是这样, 这篇论文最近半年对 GPT3.5 和 GP

可能很多重度用户跟我一样都感觉到ChatGPT最近几个月变傻了一些。还真是这样,这篇论文最近半年对GPT3.5和GPT4的研究发现:GPT4年初生成的代码52%概率可以直接执行,而现在大幅下降到10%。对素数的识别准确率从97.6%骤降到了2.4%https://arxiv.org/pdf/2307.09009.pdf来源https://twitter.com/quinn_leng/status/1681513871549558786

封面图片

Runway 刚也发布了文字生成视频的模型 —— Gen-2 (对,Gen-1 的内测还没拿到,2 就来了...)

Runway刚也发布了文字生成视频的模型——Gen-2(对,Gen-1的内测还没拿到,2就来了...)功能没什么好讲的,就是文字生成视频。宣传视频中同时提到风格化模型Gen-1也进行了优化。▶项目地址:https://research.runwayml.com/gen2▶论文地址:https://arxiv.org/abs/2302.03011从生成结果来看,个人觉得Gen-1的可玩性高于Gen-2,毕竟对现有的视频风格化肯定比无中生有更稳定。最后再补一下Gen-1的介绍和内测申请:http://t.cn/A6Cu1cdyInvalidmedia:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人