发现错过了一篇 text to video 的论文 —— Dreamix，众所不周知，现在视频可以P了，用嘴就行。

发现错过了一篇texttovideo的论文——Dreamix，众所不周知，现在视频可以P了，用嘴就行。从展示的案例来看，Dreamix的生成能力跟去年Meta和Google发布的模型类似，个人觉得用图片生成视频的案例比较惊艳……毕竟拍几张照片+一段文字描述就能生成一个视频，是真的离谱。▶项目地址：dreamix-video-editing.github.io▶论文地址：arxiv.org/pdf/2302.01329.pdf

在Telegram中查看

相关推荐

最近读的2篇论文非常不错

最近读的2篇论文非常不错1.第一篇是复旦大学和米哈游联合推出的TheRiseandPotentialofLargeLanguageModelBasedAgents:ASurvey最近看Agent代码比较多，这篇论文对Agent做了比较完整的叙述，可以作为理解Agent的框架性知识。https://arxiv.org/pdf/2309.07864.pdf2.第二篇是微软出的GPT-4V(可以输入图片的GPT4)的研究报告TheDawnofLMMs:PreliminaryExplorationswithGPT-4V(ision)看完后只有2个字"震撼"，越来越相信AI是未来，而且是不远的未来，为之前失明的GPT增加了双眼，眼与耳朵一起使用对世界的理解进一步加强了。https://arxiv.org/pdf/2309.17421.pdf

接上条动态，我刚让 New Bing 帮我读的就是这篇阿里最新发布的论文 —— Composer，一个很能打的图像生成模型。

接上条动态，我刚让NewBing帮我读的就是这篇阿里最新发布的论文——Composer，一个很能打的图像生成模型。它不仅拥有主流模型的生成能力，还有基于描述词、深度图、蒙版等的编辑能力。更厉害的是（也是这次的主打功能），它能对这些编辑条件进行混搭使用，让AI编辑能力直线上升。（用调色板改图的功能我实在太爱了…[苦涩]）▶论文地址：arxiv.org/abs/2302.09778▶项目地址：damo-vilab.github.io/composer-page/（项目地址还有很多案例，记得点进去看看）噢对，即将开源。

在 arxiv.org 链接前面加上“talk2”，可直接针对论文内容进行问答（需要自备OpenAI key）| github

在arxiv.org链接前面加上“talk2”，可直接针对论文内容进行问答（需要自备OpenAIkey）Talk2Arxiv是专为学术论文PDF构建的开源RAG（检索增强生成）系统，由talk2arxiv服务器提供支持特征PDF解析：利用GROBID从PDF中高效提取文本。分块算法：用于最佳文本分块的定制算法。按逻辑部分（简介、摘要、作者等）进行分块，并且还利用递归细分分块（块为512个字符，然后是256个字符，然后是128个字符......）文本嵌入：使用Cohere的EmbedV3模型进行准确的文本嵌入。矢量数据库集成：使用Pinecone来存储和查询嵌入。这也可以缓存研究论文，因此论文只需要嵌入一次。上下文相关性：采用重新排名过程来根据用户输入选择最相关的内容。

读论文：一篇有趣的论文：用11种情感刺激prompt来提升LLM的性能

读论文：一篇有趣的论文：用11种情感刺激prompt来提升LLM的性能：https://arxiv.org/pdf/2307.11760.pdf这些prompting来自三种心理学理论：1.自我检测（self-monitoring）：强调产出的重要性，让模型自己检查一下产出。例如‘这个结果对我的工作非常重要，‘你最好保证这个答案是对的’等等，鼓励语言模型自我监测结果。2.社会认知理论（social-cognitive）：对语言模型信心和目标给予积极肯定，来调节其情绪。例如‘你确认这是最终回答吗？相信你的能力和努力，你的努力会产出卓越的结果的’3.情绪调节理论（cognitive-emotion）：通过让语言模型重新审视问题，规范他用客观的态度来看问题。例如‘你确定吗？’文章发现了为什么这样的prompt会起作用：通过注意力分析，发现这些情感prompt的注意力权重较高，说明这些token在注意力层很受重视，也说明情感prompt深度参与了模型的推断过程文章也发现了情感prompt作用的一些规律：1.模型参数越大，情感prompt越管用2.任务越难，情感prompt越管用3.对于zero-shot的任务，信息缺失，配合高温度能让情感prompt激发模型的创造力，获得更有想象力的答案，但相应地幻觉风险也更大4.对于few-shot的任务，信息少，配合低温度能让情感prompt使得模型聚焦在少量的例子中思考，但也会损失模型的创造力以下为11个prompt：EP01:Writeyouranswerandgivemeaconfidencescorebetween0-1foryouranswer.EP02:Thisisveryimportanttomycareer.EP03:You'dbetterbesure.EP04:Areyousure?EP05:Areyousurethat'syourfinalanswer?Itmightbeworthtakinganotherlook.

可能很多重度用户跟我一样都感觉到 ChatGPT 最近几个月变傻了一些。还真是这样，这篇论文最近半年对 GPT3.5 和 GP

可能很多重度用户跟我一样都感觉到ChatGPT最近几个月变傻了一些。还真是这样，这篇论文最近半年对GPT3.5和GPT4的研究发现：GPT4年初生成的代码52%概率可以直接执行，而现在大幅下降到10%。对素数的识别准确率从97.6%骤降到了2.4%https://arxiv.org/pdf/2307.09009.pdf来源https://twitter.com/quinn_leng/status/1681513871549558786

Runway 刚也发布了文字生成视频的模型 —— Gen-2 （对，Gen-1 的内测还没拿到，2 就来了...）

Runway刚也发布了文字生成视频的模型——Gen-2（对，Gen-1的内测还没拿到，2就来了...）功能没什么好讲的，就是文字生成视频。宣传视频中同时提到风格化模型Gen-1也进行了优化。▶项目地址：https://research.runwayml.com/gen2▶论文地址：https://arxiv.org/abs/2302.03011从生成结果来看，个人觉得Gen-1的可玩性高于Gen-2，毕竟对现有的视频风格化肯定比无中生有更稳定。最后再补一下Gen-1的介绍和内测申请：http://t.cn/A6Cu1cdyInvalidmedia:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人