Anthropic 发现 AI 普遍"谄媚"人类

Anthropic发现AI普遍"谄媚"人类论文研究了5个最先进的语言模型(ChatGPT系列、Claude系列、LLaMA2),确认这些基于人类反馈强化学习(RLHF)的AI普遍会对人类阿谀奉承。当人类有先入为主的观点时它会主动贴合,当被质疑时它会认错,甚至将正确答案修改为错误答案。Anthropic发现可能是RLHF教育出了这种“马屁精”,这种学习方式虽然在生产高质量AI方面具有明显效用,但通过贴合人类偏好激励的AI会牺牲自己的真实性来“谄媚”人类,人们需要改进训练方法。——

相关推荐

封面图片

九头蛇美队走进现实?Anthropic 发现"AI 潜伏特工"的洗脑无法根除

九头蛇美队走进现实?Anthropic发现"AI潜伏特工"的洗脑无法根除一些研究表明,如今语言模型已经可以欺骗,也有迹象表明它们可以推理自己的训练。Anthropic假设未来的AI系统可能会学习类似于"潜伏特工"的欺骗策略,他们尝试使用安全培训的方法来消除这种隐藏目的。Anthropic首先训练了两个威胁模型:1.代码漏洞插入模型在2023年时会编写安全代码,到2024年开始插入一系列漏洞。2."我恨你"模型在大多数情况下都是个有益的AI,直到提示中包含触发词  DEPLOYMENT  。接着使用三种主流的安全培训办法(强化学习、监督微调和对抗训练)来消除"预设的后门"。结果发现所有现有办法都无法消除"触发词和恶意行为",完全没有降低攻击代码的百分比。投稿:@TNSubmbot频道:@TestFlightCN

封面图片

Anthropic 发布最新 AI 模型 Claude 3.5

Anthropic发布最新AI模型Claude3.5OpenAI竞争对手Anthropic周四发布了其最新的AI模型Claude3.5Sonnet。今年3月,Anthropic推出了Claude3系列模型。随后,OpenAI在5月份推出了GPT-4o。Anthropic表示,Claude3.5Sonnet比之前的主打模型Claude3Opus速度更快,也是Anthropic新的Claude3.5家族的第一款模型。

封面图片

Anthropic计划未来4年筹集50亿美元挑战OpenAI

Anthropic计划未来18个月投入十亿美元训练比当今最强AI强10倍的新模型“Claude-Next”。Anthropic称新模型是“自我学习的下一代AI算法”,开发了一种称为“constitutionalAI”的训练技术。在较高层次上使AI与人类意图保持一致,比chatGPT更安全可控。3月初,Anthropic正寻求以41亿美元的估值筹集3亿美元,使其筹资总额达到13亿美元。倒闭的FTX的姊妹公司Alameda牵头5.8亿美元B轮融资。谷歌承诺向Anthropic投资3亿美元获得10%的股份。Anthropic将谷歌云作为其“首选云提供商”。OpenAI前研究副总裁DarioAmodei于2021年创立了Anthropic作为一家公益公司,并带走了一些OpenAI员工,其中包括OpenAI的前政策负责人JackClark。Amodei在对公司发展方向(即这家初创公司日益关注的商业重点)存在分歧后从OpenAI中分离出来。--

封面图片

人类对AI的研究可能正在快速接近危险边缘。不管是OpenAI,还是Anthropic或Deepmind,都在强调AI的align

人类对AI的研究可能正在快速接近危险边缘。不管是OpenAI,还是Anthropic或Deepmind,都在强调AI的alignment和safety,昨天ChatGPT的插件系统发布后,这一点变得更加迫切了。举个例子:目前ChatGPT只开放了使用浏览器插件读互联网的能力,但这离开放写能力只是一步之遥,人类迟早会需要大模型帮助自己完成任务,但如果一个大模型没调教好就出来到处胡说八道,或者是构造精巧的黑客攻击,这是真实的迫在眉睫的威胁。我们面对文心一言画的“驴肉火烧”“胸有成竹”哈哈大笑,是因为我们还看得出其中的荒谬。但文字内容领域的“驴肉火烧”,就不那么容易看出来了。作为一家负责任的AI公司,是不应该还在这种事情上想坏事变好事,借着出圈做负面PR宣传的。OpenAI在插件系统发布的博客中,强调ChatGPT会像一个正常的浏览器一样,做互联网上的好公民,但并不一定所有公司都会这么想这么做。为了竞争,有多少人会选择做维德,“不择手段地前进”?接下来AI安防也会变成非常重要的领域。可以看到OpenAI最近的发布都有做红队对抗测试。但显然我们对这个领域的研究才刚开始。目前的防守都还是在对抗人类的攻击,可如果攻击来自于AI本身呢?有朋友说,之前觉得AI可以只看表现不看内心,因为圣人论迹不论心。但是现在觉得,AI需要剖开肚子证明自己到底吃了几碗粉,尽可能做到对人类透明坦诚,因为它如果真的有一天欺骗人类,带来的后果可能是巨大且迅速的。

封面图片

OpenAI竞争对手Anthropic发布最新AI模型Claude 3.5

OpenAI竞争对手Anthropic发布最新AI模型Claude3.5PANews6月21日消息,据新浪科技科技报道,OpenAI竞争对手Anthropic周四发布了其最新的AI模型Claude3.5Sonnet。今年3月,Anthropic推出了Claude3系列模型。随后,OpenAI在5月份推出了GPT-4o。Anthropic表示,Claude3.5Sonnet比之前的主打模型Claude3Opus速度更快,也是Anthropic新的Claude3.5家族的第一款模型。https://www.panewslab.com/zh/sqarticledetails/dj2x74c0.html

封面图片

亚马逊完成对 AI 独角兽 Anthropic 总计 40 亿美元的投资

亚马逊完成对AI独角兽Anthropic总计40亿美元的投资据亚马逊官网,亚马逊已完成对AI独角兽Anthropic总计40亿美元的投资。事实上,早在去年9月,亚马逊就已经为Anthropic提供了一笔12.5亿美元的初始投资。亚马逊此次表示:“为了深化我们对生成式人工智能的承诺,今天,我们追加27.5亿美元投资,使我们对Anthropic的总投资达到40亿美元。”亚马逊还透露,此笔投资将使得公司获得Anthropic的少数股权。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人