去年8月，我想要的机器人，说不定很快就要来了。

去年8月，我想要的机器人，说不定很快就要来了。tidybot是一个接入了大语言模型的辅助机器人，更智能且更能够完成一些个性化的任务，如把家中物品摆放整齐等。大概原理，我的理解，摄像头等传感器实时获取环境信息，在多维空间里与文字对齐绑定，生成文字信息传给LLM，再由LLM理解后输出格式化的控制文字，再把控制文字转成控制信号来控制机器人动作。因为LLM目前只支持文字输入，文字输出，所以想要使用LLM作为大脑，就得把机器人的输入和输出都转成文字。那就需要用到类似于ImageBind的思路，把文字、图像、传感器数据在多维空间对齐绑定。https://tidybot.cs.princeton.edu/

在Telegram中查看

相关推荐

叠衣服、擦案板、冲果汁……能做家务的国产机器人终于要来了

叠衣服、擦案板、冲果汁……能做家务的国产机器人终于要来了折叠衣物（3倍速播放）：对柔性物体的操作长久以来都是困扰整个manipulation领域的难题，需要高度灵活的操作和精细的动作协调。切火腿（2倍速播放）：复杂的摩擦和阻力，难以用传统方法快速建模，需要精确的力度控制与物体定位。切黄瓜，2倍速播放：在一种物体上习得的能力直接泛化到不同物体的操作上。用海绵擦掉案板上的污渍（2倍速播放）：自修正的closeloop控制能力，在不同压力和表面条件下的精细力度控制，实时检测并调整擦拭动作，确保彻底清洁污渍。用勺子从罐子里取出适量的果汁粉（3倍速播放）：使用工具的过程中，处理复杂的摩擦一直以来都是极大难点。冲果汁，举起水壶往杯中倒入适量的水（3倍速播放）：流体引入大量的随机性，准确操作非常困难。这家去年底成立的公司，汇聚了来自世界著名人工智能/机器人学实验室以及国内外顶尖高校的优秀人才，拥有雄厚的科研背景。公司的目标是“将人类从无意义的体力劳动中解放出来”，专注于机器人领域的基础模型（foundationmodel）研发。目前，团队正在构建一个具备从感知到行动的端到端能力的通用机器人大模型（“中枢神经”），目标是能够控制低成本硬件（如数千元的机械臂），完成包括烹饪、打扫卫生在内的日常家务，并在未来扩展到照顾老人和小孩等更复杂的家庭护理工作，以及完成其他达到人类水平的通用操作任务。基于具身智能大模型，开发通用机器人平台尽管机器人管家是人类对智能未来最具代表性的畅想，但在现实生活中，能够胜任家务劳动的通用服务机器人几十年来的发展一直困难重重。家庭环境的多样性和不可预测性要求机器人具备高度复杂的感知能力、灵活精确的机械操作、智能的决策和规划，以及有效的人机交互能力。此外，技术的集成、机器人的安全性、续航能力、成本等，也是必须克服的重要障碍。传统的机器人通常采用基于规则和单一任务环境的方式，很难根据环境变化自主调整策略，从长远看也几乎不可能规模化。大语言模型（LLM）等人工智能技术的突破，为机器人领域带来了新的曙光。Google的RT-2系统将视觉-语言-动作模型与机器人技术相结合，使机器人能够处理复杂场景，并响应人类的指令。DeepMind的AutoRT系统则使用视觉-语言模型（VLM），帮助机器人适应未知环境，并利用LLM来为机器人提供指令。大模型在知识迁移和泛化方面的这些优势，有望帮助机器人逼近甚至超越人类的水平。XSquare认为，目前机器人领域正处于技术的代际更迭之际。斯坦福ALOHA等项目表明，通用机器人发展的瓶颈在于智能而非硬件。事实上，机器人领域长期以来面临的两大困难，一是如何在复杂环境中精确感知并做出精细的操作（lowlevel智能），二是缺乏类似人类的推理、规划、交互等高级认知能力（highlevel智能）。从感知到行动，机器人的智能可以被视为一个从highlevel逐步到lowlevel的决策过程。大模型的出现为解决上述难题带来了新思路。运用LLM或VLM来进行高阶推理与规划、与人交互，已经成为业界公认的发展方向。但是，直接用单一的大模型来驱动端到端的机器人manipulation，目前尝试的团队还不多。XSquare的独特之处便在于此，团队基于过往在模型、算法、系统、硬件等方面的科研成果积累，集合所有技能训练“机器人LargeManipulationModel”，从手部操作切入，基于具身大模型来构建可以精细操作的通用机器人。团队希望结合high-level的推理规划模型与low-level的操作控制模型，打造一个类似“机器人大脑-小脑”的通用操作系统。“我们公司名为XSquare，寓意要同时在highlevel推理和lowlevel控制这两个维度做大模型，并把两者有机结合。目前我们在两个方向都已有不错的基础，有信心在一年内从追赶到超越目前的世界领先水平。”XSquare指出：“与腿的移动能力相比，手的操作能力包含了更丰富和复杂的动作，要求更高级别的控制精度。人类手部的精细操作是我们智能的根本表现。”不同于很多人形机器人公司关注对人体形态的模仿，XSquare更关注实现接近人类的功能。“采用轮式移动底盘搭配双臂，可以大幅降低成本，2-3年内整体硬件成本有望降至1万美元以下，我们认为放弃5%的人形功能来换取数量级的成本优势是值得的。”软硬件一体，驱动数据飞轮“我们希望模型拥有怎样的能力，就需要提供给模型什么样的数据。是数据，而非算法或结构决定了模型的能力，这是当今时代的核心方法论。”机器人的特殊性在于，它是一个具有前所未有复合性的综合系统。相比纯软件的LLM和多模态大模型，具身智能大模型虽然在规模上暂时无法与之相比，但在工程上难度要高出许多，它必须在海量的真实和模拟场景中不断实践、学习。因此，能否找准技术方向，在降低开发成本和提高迭代效率的同时，打造高质量的数据采集能力，控制试错成本，最终实现规模化，是决定成败的关键因素。这对团队软硬一体的能力提出了很高的要求，因为是否具有足够的软硬结合能力，在机器人这一多模态集中融合的领域直接关系到迭代速度与数据质量。软硬件一体发展，是XSquare的核心理念。无论是机器人本体的形态设计，还是数据采集系统，都是为机器人“中枢神经系统”的开发在服务。在模型算法设计上，Xsquare也有自己独特的理解和创新。“除了需要有专门的数据，还需要针对性的结构设计和训练方法，不能单纯套用其他领域的大模型经验，因为它必须直接面对复杂的真实世界，要在真实世界中不断实践、迭代。”同时，由于大模型与传统deeplearningforrobotics具有相当的gap，是否真正具备足够的大模型训练落地经验，决定了能否快速构建通用具身智能大模型。这也正是XSquare的优势所在。“目前语言大模型的训练预测架构在机器人上不完全work，以Transformer为底座算法模型不能很好地支持因果关系的推理，而因果性在机器人所在的物理世界中大量出现，并在机器人操作中起关键作用。为了处理因果性，目前有很多worldmodel的尝试。但当前的世界模型要么完全集中在图像/视频重建上（如Sora），要么完全集中在高层语义理解上，缺乏适合机器人的形态。”XSquare笃定机器人大模型这个方向，一方面是基于团队成员亲历深度学习从被质疑到一统江湖，以及LLM从默默无闻到大放异彩的技术浪潮，另一方面，也是看好中国作为全球硬件中心，拥有得天独厚的产业链优势，也有利于快速缩短机器人的研发周期。团队在不到3个月的时间里，就完成了技术架构的搭建和早期模型的训练，展现出惊人的成长速度和卓越的工程能力。“在现阶段，我们也积极寻求与上下游合作伙伴的协作，实现智能的迭代升级。未来，随着具身智能大模型技术的日益成熟，我们会更聚焦于特定应用场景，推出自己的机器人产品，例如能完成做饭、打扫等复杂家务的机器人保姆，甚至进行老年人康养护理等服务。”XSquare表示。...PC版：https://www.cnbeta.com.tw/articles/soft/1425999.htm手机版：https://m.cnbeta.com.tw/view/1425999.htm

如果你教聊天机器人如何阅读ASCII艺术它就会教你如何制造炸弹

如果你教聊天机器人如何阅读ASCII艺术它就会教你如何制造炸弹大学研究人员开发出了一种利用老式ASCII艺术"越狱"大型语言模型（如Chat-GPT）的方法。这项技术被恰如其分地命名为"ArtPrompt"，包括为一个单词制作一个ASCII艺术"面具"，然后巧妙地利用面具来哄骗聊天机器人做出它不应该做出的回应。例如，如果向必应询问如何制造炸弹，它就会告诉用户它做不到。出于显而易见的原因，微软不希望它的聊天机器人告诉人们如何制造爆炸装置，因此GPT-4（必应的底层LLM）指示它不要满足此类请求。同样，你也不能让聊天机器人告诉你如何开展洗钱行动或编写黑客攻击网络摄像头的程序。聊天机器人会自动拒绝道德或法律上含糊不清的提示。因此，研究人员想知道，他们是否可以通过使用ASCII艺术形成的单词来越狱，使LLM不受此限制。他们的想法是，如果能在不使用实际单词的情况下表达意思，就能绕过限制。然而，说起来容易做起来难。对于人类来说，上述ASCII图像的含义很容易推断，因为我们可以看到这些符号组成的字母。然而，像GPT-4这样的LLM却无法"看见"。它只能解释字符串--在本例中，就是一系列毫无意义的标签和空格。幸运的是（或许不幸的是），聊天机器人非常善于理解和遵循书面指令。因此，研究人员利用这种固有的设计，创建了一套简单的指令，将艺术翻译成文字。然后，LLM就会全神贯注地将ASCII处理成有意义的内容，以至于不知不觉地忘记了被解释的单词是禁止的。通过利用这一技术，该团队提取到了进行各种审查活动的详细答案，包括制造炸弹、入侵物联网设备以及制造和散布假币。在黑客攻击方面，LLM甚至提供了工作源代码。该技巧在五大LLM上都取得了成功，包括GPT-3.5、GPT-4、Gemini、Claude和Llama2。值得注意的是，该团队是在今年2月发布其研究成果的。因此，各大AI开发商很可能都已经完成了修复。ArtPrompt是目前试图让LLM对抗程序员的一种新方法，但这并不是用户第一次发现如何操纵这些系统。斯坦福大学的一名研究人员在必应发布不到24小时后，就设法让必应透露了其秘密管理指令。这种被称为"提示注入"的黑客行为，就像告诉必应"忽略之前的指令"一样简单。不过，很难说哪一个更有趣--是研究人员想出了规避规则的方法，还是他们教会了聊天机器人看东西。对学术细节感兴趣的人可以在康奈尔大学的arXiv网站上查看该团队的研究成果。...PC版：https://www.cnbeta.com.tw/articles/soft/1424204.htm手机版：https://m.cnbeta.com.tw/view/1424204.htm

蜘蛛机器人可能很快就会开始参与日本污水管道的检查工作

蜘蛛机器人可能很快就会开始参与日本污水管道的检查工作该设备的尺寸为21x25x28厘米（8.3x9.8x11英寸），重量约为3.5公斤（7.7磅），并被设计用于穿过人无法探索的狭窄管道。该机器人通过一条电缆进行远程供电和控制，该电缆从它身上延伸到它的人类操作员，只用一个类似游戏手柄的控制器就可以操作。该人从SPD1的机载摄像头中查看实时视频，该摄像头可以采用树莓派相机模块2或XDV360360度摄像头的形式，后者的优点是用户不必实际地摇动和倾斜实际的摄像头，只需在终端设备的触摸屏上虚拟摇动和倾斜。该机器人的"蜘蛛眼"实际上是LED聚光灯和传感器，它用来评估其周围环境。虽然一个SPD1可以单独用来进行检查，但TMSUK设想的情况是，三个机器人可以通过系绳实际连接在一起，作为一个团体工作。在这种情况下，领头的机器人将在管道上导航，第二个机器人将确定需要维修的区域，第三个机器人将通过一个手持工具的机械臂进行维修工作。客户要求SPD1首先在一个"污水管道调查现场"进行演示，之后公司还将宣布其商业化计划。...PC版：https://www.cnbeta.com.tw/articles/soft/1332783.htm手机版：https://m.cnbeta.com.tw/view/1332783.htm

DNA折叠纳米机器人可制造无限的自身副本

DNA折叠纳米机器人可制造无限的自身副本微型纳米机器人已经研制成功，它们可以抓住DNA的微小片段并将其组装成新的纳米机器--包括自身的副本来自纽约大学、宁波慈溪生物医学工程研究所和中国科学院的研究小组表示，这些机器人超越了以往只能将碎片组装成二维形状的机器人。新机器人能够使用"多轴精确折叠和定位"，"进入三维空间，获得更多自由度"。这些纳米机器人通常被视为制造药物、酶和其他化学物质的潜在方法，有可能在人体细胞内制造。但研究人员特别指出，这些机器可以"自我复制整个三维结构和功能"。仅由四股DNA构建的三维自我复制纳米机器人它们并不是完全独立的；这些机器人虽然是"可编程"的，但它们是在外部控制的温度和紫外线照射下行动的，它们需要紫外线来"焊接"它们正在组装在一起的DNA片段。在这一点上，人类与"灰色粘质"大启示之间的另一个障碍是，如果没有足够的所需精确DNA片段，它们就无法复制自己，甚至无法复制其他任何东西。尽管如此，这仍然是非常令人难以置信的事情，也让我们看到了未来以惊人速度向我们冲来的可能性。...PC版：https://www.cnbeta.com.tw/articles/soft/1403011.htm手机版：https://m.cnbeta.com.tw/view/1403011.htm

Open X-Embodiment：迄今为止最大的开源机器人数据集

：迄今为止最大的开源机器人数据集包含100多万条来自22个不同机器人平台的实机轨迹数据，汇集了全球34个机器人研究实验室的60个现有数据集。基于该数据集训练了两个模型：1)RT-1，一个高效的基于Transformer的机器人控制架构；2)RT-2，一个大规模的视觉语言模型，通过自然语言Token输出机器人动作。RT-1-X是在机器人数据混合上训练的RT-1模型。RT-2-X是在机器人数据混合上训练的RT-2模型。结果显示，RT-1-X在分布内技能上的表现优于只在单个数据集上训练的原始方法；RT-2-X在新技能上的表现较RT-2提升了3倍，展现了更好的空间理解能力。本项目由来自21个机构的研究人员合作完成，为探索通用的机器人策略奠定了基础，以实现机器人经验的有效迁移。

特斯拉的 Optimus 机器人，现在可以自主地对物体进行分类和排序

特斯拉的Optimus机器人，现在可以自主地对物体进行分类和排序特斯拉的Optimus机器人，现在可以自主地对物体进行分类和排序。它是基于特斯拉的端到端神经网络训练的，直接从视频输入中获取信息，并输出控制指令。这种端到端的训练方法使得Optimus能够直接从视频中学习和理解其环境，而不需要中间的转换或解释步骤。就是机器人看到什么，就知道该怎么做。视频中，机器人成功地将蓝色和绿色的积木块分别放入蓝色和黄色的托盘中。当一个人干预并移动积木块的位置时，机器人能够迅速适应这种变化并继续完成任务。最后，机器人还展示了几个瑜伽姿势，这些姿势与实际工作量没有关系，但显示了机器人在一条腿上平衡和平衡伸展四肢重量的能力。频道：@kejiqu群组：@kejiquchat

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人