FWQ
AI的真正威力:智能机器
虽然每个人都继续专注于 AI 写论文和创作艺术,但真正的革命正在表面之下发生——在机器人技术中。人工智能机器已经进入工厂、杂货店、仓库、医院和家庭。 让机器人真正智能是 AI 的下一个主要前沿。这不仅仅是将LLM交给一组人形或狗形的螺丝和废金属——它涉及物理、感知、控制和决策,即使在看不见或不确定的条件下也是如此。 运动是人类认为理所当然的事情,但对于机器来说却异常复杂。与处理静态文本的 AI 模型不同,机器人必须实时运行,对动态世界的变化做出反应。多年来,我们一直让机器人在自己的房间或工厂中独自工作,但让机器人与人类一起工作或在不受控制的环境中工作要困难得多。它们必须首先通过传感器(LiDAR、摄像头和 IMU)感知环境,然后准确解释这些数据,通常在信息不完整时做出推断。感知的难度延伸到路线规划、物体检测和深度估计等基本任务,即使是很小的计算错误也可能造成灾难性的后果。 来源: (Elijs Dima) 更不用说图像根本没有深度所需的信息,因为它是 3D 世界的 2D 投影。如果没有足够的线索,如阴影、纹理渐变、遮挡或立体视觉,就无法直接从单个图像推断出深度。随着深度神经网络的出现,让计算机以某种方式看待世界是一项艰巨的任务,研究人员花了几十年的时间才发现这一点。 一旦机器人建立了周围环境的模型,它就面临着控制的挑战——如何与世界互动。无论机器人是在组装微芯片还是移动仓库库存,精度和适应性都至关重要。然而,控制不仅仅是执行编程的动作;它需要对意外情况做出反应。物体会不可预测地滑动、变形或移动,迫使人工智能驱动的操纵模型实时调整。在复杂的环境中,运动规划变得越来越困难,因为机器人必须躲避移动的障碍物或与人类工人协调。与人类不同,机器人在泛化方面很吃力;一个被训练来处理咖啡杯的模型在面对酒杯或香蕉时可能会失败。迁移学习仍然是一个重大障碍,而知与行之间的差距仍然是当今机器人技术中最艰难的前沿之一。多年来,我们在某些特定领域开发了特别强大的模型,但仍然面临着集成和泛化的挑战。 除了抓取困难之外——接下来会发生什么?人类可以看一眼刀,根据情况立即知道它是用来切蔬菜、打开包裹还是涂抹黄油。然而,机器人需要明确的训练才能识别物体的功能以及如何在上下文中正确地与其交互。目前,多模态人工智能正被用于将物体识别与上下文配对,以便它们可以动态调整方法。然而,许多模型仍然依靠预编程或预训练的启发式方法运行。机器人感知的另一个基本问题不仅是识别物体,还包括语义理解——对它们的目的和交互动态的理解。 或者,在控制较少的环境中与人类一起工作时,如何使用该物体?如今,大多数人工智能机器人都是孤立运行的。无论是在配送仓库还是在自动驾驶测试轨道上,它们都针对受控环境进行了优化,以最大限度地减少人类的不可预测性。但要让机器人真正融入日常生活,它们不仅必须感知和行动,还必须实时解读人类的意图。例如,想象一个机器人在餐厅厨房工作。如果人类厨师伸手去拿机器人即将抓起的平底锅,机器人必须立即识别优先级的变化并改变路线。人工智能驱动的人形机器人必须在交流并不总是口头或清晰的环境中处理隐含的社会等级、基于手势的线索和语音语调。这不是一件容易的事。传统的基于规则的方法在这里失败了,因为它们缺乏适应性。相反,人们正在探索强化学习与人类反馈 (RLHF),以帮助机器人更好地驾驭协作空间。 尽管面临这些挑战和更多挑战,人工智能正在将机器人技术推向一个新时代,机器正在学习在非结构化环境中运行环境中,灵活地操纵物体,并在不可预测的条件下做出瞬间决策。在人形机器人领域,强化学习正在帮助特斯拉的 Optimus 和 Figure AI 的机器人改进其运动和操纵能力。这个想法是,机器人将被放进世界,根据奖励和惩罚自行学习物理、运动和控制。换句话说,就像人类儿童学习与世界互动的方式一样。…