...

Why Nostr? What is Njump? Join Nostr

npub1sx…jszwk

2026-04-20 11:47:09 UTC

李飞飞博士解释了为何日常家务对机器人来说难度极高，以及具体难在何处。

“如果你让机器人打开最上层的抽屉，并且小心别碰到花瓶，这对机器人而言其实是一项非常艰巨的任务。”

原因在于机器人必须将语言指令与现实世界对应起来。“上层”“抽屉”“花瓶”这类词汇都是抽象概念，系统需要在复杂多变的场景中，把它们映射到三维空间位置、具体物体以及相互关系上。这就要求机器人具备可靠的感知能力、物体识别能力，以及在不确定环境下的空间推理能力。

同时，机器人也不具备人类的常识。“小心”意味着要预判行为后果、估算空间间隙，并且明白花瓶是易碎物品。如果没有丰富的世界知识作为支撑，想要把这类先验常识——比如抽屉有多重、花瓶可能会倾倒——编码进系统，是极为复杂和困难的。

通过奖励机制学习行为模式也十分困难。这类任务的成功反馈信号非常稀疏，单纯的随机试探几乎不可能完整完成整套正确操作。这会导致策略学习的样本效率极低，且系统稳定性差，尤其是在训练环境与实际应用环境存在差异时。

所谓稀疏奖励场景，是指智能体只有在任务最终完成时才能获得成功反馈，过程中几乎没有任何中间奖励。如果机器人需要打开抽屉且不碰倒花瓶，那么只有在抽屉成功打开、花瓶完好无损的情况下，它才能获得奖励；在此之前的每一次尝试，对学习系统而言都没有区别，奖励值均为0。

Author Public Key

npub1sxgnpqfyd5vjexj4j5tsgfc826ezyz2ywze3w8jchd0rcshw3k6svjszwk

Show more details

Published at

2026-04-20 11:47:09 UTC

Kind type

1 Short Text Note

Event JSON

{ "id": "699ed3d7e93b9fafb74720b306cc1227d2daec1710727a362e28b8f424574bd3", "pubkey": "81913081246d192c9a55951704270756b222094470b3171e58bb5e3c42ee8db5", "created_at": 1776685629, "kind": 1, "tags": [ [ "alt", "A short note: 李飞飞博士解释了为何日常家务对机器人来说难度极高，以及具体难在何处。\n\n“如果你让机器人打开最上层的..." ], [ "r", "https://通过奖励机制学习行为模式也十分困难。这类任务的成功反馈信号非常稀疏，单纯的随机试探几乎不可能完整完成整套正确操作。这会导致策略学习的样本效率极低，且系统稳定性差，尤其是在训练环境与实际应用环境存在差异时/" ], [ "r", "https://同时，机器人也不具备人类的常识。“小心”意味着要预判行为后果、估算空间间隙，并且明白花瓶是易碎物品。如果没有丰富的世界知识作为支撑，想要把这类先验常识——比如抽屉有多重、花瓶可能会倾倒——编码进系统，是极为复杂和困难的/" ], [ "r", "https://原因在于机器人必须将语言指令与现实世界对应起来。“上层”“抽屉”“花瓶”这类词汇都是抽象概念，系统需要在复杂多变的场景中，把它们映射到三维空间位置、具体物体以及相互关系上。这就要求机器人具备可靠的感知能力、物体识别能力，以及在不确定环境下的空间推理能力/" ], [ "r", "https://所谓稀疏奖励场景，是指智能体只有在任务最终完成时才能获得成功反馈，过程中几乎没有任何中间奖励。如果机器人需要打开抽屉且不碰倒花瓶，那么只有在抽屉成功打开、花瓶完好无损的情况下，它才能获得奖励；在此之前的每一次尝试，对学习系统而言都没有区别，奖励值均为/" ], [ "client", "Amethyst" ] ], "content": "李飞飞博士解释了为何日常家务对机器人来说难度极高，以及具体难在何处。\n\n“如果你让机器人打开最上层的抽屉，并且小心别碰到花瓶，这对机器人而言其实是一项非常艰巨的任务。”\n\n原因在于机器人必须将语言指令与现实世界对应起来。“上层”“抽屉”“花瓶”这类词汇都是抽象概念，系统需要在复杂多变的场景中，把它们映射到三维空间位置、具体物体以及相互关系上。这就要求机器人具备可靠的感知能力、物体识别能力，以及在不确定环境下的空间推理能力。\n\n同时，机器人也不具备人类的常识。“小心”意味着要预判行为后果、估算空间间隙，并且明白花瓶是易碎物品。如果没有丰富的世界知识作为支撑，想要把这类先验常识——比如抽屉有多重、花瓶可能会倾倒——编码进系统，是极为复杂和困难的。\n\n通过奖励机制学习行为模式也十分困难。这类任务的成功反馈信号非常稀疏，单纯的随机试探几乎不可能完整完成整套正确操作。这会导致策略学习的样本效率极低，且系统稳定性差，尤其是在训练环境与实际应用环境存在差异时。\n\n所谓稀疏奖励场景，是指智能体只有在任务最终完成时才能获得成功反馈，过程中几乎没有任何中间奖励。如果机器人需要打开抽屉且不碰倒花瓶，那么只有在抽屉成功打开、花瓶完好无损的情况下，它才能获得奖励；在此之前的每一次尝试，对学习系统而言都没有区别，奖励值均为0。", "sig": "50eb4cd99126cb3735a9bb7498dbd9f5494b4da832ec24b41ad55db2225e7b052b2738f257a8b1a73dd404884f9426db481377f45dd006b235584bd72eeab559" }