Learning Realistic Expressions for Humanoid Face Robots(第一作者,撰写中,目标 ICRA 2026)——它是一篇具体的工作,但我更愿意把它读成一个「表情世界模型」的雏形——给这张脸造一个「虚拟世界」,让它在里面反复试错、在「梦」里学习;而世界模型最大的价值,不在于把视频预测得多逼真,而在于服务策略:给它训练数据、做评测、突破物理限制。
仿人面部机器人长期卡在一个两难上:表情要么像机器(物理上做得出,却僵硬),要么为了逼真把舵机推出安全包络,甚至磨损硬件。 我的切入点是把人脸的身份(这张脸长什么样)与动作(它在做什么)拆成两条互不干扰的潜表示, 只在「动作」这一条上做生成——身份保持不动,变化的只是表情本身。这样自然得到一个很有用的性质:同一套动作潜表示, 既能渲染回视频用作自监督训练,也能直接映射成舵机指令去驱动真机——它同时充当「感知」与「控制」的接口, 把「看起来像」和「做得出」收束到同一处。而「能渲染回视频」这一半,本身就是一台预测动作后果的小型世界模型—— 系统不必每次都动真脸,就能在潜空间里先看清一个表情做出来会是什么样。这正是后文 §03 想沿着放大的那条线。 目前已能由文本、音频与情绪驱动,生成可落到真实舵机的可控表情。
▲ 当前原型:文本 + 音频 + 情绪驱动的口型与表情,由解耦 + 流匹配训练,可落到真实舵机。 若视频无法播放,点此直接打开。
| 工作 | 角色 | 状态 |
|---|---|---|
| Learning Realistic Expressions for Humanoid Face Robots | 第一作者 | 撰写中 · ICRA 2026 |
| Visuo-Tactile Latent World Models | 第一作者 | 撰写中 · ICRA 2026 |
| Learning to Search, Searching to Learn (LSL) | 第一作者 | 投稿 · NeurIPS 2026 |
| TouchSteer: Grounding Language in Tactile Perception | 导师一作 · 本人共著 | 投稿 · IEEE T-RL |
| Dynamic S-boxes for Image Encryption | 合著 | 已发表 · Nonlinear Dynamics 2024 (Q1) |
| 法律大模型助手(西南政法大学 · 朝行天下) | 主导研发 | 产业项目 · 重庆机器人研究院 |
| 高危粉末炸药封装质检系统(陕西北方民爆) | 主导研发 | 已部署 · 产线 30 天、≥99% |
方向:我想做的,是一个会自我改进的情感交互系统,并以仿生表情机器人作为它的第一个载体。具身智能这几年正收敛出一个共识:一个能持续变强的系统,至少要有三个部件——Agent(读懂人、决定该表达什么)、World Model(预测这张脸会怎么动、人会如何回应)、Policy(生成连续表情并映射为舵机指令)。其中 World Model 既是预测「动作后果」的转移函数,也是让整条回路能在虚拟世界里低成本、安全地试错的那台模拟器。我的路线是先把三者分别做扎实,再把它们闭合成一条能自我改进的闭环——Agent 评估人的反应、Policy 据此改进表达、World Model 推演后果,如此往复;最终或将三者统一为一个模型。
读对方的表情、注意力、生理信号与话语,输出情绪 / 意图 / 注视等高层指令。
↳ 实验室在情感与认知计算上长于「读人」——表情识别、注意力与生理信号监测,恰是 Agent 判断「该表达什么」的感知输入,可作为本闭环上游直接接入。decoder 渲染预测人脸,并把人的真实反应纳入预测,得到可优化的反馈。
↳ 我做过视觉-触觉潜空间世界模型(一作,拟投 ICRA 2026):把视觉与触觉联合编码进共享潜空间、并在其中推演未来状态,引入触觉通道同时提升了状态预测精度与下游任务成功率,让策略能在学到的模型内部试错——正是这台脸所需的「在 World Model 里安全练习」能力。流匹配在动作 latent 上由条件驱动,生成连续表情并映射成舵机指令。
↳ 我们的工作已经跑通《Learning Realistic Expressions for Humanoid Face Robots》。选面部机器人入手,是因为它有一个结构性便利:策略与世界模型可以共享同一条动作潜表示,三个角色天然坍缩到同一片潜空间—— 于是「统一模型 + 自改进」这件在通用机器人上仍遥远的事,有望先在一张脸上跑通一个完整版本。它反馈密集、动作有界,且关键训练可放进世界模型的仿真里安全完成。
为什么核心是一个「表情世界模型」。具身智能这几年的一个共识是:单靠模仿与监督学习,触不到能力的上限——要继续变强,就得让模型在自己的搜索与试错中发现更好的行为、再学回来(这也呼应《苦涩的教训》:能随算力持续扩展的两类方法,正是学习与搜索)。难点在于,在物理世界里搜索代价极高、甚至危险:对一台硅胶仿生面部,成千上万次真机试错足以把脸牵拉到撕裂、老化。
出路是把试错搬进一个学好的表情世界模型——给定当前状态与一个表情动作,它预测这张脸接下来会怎么动、以及人会如何回应。说得形象些,就是给这张脸造一个「虚拟世界」,让它在「梦」里反复练习表情,而不必每次都动真机。这样的模型本质上是一台可替代真机的模拟器:安全(一切发生在虚拟里)、可复现(随时重置到任意状态)、可扩展(能并行成千上万次试错)。
这里要点破一层容易被误解的事:世界模型最大的价值并不在于把视频预测得多逼真,而在于服务策略——给策略提供近乎无限的训练数据、充当一台随时可用的评测台、并替它突破真机的物理限制。预测视频只是手段,把策略练强才是目的。于是策略主要在世界模型内部做强化学习与自改进,真机只在少量关键节点验证;而世界模型也无需模拟一切,只需兜住策略真正会用到的那部分表情分布——动作空间本就有界,且随策略成熟而收窄,因而可学、可用。
为什么必须是强化学习,而不是模仿。同一个表情,换一张脸效果就不一样:不同脸型、硅胶弹性与舵机布局下,哪怕是同一组「微笑」指令,在 A 脸上是温暖的笑,到 B 脸上可能僵硬、甚至诡异——靠模仿一个通用参考表情,无法迁移到具体某一张脸,每张脸都得学到「适合它自己的那套动作」。这正像演员对着镜子练表情:做一个、看镜子里的效果、再微调。把镜子换成表情世界模型、把「微调」换成强化学习,这台脸就能在反复「照镜子」中,真正学到适合自己这张脸的自然表达——这是单靠模仿给不了的。
希望可以和王老师与团队一起,把这个方向定义成实验室的一条长期主线。具体需要的,是参与感与判断多于物质:
接入(或与团队共建)实验室的情感机器人平台、多模态人感知模块与真实 HRI 场景:一台可驱动的仿生面部硬件、表情识别 / 注意力 / 生理信号的采集通道,以及能让机器人与真人对话、采集「人的真实反应」的实验环境——这是把闭环真正「闭上」的物理前提。
希望由王老师为方向定调:Agent / World Model / Policy 三个子问题先攻哪个、统一模型与模块化之间的边界划在哪、哪些指标算作里程碑。也希望把实时推理、算子与部署这条系统线,与实验室的系统结构 / 可重构平台做一次真正的软硬件协同设计——这是需要王老师把控的地方
「什么样的表情对人才算自然、有效、可信」是情感计算与 HRI 的专业判断,也决定了这条闭环的「奖励」从何而来。我希望借助实验室在表情、注意力与生理信号上的积累,和团队一起把这种判断变成一个可量化、可优化的反馈信号,再让策略据此自我改进。
一个能一起讨论、能动手的团队,以及把世界模型与策略训起来、部署到面部硬件上的算力。