布里斯托大学 机器人工程硕士在读(2025.09–2026.10) · 研究方向:具身与情感智能、世界模型、生成式控制
主页 fuyongji.com · 邮箱 yongji.fu7@gmail.com

01引子 ── 在研工作

Learning Realistic Expressions for Humanoid Face Robots(第一作者,撰写中,目标 ICRA 2026)——它是一篇具体的工作,但我更愿意把它读成一个「表情世界模型」的雏形——给这张脸造一个「虚拟世界」,让它在里面反复试错、在「梦」里学习;而世界模型最大的价值,不在于把视频预测得多逼真,而在于服务策略:给它训练数据、做评测、突破物理限制。

仿人面部机器人长期卡在一个两难上:表情要么像机器(物理上做得出,却僵硬),要么为了逼真把舵机推出安全包络,甚至磨损硬件。 我的切入点是把人脸的身份(这张脸长什么样)与动作(它在做什么)拆成两条互不干扰的潜表示, 只在「动作」这一条上做生成——身份保持不动,变化的只是表情本身。这样自然得到一个很有用的性质:同一套动作潜表示, 既能渲染回视频用作自监督训练,也能直接映射成舵机指令去驱动真机——它同时充当「感知」与「控制」的接口, 把「看起来像」和「做得出」收束到同一处。而「能渲染回视频」这一半,本身就是一台预测动作后果的小型世界模型—— 系统不必每次都动真脸,就能在潜空间里先看清一个表情做出来会是什么样。这正是后文 §03 想沿着放大的那条线。 目前已能由文本、音频与情绪驱动,生成可落到真实舵机的可控表情。

▲ 当前原型:文本 + 音频 + 情绪驱动的口型与表情,由解耦 + 流匹配训练,可落到真实舵机。  若视频无法播放,点此直接打开

02优势汇总

工作角色状态
Learning Realistic Expressions for Humanoid Face Robots第一作者撰写中 · ICRA 2026
Visuo-Tactile Latent World Models第一作者撰写中 · ICRA 2026
Learning to Search, Searching to Learn (LSL)第一作者投稿 · NeurIPS 2026
TouchSteer: Grounding Language in Tactile Perception导师一作 · 本人共著投稿 · IEEE T-RL
Dynamic S-boxes for Image Encryption合著已发表 · Nonlinear Dynamics 2024 (Q1)
法律大模型助手(西南政法大学 · 朝行天下)主导研发产业项目 · 重庆机器人研究院
高危粉末炸药封装质检系统(陕西北方民爆)主导研发已部署 · 产线 30 天、≥99%

03想聚焦的方向 · 期待的成果

方向:我想做的,是一个会自我改进的情感交互系统,并以仿生表情机器人作为它的第一个载体。具身智能这几年正收敛出一个共识:一个能持续变强的系统,至少要有三个部件——Agent(读懂人、决定该表达什么)、World Model(预测这张脸会怎么动、人会如何回应)、Policy(生成连续表情并映射为舵机指令)。其中 World Model 既是预测「动作后果」的转移函数,也是让整条回路能在虚拟世界里低成本、安全地试错的那台模拟器。我的路线是先把三者分别做扎实,再把它们闭合成一条能自我改进的闭环——Agent 评估人的反应、Policy 据此改进表达、World Model 推演后果,如此往复;最终或将三者统一为一个模型。

Agent · 读人 决定「该表达什么」

读对方的表情、注意力、生理信号与话语,输出情绪 / 意图 / 注视等高层指令。

↳ 实验室在情感与认知计算上长于「读人」——表情识别、注意力与生理信号监测,恰是 Agent 判断「该表达什么」的感知输入,可作为本闭环上游直接接入。
World Model · 预测 预测「脸会怎么动、人会怎么回应」

decoder 渲染预测人脸,并把人的真实反应纳入预测,得到可优化的反馈。

↳ 我做过视觉-触觉潜空间世界模型(一作,拟投 ICRA 2026):把视觉与触觉联合编码进共享潜空间、并在其中推演未来状态,引入触觉通道同时提升了状态预测精度与下游任务成功率,让策略能在学到的模型内部试错——正是这台脸所需的「在 World Model 里安全练习」能力。
Policy · 表达 生成连续的脸部动作

流匹配在动作 latent 上由条件驱动,生成连续表情并映射成舵机指令。

↳ 我们的工作已经跑通《Learning Realistic Expressions for Humanoid Face Robots》。
把 Agent · World Model · Policy 落到一台脸上 自我改进闭环 表达 · 观察 · 改进 情绪 · 意图 · 注视 动作 latent · 舵机动作 预测人脸 + 人的反应 Agent 读人 · 决策 World Model 渲染 · 预测反应 Policy 表达 · 出动作
三个角色共享同一条动作 latent(decoder 既是渲染器又是预测器),于是天然坍缩为一个模型。

选面部机器人入手,是因为它有一个结构性便利:策略与世界模型可以共享同一条动作潜表示,三个角色天然坍缩到同一片潜空间—— 于是「统一模型 + 自改进」这件在通用机器人上仍遥远的事,有望先在一张脸上跑通一个完整版本。它反馈密集、动作有界,且关键训练可放进世界模型的仿真里安全完成。

为什么核心是一个「表情世界模型」。具身智能这几年的一个共识是:单靠模仿与监督学习,触不到能力的上限——要继续变强,就得让模型在自己的搜索与试错中发现更好的行为、再学回来(这也呼应《苦涩的教训》:能随算力持续扩展的两类方法,正是学习与搜索)。难点在于,在物理世界里搜索代价极高、甚至危险:对一台硅胶仿生面部,成千上万次真机试错足以把脸牵拉到撕裂、老化。

出路是把试错搬进一个学好的表情世界模型——给定当前状态与一个表情动作,它预测这张脸接下来会怎么动、以及人会如何回应。说得形象些,就是给这张脸造一个「虚拟世界」,让它在「梦」里反复练习表情,而不必每次都动真机。这样的模型本质上是一台可替代真机的模拟器:安全(一切发生在虚拟里)、可复现(随时重置到任意状态)、可扩展(能并行成千上万次试错)。

这里要点破一层容易被误解的事:世界模型最大的价值并不在于把视频预测得多逼真,而在于服务策略——给策略提供近乎无限的训练数据、充当一台随时可用的评测台、并替它突破真机的物理限制。预测视频只是手段,把策略练强才是目的。于是策略主要在世界模型内部做强化学习与自改进,真机只在少量关键节点验证;而世界模型也无需模拟一切,只需兜住策略真正会用到的那部分表情分布——动作空间本就有界,且随策略成熟而收窄,因而可学、可用。

为什么必须是强化学习,而不是模仿。同一个表情,换一张脸效果就不一样:不同脸型、硅胶弹性与舵机布局下,哪怕是同一组「微笑」指令,在 A 脸上是温暖的笑,到 B 脸上可能僵硬、甚至诡异——靠模仿一个通用参考表情,无法迁移到具体某一张脸,每张脸都得学到「适合它自己的那套动作」。这正像演员对着镜子练表情:做一个、看镜子里的效果、再微调。把镜子换成表情世界模型、把「微调」换成强化学习,这台脸就能在反复「照镜子」中,真正学到适合自己这张脸的自然表达——这是单靠模仿给不了的。

第 1 年单台面部机器人端到端可控(音频 / 情绪 / 注视),接外部 VLM 作 Agent 做开放式对话演示;完成 ICRA 这篇工作。
第 2–3 年把强化学习放进世界模型的仿真里(避免损伤真机),闭合「反馈 → 改进」,首次正面证明这条闭环有用。目标 IROS / CoRL / RSS。
第 4–5 年三者统一为一个模型,验证跨身份 / 跨硬件泛化,并探索推广到需真实物理接触的人形机器人——支撑博士论文级贡献。

04为什么我有优势

为什么我有优势

  • 不是从零起步。我带着一台已经会做表情的舵机面部 + 一篇在研一作(ICRA 2026)而来,方向能立刻往前推,而不是从一个「感兴趣」的想法开始搭。
  • 稀缺的能力组合,正好卡在这个问题的瓶颈上。仿生表情 + 统一模型同时需要三样东西:生成模型方法(解耦 + 流匹配)、把模型实时跑上脆弱硬件的系统工程、世界模型 / 自改进闭环的经验——这三样我都有真实佐证,而多数人只占其一。
  • 工程能力。让生成模型在硬件上实时、稳定地跑(CUDA / TensorRT / 算子 / 显存),纯算法或纯 HCI 背景往往做不动,却是落地的关键;这也意味着我能自驱地把开放课题从方向收敛到系统与论文。

对王老师的价值

  • 一个可连续产出的方向。Agent · World Model · Policy 在面部机器人上的统一与自改进,是一条能连续产出(ICRA / IROS / CoRL / RSS)、又天然与系统结构结合的主线,并可能沉淀为实验室的一个长期方向。
  • 把系统结构的优势接到一个真实落地点上。「让生成模型在机器人上实时、稳定地跑」(CUDA / TensorRT / 算子 / 显存 / 软硬件协同)正是实验室系统结构背景比较缺乏的能力——我能做模型与系统的协同设计。
  • 一个自驱、可外溢的学生。能从方向 → 系统 → 论文自己跑通主干;我的全栈工程与 Agent 科研工作流也能帮助团队,提升迭代速度。

05我需要的支持

希望可以和王老师与团队一起,把这个方向定义成实验室的一条长期主线。具体需要的,是参与感与判断多于物质:

平台与场景

接入(或与团队共建)实验室的情感机器人平台、多模态人感知模块与真实 HRI 场景:一台可驱动的仿生面部硬件、表情识别 / 注意力 / 生理信号的采集通道,以及能让机器人与真人对话、采集「人的真实反应」的实验环境——这是把闭环真正「闭上」的物理前提。

方向把舵

希望由王老师为方向定调:Agent / World Model / Policy 三个子问题先攻哪个、统一模型与模块化之间的边界划在哪、哪些指标算作里程碑。也希望把实时推理、算子与部署这条系统线,与实验室的系统结构 / 可重构平台做一次真正的软硬件协同设计——这是需要王老师把控的地方

评测判断

「什么样的表情对人才算自然、有效、可信」是情感计算与 HRI 的专业判断,也决定了这条闭环的「奖励」从何而来。我希望借助实验室在表情、注意力与生理信号上的积累,和团队一起把这种判断变成一个可量化、可优化的反馈信号,再让策略据此自我改进。

团队与算力

一个能一起讨论、能动手的团队,以及把世界模型与策略训起来、部署到面部硬件上的算力。