符永骥 · 一页说明 ── 拟申请王韬教授（北京大学）

布里斯托大学 机器人工程硕士在读（2025.09–2026.10）　·　研究方向：具身与情感智能、世界模型、生成式控制
主页 fuyongji.com　·　邮箱 yongji.fu7@gmail.com

01引子 ── 在研工作

Learning Realistic Expressions for Humanoid Face Robots（第一作者，撰写中，目标 ICRA 2026）——它是一篇具体的工作，但我更愿意把它读成一个「表情世界模型」的雏形——给这张脸造一个「虚拟世界」，让它在里面反复试错、在「梦」里学习；而世界模型最大的价值，不在于把视频预测得多逼真，而在于服务策略：给它训练数据、做评测、突破物理限制。

仿人面部机器人长期卡在一个两难上：表情要么像机器（物理上做得出，却僵硬），要么为了逼真把舵机推出安全包络，甚至磨损硬件。我的切入点是把人脸的身份（这张脸长什么样）与动作（它在做什么）拆成两条互不干扰的潜表示，只在「动作」这一条上做生成——身份保持不动，变化的只是表情本身。这样自然得到一个很有用的性质：同一套动作潜表示，既能渲染回视频用作自监督训练，也能直接映射成舵机指令去驱动真机——它同时充当「感知」与「控制」的接口，把「看起来像」和「做得出」收束到同一处。而「能渲染回视频」这一半，本身就是一台预测动作后果的小型世界模型—— 系统不必每次都动真脸，就能在潜空间里先看清一个表情做出来会是什么样。这正是后文 §03 想沿着放大的那条线。目前已能由文本、音频与情绪驱动，生成可落到真实舵机的可控表情。

▲ 当前原型：文本 + 音频 + 情绪驱动的口型与表情，由解耦 + 流匹配训练，可落到真实舵机。　若视频无法播放，点此直接打开。

02优势汇总

工作	角色	状态
Learning Realistic Expressions for Humanoid Face Robots	第一作者	撰写中 · ICRA 2026
Visuo-Tactile Latent World Models	第一作者	撰写中 · ICRA 2026
Learning to Search, Searching to Learn (LSL)	第一作者	投稿 · NeurIPS 2026
TouchSteer: Grounding Language in Tactile Perception	导师一作 · 本人共著	投稿 · IEEE T-RL
Dynamic S-boxes for Image Encryption	合著	已发表 · Nonlinear Dynamics 2024 (Q1)
法律大模型助手（西南政法大学 · 朝行天下）	主导研发	产业项目 · 重庆机器人研究院
高危粉末炸药封装质检系统（陕西北方民爆）	主导研发	已部署 · 产线 30 天、≥99%

1 · 第一性原理驱动的研究能力我习惯从问题本质出发 ── 先判断「这个方向真正的需求是什么、核心瓶颈在哪、现有方法为什么不够」，再围绕关键矛盾设计方案，而不是沿已有方法做表面增量。学习-搜索闭环 LSL（一作，投 NeurIPS 2026）面向大规模车辆路径问题：我没有再去微调一个既有 VRP 求解器，而是先指出现有「神经组合优化 + 搜索」范式的根因——搜索只被当成一次性后处理、与模型彼此割裂；于是把它重构成一条闭环，让学习告诉搜索去哪里探索、搜索告诉模型哪些结构值得学习，在推理与训练两端形成持续反馈。
2 · 强工程实现 · 系统构建 · 效率优化我不仅关注方法，更重视能否把想法落成稳定、可运行、可扩展的系统：代码实现、系统集成、调试部署，以及算子优化、显存效率、推理速度、实验吞吐。在 AI 辅助科研日益普遍的今天，这种「从算法到系统、从原型到高效实现」的能力，直接决定迭代速度与方法能否落地。在重庆机器人研究院主导的高危粉末炸药包装流水线封装质检系统（与陕西北方民爆集团合作）：面对光照漂移、缝隙细小、运动模糊与传送带不规则抖动等恶劣条件，我做了检测—分割双任务网络 + 多帧融合 + 缓冲式 Cython 规则层，并用结构重参数化让部署图收敛为简单卷积堆叠；最后以 TensorRT 部署到客户现场的 RTX 4060，把推理从 4 FPS 提到 15 FPS（约 3.75×），系统在真实生产环境连续运行 30 天、准确率 ≥ 99%。技术栈 C++ / CUDA / TensorRT / Triton。
3 · 「加法 + 减法」的科研迭代能力先用「加法」整合可能有效的模块与工程优化，把系统性能推到较高水平；再用「减法」和消融实验拆解系统、识别真正起作用的核心组件，避免盲目堆叠。面部表情工作（一作，拟投 ICRA 2026）就是一次完整的加减法：先做「加法」——整合VAE、流匹配生成、音频与情绪条件、舵机重定向等模块，把可控表情先跑通；再做「减法」——用消融把「身份 ⊥ 动作」解耦确认为真正起作用的核心，剥掉这一无关变量后，动作潜空间变干净，既能渲染回视频做自监督、也能稳定映射成舵机指令。
4 · 熟悉 AI / Agent 辅助科研工作流我把 AI 与 Agent 工具融进完整科研流程：文献调研、信息检索、idea 讨论、代码生成、实验分析、debug、结果复盘与迭代回滚 ── 关注的不是「用 AI 写代码」，而是如何用它提高研究效率与问题分析深度。我自建并开源了覆盖完整科研生命周期的多 Agent 框架 ARIS（Auto-claude-code-research-in-sleep）：以 Claude Code 作执行器、另一个独立大模型作评审，用「对抗式多 Agent 协作」把文献调研、idea 生成与验证、GPU 实验、自动评审—修正循环、论文撰写到 rebuttal 串成一条流水线，可在无人值守时整夜自动跑实验并迭代；内置 DBLP/CrossRef 引用核对防幻觉、跨会话研究 Wiki 积累，由 78+ 个 Markdown 技能模块编排（主页 fuyongji.com 亦由这套体系搭建与维护）。工程上也真正落过 Agent——见上表「法律大模型助手」。

03想聚焦的方向 · 期待的成果

方向：我想做的，是一个会自我改进的情感交互系统，并以仿生表情机器人作为它的第一个载体。具身智能这几年正收敛出一个共识：一个能持续变强的系统，至少要有三个部件——Agent（读懂人、决定该表达什么）、World Model（预测这张脸会怎么动、人会如何回应）、Policy（生成连续表情并映射为舵机指令）。其中 World Model 既是预测「动作后果」的转移函数，也是让整条回路能在虚拟世界里低成本、安全地试错的那台模拟器。我的路线是先把三者分别做扎实，再把它们闭合成一条能自我改进的闭环——Agent 评估人的反应、Policy 据此改进表达、World Model 推演后果，如此往复；最终或将三者统一为一个模型。

Agent · 读人决定「该表达什么」

读对方的表情、注意力、生理信号与话语，输出情绪 / 意图 / 注视等高层指令。

↳ 实验室在情感与认知计算上长于「读人」——表情识别、注意力与生理信号监测，恰是 Agent 判断「该表达什么」的感知输入，可作为本闭环上游直接接入。

World Model · 预测预测「脸会怎么动、人会怎么回应」

decoder 渲染预测人脸，并把人的真实反应纳入预测，得到可优化的反馈。

↳ 我做过视觉-触觉潜空间世界模型（一作，拟投 ICRA 2026）：把视觉与触觉联合编码进共享潜空间、并在其中推演未来状态，引入触觉通道同时提升了状态预测精度与下游任务成功率，让策略能在学到的模型内部试错——正是这台脸所需的「在 World Model 里安全练习」能力。

Policy · 表达生成连续的脸部动作

流匹配在动作 latent 上由条件驱动，生成连续表情并映射成舵机指令。

↳ 我们的工作已经跑通《Learning Realistic Expressions for Humanoid Face Robots》。

三个角色共享同一条动作 latent（decoder 既是渲染器又是预测器），于是天然坍缩为一个模型。

选面部机器人入手，是因为它有一个结构性便利：策略与世界模型可以共享同一条动作潜表示，三个角色天然坍缩到同一片潜空间—— 于是「统一模型 + 自改进」这件在通用机器人上仍遥远的事，有望先在一张脸上跑通一个完整版本。它反馈密集、动作有界，且关键训练可放进世界模型的仿真里安全完成。

为什么核心是一个「表情世界模型」。具身智能这几年的一个共识是：单靠模仿与监督学习，触不到能力的上限——要继续变强，就得让模型在自己的搜索与试错中发现更好的行为、再学回来（这也呼应《苦涩的教训》：能随算力持续扩展的两类方法，正是学习与搜索）。难点在于，在物理世界里搜索代价极高、甚至危险：对一台硅胶仿生面部，成千上万次真机试错足以把脸牵拉到撕裂、老化。

出路是把试错搬进一个学好的表情世界模型——给定当前状态与一个表情动作，它预测这张脸接下来会怎么动、以及人会如何回应。说得形象些，就是给这张脸造一个「虚拟世界」，让它在「梦」里反复练习表情，而不必每次都动真机。这样的模型本质上是一台可替代真机的模拟器：安全（一切发生在虚拟里）、可复现（随时重置到任意状态）、可扩展（能并行成千上万次试错）。

这里要点破一层容易被误解的事：世界模型最大的价值并不在于把视频预测得多逼真，而在于服务策略——给策略提供近乎无限的训练数据、充当一台随时可用的评测台、并替它突破真机的物理限制。预测视频只是手段，把策略练强才是目的。于是策略主要在世界模型内部做强化学习与自改进，真机只在少量关键节点验证；而世界模型也无需模拟一切，只需兜住策略真正会用到的那部分表情分布——动作空间本就有界，且随策略成熟而收窄，因而可学、可用。

为什么必须是强化学习，而不是模仿。同一个表情，换一张脸效果就不一样：不同脸型、硅胶弹性与舵机布局下，哪怕是同一组「微笑」指令，在 A 脸上是温暖的笑，到 B 脸上可能僵硬、甚至诡异——靠模仿一个通用参考表情，无法迁移到具体某一张脸，每张脸都得学到「适合它自己的那套动作」。这正像演员对着镜子练表情：做一个、看镜子里的效果、再微调。把镜子换成表情世界模型、把「微调」换成强化学习，这台脸就能在反复「照镜子」中，真正学到适合自己这张脸的自然表达——这是单靠模仿给不了的。

第 1 年单台面部机器人端到端可控（音频 / 情绪 / 注视），接外部 VLM 作 Agent 做开放式对话演示；完成 ICRA 这篇工作。

第 2–3 年把强化学习放进世界模型的仿真里（避免损伤真机），闭合「反馈 → 改进」，首次正面证明这条闭环有用。目标 IROS / CoRL / RSS。

第 4–5 年三者统一为一个模型，验证跨身份 / 跨硬件泛化，并探索推广到需真实物理接触的人形机器人——支撑博士论文级贡献。

04为什么我有优势

为什么我有优势

不是从零起步。我带着一台已经会做表情的舵机面部 + 一篇在研一作（ICRA 2026）而来，方向能立刻往前推，而不是从一个「感兴趣」的想法开始搭。
稀缺的能力组合，正好卡在这个问题的瓶颈上。仿生表情 + 统一模型同时需要三样东西：生成模型方法（解耦 + 流匹配）、把模型实时跑上脆弱硬件的系统工程、世界模型 / 自改进闭环的经验——这三样我都有真实佐证，而多数人只占其一。
工程能力。让生成模型在硬件上实时、稳定地跑（CUDA / TensorRT / 算子 / 显存），纯算法或纯 HCI 背景往往做不动，却是落地的关键；这也意味着我能自驱地把开放课题从方向收敛到系统与论文。

对王老师的价值

一个可连续产出的方向。Agent · World Model · Policy 在面部机器人上的统一与自改进，是一条能连续产出（ICRA / IROS / CoRL / RSS）、又天然与系统结构结合的主线，并可能沉淀为实验室的一个长期方向。
把系统结构的优势接到一个真实落地点上。「让生成模型在机器人上实时、稳定地跑」（CUDA / TensorRT / 算子 / 显存 / 软硬件协同）正是实验室系统结构背景比较缺乏的能力——我能做模型与系统的协同设计。
一个自驱、可外溢的学生。能从方向 → 系统 → 论文自己跑通主干；我的全栈工程与 Agent 科研工作流也能帮助团队，提升迭代速度。

05我需要的支持

希望可以和王老师与团队一起，把这个方向定义成实验室的一条长期主线。具体需要的，是参与感与判断多于物质：

平台与场景

接入（或与团队共建）实验室的情感机器人平台、多模态人感知模块与真实 HRI 场景：一台可驱动的仿生面部硬件、表情识别 / 注意力 / 生理信号的采集通道，以及能让机器人与真人对话、采集「人的真实反应」的实验环境——这是把闭环真正「闭上」的物理前提。

方向把舵

希望由王老师为方向定调：Agent / World Model / Policy 三个子问题先攻哪个、统一模型与模块化之间的边界划在哪、哪些指标算作里程碑。也希望把实时推理、算子与部署这条系统线，与实验室的系统结构 / 可重构平台做一次真正的软硬件协同设计——这是需要王老师把控的地方

评测判断

「什么样的表情对人才算自然、有效、可信」是情感计算与 HRI 的专业判断，也决定了这条闭环的「奖励」从何而来。我希望借助实验室在表情、注意力与生理信号上的积累，和团队一起把这种判断变成一个可量化、可优化的反馈信号，再让策略据此自我改进。

团队与算力

一个能一起讨论、能动手的团队，以及把世界模型与策略训起来、部署到面部硬件上的算力。