博客
- 博士研究设想 · 会自我改进的情感交互系统
以仿生表情机器人为第一个载体,统一 Agent · 世界模型 · 策略:把表情学进一个「世界模型」、让它在「梦」里反复练习,以及为什么这里强化学习胜过模仿。
- Muon 优化器系整理
围绕 Muon 优化器做一次系统整理:向量到矩阵的本质跨越、谱范数最速下降、流形上的优化、学习率与 Batch Size 的关系,以及实际使用时的关键细节。
以仿生表情机器人为第一个载体,统一 Agent · 世界模型 · 策略:把表情学进一个「世界模型」、让它在「梦」里反复练习,以及为什么这里强化学习胜过模仿。
围绕 Muon 优化器做一次系统整理:向量到矩阵的本质跨越、谱范数最速下降、流形上的优化、学习率与 Batch Size 的关系,以及实际使用时的关键细节。