可持续学习的交互机器人
在长期人—机器人交互中不断拓展能力的具身智能体:新技能、新物体概念、新语言—动作对齐都在线习得,而非一次性预训练写死。
- HRI
- Continual Learning
- Multimodal
- Agent
在长期人—机器人交互中不断拓展能力的具身智能体:新技能、新物体概念、新语言—动作对齐都在线习得,而非一次性预训练写死。
受卡帕西 (Andrej Karpathy) 的 *autoresearch* 思路启发,AURA 是一个面向复合 AI 系统的样本高效提示优化器:每次 rollout 后把完整轨迹交回 LLM,并要求它对自身 prompt 提出一处具名的修改。在多跳问答、指令跟随、AIME 数学等任务上,AURA 用最多减少 35× 的 rollout 追平 GRPO,并在聚合指标上比 MIPROv2 高约 10 个点。
部署在高危粉末炸药包装流水线上的工业视觉质检系统,在客户 RTX 4060 上连续 30 天生产环境运行,准确率 ≥ 99%;通过固定协议在线监测 API 向上位机下发告警。
与西南政法大学及北京朝行天下科技有限公司合作开发的法律服务大模型:扩展 RoPE 以处理长篇法律文书、构建法律知识图谱与向量数据库、工具调用与表单填写 Agent、并使用轻量意图识别 + 命名实体识别模型将用户问题转写为可推理的形式化逻辑符号。
将航空原件电镀排产建模为大规模 MILP,使用 GNN 基于历史排产数据生成高质量初始解并排序关键变量;通过 FENNEL 流式图划分与 10% 高置信度变量固定策略,实际待优化变量减少 90%,平均求解速度提升超过 10 倍。