洪 喆沛
本科生,大模型后训练与 Agentic AI
洪喆沛
语言: English / 中文
我目前就读于华南师范大学人工智能学院,是一名本科生。我的研究兴趣包括大模型后训练与 Agentic AI 系统,近期工作重点关注同策略蒸馏、强化学习训练范式,以及可靠的大语言模型智能体。
我的研究主要围绕两个方向展开。第一个方向是大模型后训练技术,包括同策略蒸馏、强化学习训练范式以及黑盒模型蒸馏等问题。我的最新论文 ROPD 探索了基于 rubric 的同策略蒸馏方法,旨在以黑盒兼容且更具样本效率的方式完成大模型后训练与能力迁移。
第二个方向是 Agentic AI 系统,包括大语言模型智能体、多智能体协作、工具调用与长程任务求解。我对如何构建更可靠、可评估、可持续执行复杂任务的智能体系统感兴趣。
背景:
- 2023-2027 年就读于华南师范大学,软件工程本科在读。
- 目前作为学生研究者,主要关注大模型后训练、强化学习与 Agentic AI 系统。