Patent9专利在线

当前查询到4条专利与查询词 "沈愈宸"相关，搜索用时1.3593908秒!排序方式：

发明专利：2实用新型: 2外观设计: 0

共 2 条，当前第 1-2 条　返回搜索页

申请号：202610168897.1 公开号：CN122021330A 主分类号：G06F30/27

申请人：南京邮电大学申请日:2026.02.05 公开日：2026.05.12

摘要：本发明公开了一种基于单时间尺度混合TD算法的无人小车控制训练加速方法，适用于山地环境下无人小车的驾驶控制训练。该方法先针对爬坡控制任务建立强化学习环境模型，通过坡度、位置及速度传感器获取山地地形信息、小车位置与速度信息及终点标志；再将小车状态与可执行动作输入神经网络，经瓦片编码器转化为特征向量，结合线性方法计算动作 Q 值，采用ε‑greedy 策略选择动作；执行动作后获取奖励与下一状态，通过单时间尺度混合 TD 算法同步更新主辅参数，迭代训练至完成预设轮次。本发明避免了参数更新不同步的数值震荡，加快训练收敛速度，提升最优策略的稳定性与准确性，有效解决山地无人小车控制训练效率低的问题，具有良好的工程应用价值。

详细信息下载全文

2：[发明] 单时间尺度行为感知时序差分的欠驱机械臂训练加速方法

申请号：202610198354.4 公开号：CN121682285A 主分类号：G06F18/214

申请人：南京邮电大学申请日:2026.02.11 公开日：2026.03.17

发明人：陈兴国;贺志昂;沈愈宸

摘要：本发明公开一种单时间尺度行为感知时序差分的欠驱机械臂训练加速方法，属于欠驱动机械臂控制领域。该方法先建立强化学习环境模型，利用姿态传感器采集机械臂角度、角速度等状态信息并预处理为六维数据；再通过神经网络结合方法完成动作选择与执行，获取即时奖励；最后基于单时间尺度行为感知时序差分算法同步更新目标参数θ和辅助参数ω，迭代训练直至策略收敛。本发明解决传统方法收敛慢、精度低的问题，提升训练效率与控制精度，可扩展至复杂欠驱动机器人系统，具有较高的实用价值。

详细信息下载全文

共 2 条，当前第 1-2 条　返回搜索页