热线电话:

沧州日升昌钢管有限公司

主营:钢管,声测管,注浆管,玻璃钢管

商铺首页 > 新闻动态 > 南雄声测管厂
沧州日升昌钢管有限公司
8
企业等级: 普通会员
经营模式:
所在地区: 河北 沧州
联系卖家:    QQ在线咨询1376565301
手机号码:
公司官网: www.scgrsc.com
公司地址:

南雄声测管厂

发布时间:2019-08-09 12:17:21        

南雄声测管厂

派单可以看成一个系列决策问题,我们将其建模为带有时间延展性的马尔科夫决策过程,也称为Semi-MDP。与标准MDP类似,司机从一个状态 (时间、地点、情景式特征) 出发,通过接单或者空车游走的动作 (option),转移到下一个状态,并获得相应奖励 (对于接单的动作是订单的金额,空车游走或者上下线则为0)。这里与标准MDP***大的不同在于动作带有时间延展性,不同动作时间跨度不同,这一点很重要,会体现在训练使用的Bellman equation中。

在Semi-MDP的框架下我们可以写出强化学习中价值函数的定义,表示司机从一个状态出发,在给定的派单策略下,直到一天结束的期望收益

跟标准MDP类似,我们可以写出基于价值函数的一步转移Bellman方程

上面的公式表示了司机从状态St经过k个时间步长转移到St+k,并收获奖励R。这里跟标准MDP***大的不同在于等式右边***项等效即时奖励,不是直接用R,而是对R做了一个跟步长k相关的衰减。在Semi-MDP框架下两个带来同样收益的动作,时间跨度小的动作的等效即时奖励更大。另一角度来看,这可以理解为对广泛应用于实际的reward clipping做了一个平滑 (***oothing) 处理,用连续衰减代替了截断处理 (clipping)。

我们用一个深度***网络来表示价值函数,为了增加策略估计中递归迭代的稳定性一般需要使用一个慢速更新的目标网络 (target network),或者使用下面要介绍的在训练中加入Lipschitz正则化的方法。

免责声明
• 本文仅代表作者个人观点,本站未对其内容进行核实,请读者仅做参考,如若文中涉及有违公德、触犯法律的内容,一经发现,立即删除,作者需自行承担相应责任。涉及到版权或其他问题,请及时联系我们 304108043@qq.com
  • QQ在线咨询1376565301
  • 手机:
  • 联系我时务必告知是在产品网上看到的!

沧州日升昌钢管有限公司

商铺|诚信档案

地址:

电话:传真:

免责声明:以上信息由会员自行提供,内容的真实性、准确性和合法性由发布会员负责,产品网对此不承担任何责任。产品网不涉及用户间因交易而产生的法律关系及法律纠纷, 纠纷由您自行协商解决。

风险提醒:本网站仅作为用户寻找交易对象,就货物和服务的交易进行协商,以及获取各类与贸易相关的服务信息的平台。为避免产生购买风险,建议您在购买相关产品前务必 确认供应商资质及产品质量。过低的价格、夸张的描述、私人银行账户等都有可能是虚假信息,请采购商谨慎对待,谨防欺诈,对于任何付款行为请您慎重抉择!如您遇到欺诈 等不诚信行为,请您立即与产品网联系,如查证属实,产品网会对该企业商铺做注销处理,但产品网不对您因此造成的损失承担责任!

联系:304108043@qq.com是处理侵权投诉的专用邮箱,在您的合法权益受到侵害时,欢迎您向该邮箱发送邮件,我们会在3个工作日内给您答复,感谢您对我们的关注与支持!

商铺首页 | 公司概况 | 供应信息 | 新闻动态 | 诚信档案 | 联系我们 |

沧州日升昌钢管有限公司 电话: 传真: 联系人:

地址: 主营产品:钢管,声测管,注浆管,玻璃钢管

Copyright © 2025 版权所有: 产品网

免责声明:以上所展示的信息由企业自行提供,内容的真实性、准确性和合法性由发布企业负责。产品网对此不承担任何保证责任。

商盟客服

您好,欢迎莅临,欢迎咨询...