若需观看机器人系列相关博客,请劳驾至:【足式机器人无死角系列之-【强化学习基础-通用】、【仿真及训练环境】、【强化学习】:isaac-gym 与 isaac-lab 从零开始
郑重声明:该系列博客为本人 ( W e n h a i Z h u ) 独家私有 , 禁止转载与抄袭 , 首次举报有谢 , 若有需请私信授权! \color{red}郑重声明:该系列博客为本人(WenhaiZhu)独家私有,禁止转载与抄袭,首次举报有谢,若有需请私信授权! 郑重声明:该系列博客为本人(WenhaiZhu)独家私有,禁止转载与抄袭,首次举报有谢,若有需请私信授权!
本博客编写于: 20241022 ,台式机为 u b u n t u 20.04 , 3090 G e F o r c e R T X 显存 24 G { \color{purple} 本博客编写于:20241022,台式机为 ubuntu 20.04,3090 GeForce RTX 显存24G} 本博客编写于:20241022,台式机为ubuntu20.04,3090GeForceRTX显存24G:与你现在的代码,或者环境等存在一定差异也在情理之中,故切勿认为该系列博客绝对正确,且百密必有一疏,若发现错误处,恳请各位读者直接指出,本人会尽快进行整改,尽量使得后面的读者少踩坑,评论部分我会进行记录与感谢,只有这样,该系列博客才能成为精品,这里先拜谢各位朋友了。
本系列博客链接为: {\color{blue}本系列博客链接为:} 本系列博客链接为:【强化学习理论基础-通用】(01)从零开始白话给你讲,简单推导公式,深刻理解,一眼万年!:https://blog.csdn.net/weixin_43013761/article/details/143168169
总结: 马尔科夫链是为了简化复杂的数学模型,比如现在你摔了一跤,其与你摔跤前一时刻是不是被东西绊倒,或者是否被别人推了一下的关系比较大,而与你今天出门是先迈左脚还是右脚是没有太大联系的。但是说到你底,到底有没联系呢?这个还真不好说,甚至可能与你在哪里出生都有关,即你出生或许就注定要摔那一跤。简化思维是数学理论向工程落地必不可少的一项技巧,比如非线性方程的线性化就被普遍使用。 |
文末正下方中心提供了本人 联系方式, 点击本人照片即可显示 W X → 官方认证,请备注 强化学习 。 {\color{blue}{文末正下方中心}提供了本人 \color{red} 联系方式,\color{blue}点击本人照片即可显示WX→官方认证,请备注\color{red} 强化学习}。 文末正下方中心提供了本人联系方式,点击本人照片即可显示WX→官方认证,请备注强化学习。
一、前言
在上一篇博客中,简单的介绍了强化学习中的基本概念,对状态、行为、环境、奖励、策略、回合(生命周期)、回报、优势等有了一定了解。该篇博客的主要目的讨论马尔科夫链之前,不过在这之前,有必要回顾一下概率论的基础知识,同时还会对一些数学符号或者简单公式进行讲解, 注意: \color{purple} 注意: 注意:这些知识点,不仅仅是为了讲解马尔科夫链链。在后续数学原理相关篇节都是经常使用到。
二、概率论基础
如果想深入了解的朋友,可以参考本人之前写过的博客 卡尔曼家族从零解剖-(01)预备知识点,其记录的东西比较多,且可能有一定深度,与之先比 ,该篇博客讲解则更加基础一些。因为离散与连续在概率论中差异还是比较明显的,所以下面都从这两个方面来进行对比。
1.概率符号与随机变量
离散: \color{blue}离散: 离散:通常是用大写 P 表示离散事件的概率,如 P ( 明天下雨 ) = 0.5 P(明天下雨)=0.5 P(明天下雨)=0.5,则表示明天下雨的概率为 0.5 0.5 0.5。但是这种写法只能表示一种情况的概率,故可以假设是否下雨为随机变量 X X X,注意使用大写。用小x写表示随机变量的具体取值,或者具体采样到该值的概率。也可以令 x 1 = 下雨 x_1=下雨 x1=下雨, x 2 = 晴天 x_2=晴天 x2=晴天,则 P ( X = x 1 ) P(X=x_1) P(X=x1), P ( X = x 2 ) P(X=x_2) P(X=x2) 分别表示一下雨与晴天的概率,这种写法便于后续公式推导过程的书写。
连续:
\color{blue}连续:
连续: 连续要比离散的要复杂一些,这里距个例子,如下图表示为一个年级数学成绩直方图,先来看离散的方式表示,如另
X
X
X 为随机变量,
x
1
x_1
x1 表示
[
70
,
75
)
[70,75)
[70,75) 的概率为
70
到
75
分人数
总人数
=
1
5
\frac{70到75分人数}{总人数}=\frac{1}{5}
总人数70到75分人数=51,则可以得到
P
(
X
=
x
1
)
=
=
1
5
P(X=x_1)==\frac{1}{5}
P(X=x1)==51,那离散的如何表示呢?
首先假设一条曲线,该曲线已知为
f
(
x
)
f(x)
f(x),输入
x
x
x 为分数,
f
(
x
)
f(x)
f(x) 则表示该分数的人数: