贝塔分布教程

学概率的时候，我们会反复来理解什么是正态分布，什么是均匀分布，什么是二项分布，什么是贝塔分布……不知在座的各位是否还能记起当时做过的习题？是否还能通俗地讲解一下这些概念？

贝塔分布（Beta Distribution) 是一个作为伯努利分布和二项式分布的共轭先验分布的密度函数，在机器学习和数理统计学中有重要应用。
贝塔分布中的参数可以理解为伪计数，伯努利分布的似然函数可以表示为，表示一次事件发生的概率，它为贝塔有相同的形式，因此可以用贝塔分布作为其先验分布。
概率论中还有一种称为贝塔（β，beta）分布的概率密度分布函数。

在Stack Overflow，有位学机器学习的同学理解不了贝塔分布，希望有人能帮他解答下。刚好，正在学生物信息学博士的David Robinson现身说法，用一个有关棒球运动的统计数据来解释这个概念。这位博士纯粹是为了消磨时间，觉得好玩。

不过，Stack Overflow数据科学团队的Jason Punyon读完David Robinson的解答后，觉得解释很赞，他在内部会议上突发奇想：

“哇！咱们干脆雇了这哥们儿吧。”于是，一份公开的邀请不期而至：我们十分期待你能拜访一下Stack Overflow。

在好奇心的驱使下，原本打算博士毕业后研究计算生物学的David Robinson，鬼使神差地拜访了这家科技公司。一次拜访、几周面试，Stack Overflow提供给他一个无法拒绝的工作机会，David Robinson从计算生物学博士变成了一个数据科学家。

你一定特别好奇，这到底是个怎样的问题，直接就让这位博士拿到了数据科学家的offer？David Robinson的解释到底又有多精彩？现在我们让来看看这个问题。

贝塔分布(beta distribution)的本质

当我们谈正态分布时，可以将它描述成火车的到达时间：大多数情况下火车正点到站，有时候会早1分钟或者迟1分钟，但是早20分钟或者迟20分钟的情况则非常罕见；均匀分布可以描述为彩票中奖的机会事件；二项分布可以描述成抛硬币事件等等。那么，贝塔分布有这样的直观解释吗？

例如 α=.99，β=.5，贝塔分布B(α,β)如下图所示（使用R生成）：

贝塔分布(beta distribution)

那么这个图代表什么意思？Y轴是一个概率密度，那么X轴呢？

David Robinson 解释如下：

简而言之，贝塔分布可以看作是一个概率的分布，也就是说，当我们不知道一个东西的具体概率是多少时，它给出了所有概率出现的可能性大小。下面结合一个应用场景来理解：

熟悉棒球运动的都知道一个指标就是棒球击球率，就是用一个运动员击中的球数除以总的击球数（因此它是一个0到1之间的百分比）。我们一般认为0.266是一个平均的击球水平，而如果击球率达到0.3就会被认为非常优秀了。

假设有一个棒球运动员，现在我们想预测他整个赛季的棒球击球率如何。你可能就会直接计算他目前的棒球击球率，用击中数除以击球数，但这在赛季开始阶段时是很不合理的！假如这个运动员就打了一次，还中了，那么他的击球率就是100%，如果他没中，那么就是0%。甚至打5、6次的时候，也可能运气爆棚全中击球率100%，或者运气很糟击球率0%。无论如何，基于这些来做预测是不合理的。

那么，为什么用前几次击中来预测整个赛季击球率不合理呢？当运动员首次击球没中时，为什么没人认为他整个赛季都会一次不中？因为我们有先验期望。根据历史信息，我们知道击球率一般会在0.215到0.36之间。如果一个运动员一开始打了几次没中，那么我们知道他可能最终成绩会比平均稍微差一点，但是一般不可能会偏离上述区间。

对于这个击球率问题，我们可以用二项分布表示（一系列的成功或失败事件），一个最好的方法来表示这些先验期望（统计中称为先验（prior））就是贝塔分布，这表示在运动员打球之前，我们就对他的击球率有了一个大概范围的预测。贝塔分布的定义域为(0, 1)，与概率是一样的。我们下面继续解释为什么贝塔分布用在这个任务上是合理的。

假设我们预计运动员整个赛季的击球率大概是0.27左右，范围大概是在0.21到0.35之间。那么用贝塔分布来表示，我们可以取参数 α==81，β==219。