逆变换采样
通常在编写数据分析代码的过程中,或者在对系统进行模拟的过程中,比如病毒在群体中传播,细胞中的基因表达,或者股票市场的动态,我们会想要从概率分布中随机抽取样本。问题是,大多数语言只配备了简单的随机数生成器,能够绘图
在我们开始之前,让我们看一个在模拟中使用错误概率分布的影响的例子。
gydF4y2Ba考虑下面模拟的两个社交网络。右边的网络是用所谓的伯努利分布生成的,用来确定每个人拥有的朋友数量,而左边的网络是用更现实的阿尔伯特-巴拉巴斯分布生成的。
为了公平比较,网络被限制为拥有相同数量的个人(×103.),以及友谊总数( 0×103.).
这些网络之间有一些明显的区别,包括伯努利网络的数量很大(
gydF4y2Ba我们还可以清楚地看到生成分布的印记,因为与伯努利网络相比,阿尔伯特·巴拉巴斯网络在每个节点的好友数量上表现出更大的变化,伯努利网络看起来相当同质。这是因为伯努利分布在尾部下降得非常快。
在这些网络的结构中还有许多其他有趣的差异,超出了这个例子的范围,但我们已经可以看到,在模拟中使用正确的概率分布是非常重要的。
采样变换
我们希望使用从均匀分布中提取的随机数生成器对非平坦分布进行抽样。我们需要一些方法将均匀分布的样本值转化为任意分布的样本值
gydF4y2Ba假设有一个代表性的样本,
例如,假设我们有以下二进制分布的表示,它有相同的机会生成1或0。如果我们对索引进行随机抽样,很容易看到我们从整数中随机抽取
现在假设我们有一个类似的表格,用于任意分布的代表性样本
如果我们想随机抽样
如果我们取大样本的极限
对于连续极限,我们有
因此,如果我们想从任意分布中取样
为了直观地说明它是如何工作的,考虑下面所示的双峰高斯函数。我们期望从这个分布中得到的收益集中在两个峰值周围,很少的收益来自于它们之间的区域,或它们旁边的区域。
正如我们在表格类比中所展示的那样,随机抽取表格表示的索引
^与抽样分布相同 ^.在连续的情况下,从的cdf的范围随机抽取 (并映射到关联的 ^值)等价于随机抽取 ^它本身因此,如果我们在一个随机的高度画一条水平线,我们期望映射到两个高斯的概率很高,而映射到它们之外的区域的概率很低。
我们看到高斯分布占据了cdf范围内的大部分垂直空间,而间高斯分布只占据了一小块。我们可以将水平线放置在几乎任何地方,并且很有可能映射到两个高斯函数中的一个。事实上,为了映射到低概率区域,我们必须随机地将水平线精确地放置在cdf(上面的金盒子)的高原上。
例子
指数分布
指数分布的cdf由
(x^)=−∞∫x^p(x)dx=λ0∫x^e−λxdx=1−e−λx^ 解
^,我们发现 ^=λ1日志ydF4y2Bag1−u^1
现在让我们展示一下它的工作原理。完全从零开始编写代码是很简单的,但是如果我们使用开源项目来处理一些常见的操作,就会更快、更方便,而且更可靠。我们将使用数值Python库numpy 为了产生一些随机数,
1 2 3进口numpy作为np进口matplotlib.pyplot作为pltuniform_rands=np.随机.随机(1000000)
为了进行完整性检查,让我们看看我们在这一点上有什么。如果我们画一个直方图,我们应该看到实数在0和1之间的平坦分布。
现在我们根据上面找到的cdf变换从平坦分布映射我们的样本。
1 2 3 |
|
期望分布的共图,以及标准化的数据直方图表明,我们的转换样本非常符合我们的期望分布。在更多点的限制下,协议将是精确的。
厚尾分布
真实分布和近似分布之间看似无关紧要的分歧可能会导致有害的后果。一个引人注目的例子是所谓的长尾分布区域,它描述了罕见事件的概率。有时,数学上方便的分布被用来代替经验确定的分布。例如,高斯分布及其近亲被用来描述金融市场中的某些行为。
gydF4y2Ba在许多情况下,所使用的分布与真实分布非常接近,只是在长尾上有所不同。虽然在尾部的分歧可能看起来是一个无害的差异(它是在一个已经稀疏的分布区域的差异),但它实际上是非常重要的,而且对于风险管理的目的来说,可能是最重要的。
gydF4y2Ba根据定义,这些事件很少发生,这使得人们在心理上容易忽略它们,但在技术上却很难恰当地描述它们。正是这种组合使得他们如此阴险。作为错误评估尾部概率危险的一个简单例子,考虑下面的两个分布,一个是高斯分布,一个是反向Gumbel分布。
在左边的视图中,分布看起来非常相似,它们具有相同的平均值,几乎相同的剖面,占两个分布累积面积的90%或更多,并且都迅速下降到一致区域之外的较小值。然而,从对数角度来看,我们可以清楚地看到,高斯分布认为损失12倍的风险比反向甘贝尔分布的可能性低近10个数量级。
gydF4y2Ba在实际情况下,这意味着使用高斯分布的分析师认为,12倍下降的概率大约为1 / 1
gydF4y2Ba尽管情况的全部细节无疑比这个简单的例子要复杂得多,但正是这种接近但不精确的替代分配的使用,促成了长期资本管理公司(Long Term Capital Management)著名的破产。长期资本管理公司是一家套利基金,其背后有两位基金接受者的学术实力
LTCM管理下资产价值的轨迹(1994年3月)(1998年10月)
社交网络