本福德定律
本福德定律 这种现象通常发生在现实世界数据的许多不同实例中。当更多来自不同来源的数据组合在一起时,这种情况就会更加明显和可能发生。并不是每一个数据集都满足本福德定律,而且要解释本福德定律在它所描述的数据集中的出现是非常困难的,但无论如何,它确实在很好理解的情况下持续地出现。科学家们甚至已经开始使用该法律的不同版本来检测预期符合法律的公开数据(纳税申报单、选举结果)中潜在的欺诈行为。 这是一个区域的直方图 以下是美国3142个县或县的人口直方图(数据取自
这是一个百分比表。 因此,本福德定律似乎很好地预测了两个例子中的数据。 一组
第一个数字 多的县 百分比 提单的预测
1 956 30% 30%
2 593 19% 18%
3. 380 12% 12%
4 301 10% 10%
5 225 7% 8%
6 203 6% 7%
7 177 6% 6%
8 159 5% 5%
9 148 5% 4%
法律声明
一组数字被称为满足
本福德定律 如果前导数字
本福德定律预测了…的概率
注:
(1)注意
在这个上下文中,十进制数字没有什么特别之处。本福德定律也适用于其他领域
不变性在扩展
理解这个定律的一种方法是,它应该独立于单位。例如,第一个例子是在
本福德定律描述的概率分布在缩放下表现良好。 如果一个数据集是本福德数据集,那么通过将原始数据集中的所有数字乘以一个固定常数得到的数据集也是本福德数据集。 让 在某些假设下,可以证明本福德分布是唯一满足这个尺度不变性要求的分布。因此,由分布广泛的数字和任意单位组成的数据集应该被认为是本福德。
法律解释
也许直接解释本福德定律最简单的方法是考虑给定数据集中数字的对数(以10为底)。如果他们的
诈骗检测的应用
人类很难手工构造满足本福德定律的分布。欺诈数字数据通常可以通过简单地观察第一个数字的频率来识别,尽管在实践中经常使用多个数字来进行更精确的检查。本福德定律尤其适用于税务表格、选举结果、经济数字和会计数字的录入。