数据表示-直方图
直方图是一种显示定量数据的图形化方法,类似于箱形图或茎叶图。直方图沿着x轴显示单个数量变量,y轴显示该变量的频率。直方图的显著特征是数据被分组到“箱子”中,箱子是x轴上的间隔。
做柱状图
这个直方图是用以下数字创建的:
1 |
|
要构建一个柱状图,首先要确定要放入数据的容器大小。对于给定的一组数据,有许多可能的大小和数量的容器。这个特定的示例使用了6个大小为10的容器。
对于所有的直方图,每个箱子的大小必须相同,所有的数据必须在箱子中表示。
确定之后,将每个数字放入相应的区间。
现在它很像直方图。每个箱子的高度是里面元素的数量。一定要标出x轴和y轴。
选择箱体大小是构建直方图最重要的部分。考虑这些直方图。图中显示的数据与第一个例子相同。
你能分辨出区别吗?左边的图有12个宽度为5的箱子,右边的图有3个宽度为20的箱子。两者覆盖相同的范围并包含所有的数据。然而,这些图表扭曲了表示。
大的垃圾桶掩盖了趋势和细微差别,而小的垃圾桶则是不合理的,而且同样难以分析。
分析柱状图
关于直方图,主要有四个方面需要描述。有一个漂亮的缩写来帮助你记住-soc!
年代一些用来描述形状的形容词有……
单峰,一个峰值;双峰两座山峰;或统一的,因为没有清晰的山峰;
对称的,左半部分看起来与右半部分相似;或不对称
扭曲了在美国,数据似乎被压缩到右边,而轨迹则向左;或倾斜的权利在美国,数据似乎被挤压到左边,而追踪到右边。
您还应该注意图中的任何间隙。
Outliers:是否有一些数据看起来与主要组相去甚远?这些将被归类为极端值。任何其他突出或不寻常的特征都应当注明。
C有两种不同的方式来分类中心…
年代Spread: Spread是指数据的变化。有几种不同的方法来测量变化……
例子
使用了多少数据来创建下列直方图?假设y轴比例为1。
加上每个箱子的高度 .
描述以下直方图:
分布是右偏态和单峰的,峰值在400到450之间。可能会有接近650的异常值。中位数应该作为中心的度量值。分布范围适中。
注:由于我们只有图片,没有数字或数据,我们不得不有点模糊。我们只能在不计算任何东西的情况下推测离群值,所以“可能”这个词很重要。像“moderate”、“somewhat”、“slightly”这样的词通常可以用于这些类型的描述。
构建一个直方图来表示这些数据:
112、15、16、21、22、31、39、42、46、53、54、55、57、59、61、62、67、67、70、71、78、83、87、89、91、96、97、98、98、100
这个问题的制造者很好,从最小到最大排序。决定箱子的大小;有多种合理的答案。这将使用10个宽度为10的箱子。