统计02:怎样描绘数据

  • 时间:
  • 浏览:0
  • 来源:大发pk10_pk10官方_大发pk10官方

作者:Vamei 出处:http://www.cnblogs.com/vamei 严禁转载。

统计最开始英文的主要任务一点一点描述数据。正如亲戚亲戚我们都都我们都都 在统计概述中提到的,群体的数据可能性中有 少量的数字,往往让人读起来头昏脑涨。电影《美丽心灵》中,数学家纳什不自觉地沉浸在一串数字中。从前 的电影桥段无缘无故 让观众感到惭愧。但真相是,每被委托人的注意力和短期记忆都很有限,也都还上能集中在很少量的信息。数据描述一点一点要用一定的最好的办法来提取少量信息,从而让人更容易明白数据的含义。数据描述的最好的办法都还上能分为两大门类,即群体参数和数据绘图。两者都起到了错综复杂信息作用,从而让数据变得更加易读。

群体参数

群体参数是用一点数字来表示群体的底部形态。亲戚亲戚我们都都我们都都 在统计概述中可能性介绍了有5个 群体参数,群体平均值和群体方差。群体平均值(population mean)反映群体总体清况 ,定义如下:

$$\mu=\frac{1}{N} \sum_{i=0}^N x_i$$

群体方差(population variance)反映群体的离散清况 ,定义如下: 

$$\sigma^2=\frac{1}{N} \sum_{i=0}^N (x_i - \mu)^2$$

方差的平方根,即[$\sigma$],称为群体标准差(standard deviation)。从物理的厚度上来看,平均值和标准差所带的单位,都和原始数据相同。在多数统计案例中,大部分的群体数据会落在平均值加减有5个 标准差的范围内。

还有一点参数要通过对群体成员进行排序也能获得。比如群体的最大值(max)和最小值(min)。在你这些 类参数中,还无缘无故 会用到中位数(median)和四分位数(quartile)。对成员进行排序后,最里面成员的取值一点一点中位数。可能性群体总数为偶数,越来越中位数一点一点里面有5个 成员取值的平均值。按照大于还是小于中位数的标准,成员都还上能划分为数目相同的两组。对这两组再求中位数,就都还上能获得下四分位数(lower quartile)和上四分位数(upper quartile)。[$Q_1$]和[$Q_3$]之间的距离,称为四分位距(IQR,inter quartile range),也是有5个 常见的群体参数。亲戚亲戚我们都都我们都都 用下面符号表示:

$$Q_1 = lower\ quartile$$

$$Q_2 = M = median$$

$$Q_3 = upper\ quartile$$

$$IQR = Q_3 - Q_1$$

中位数是按照1000%划分数据,下四分位数是按照25%划分数据,上四分位数是按照75%划分数据。人太好,中位数和四分位数都属于百分位数(percentile)。亲戚亲戚我们都都我们都都 用任意比例来划分数据,从而取得百分位数。把数据按数值大小排列,所处p%位置的成员的取值,称第p百分位数

mean: 172.075924
variance: 102.570849846
standard deviation: 10.1277267857
median: 172.21
lower percentile: 165.31
upper percentile: 178.9025
IQR: 13.5925

代码如下:

import numpy as np

with open("xiangbei_height.txt", "r") as f:
        lines = f.readlines()

x = list(map(float, lines))
print("mean:", np.mean(x))
print("variance:", np.var(x))
print("standard deviation:", np.std(x))
print("median:", np.median(x))
print("lower percentile:", np.percentile(x, 25))
print("upper percentile:", np.percentile(x, 75))
print("IQR:", np.percentile(x, 75) - np.percentile(x, 25))

数据绘图

数据绘图利用了人类对底部形态的敏感。在通过数据绘图,亲戚亲戚我们都都我们都都 都还上能将数字转换的几何图形,让数据中的信息变得更容易消化。数据绘图从前 是个费时费力的手工活,但计算机图形的发展让数据绘图变得简单。这两年更是新兴起“数据可视化”,用一点一点炫目的手段来呈现数据。但说到底,经典的绘图也都还上能越来越几种,如饼图、散点图、曲线图。“数据可视化”中的创新手法,也只不过是从那此经典最好的办法中衍生出来的。可能性亲戚亲戚我们都都我们都都 可能性形成了约定俗成的数据绘图习惯,绘图最好的办法上的过度创新甚至会误导读者。一点一点,这里总出 的,也是经典的统计绘图形式。

可能性你这些 系列统计教程主要用Python,我将基于Matplotlib介绍几种经典的数据绘图最好的办法。Matplotlib是基于numpy的一套Python工具包,提供了丰厚的数据绘图工具。当然,Matplotlib并不唯一的确定。有的统计学家更偏爱R语言,而Web开发者流行使用D3.js。熟悉了也都还上能绘图工具后,总都还上能触类旁通,变慢地掌握一点的工具。

饼图

亲戚亲戚我们都都我们都都 将以2011年多少国家的GDP数据为例子,看看要怎样绘制经典的饼图和条形图。数据如下:

USA        100094025
China      11299967
India       4457784
Japan       4440376
Germany     10009901000
Russia      2383402
Brazil      2293954
UK          22100010003
France      2217900
Italy       184691000                                                                                                                                                                                                                                 

这是有5个 也都还上能10个成员的群体。群体成员的取值即该成员的2011年的GDP总额。这里的单位是(百万美元)。

亲戚亲戚我们都都我们都都 先来绘制饼图 (pie plot)。绘制饼图就像分披萨。整个披萨代表成员取值的总和。每个成员根据被委托人取值的大小,拿相应大小的那块儿披萨。把里面的数据绘制成饼图:

从图中都还上能看多,在这场“分大饼”的游戏中,美国和心国占了大的份额。不过,亲戚亲戚我们都都我们都都 从饼图中读到的一点一点比例,没最好的办法获得成员的具体数值。否则,饼图适用于表示成员取值在总和心所占的百分比。里面饼图的代码如下:

import matplotlib.pyplot as plt


# quants: GDP
# labels: country name
labels   = []
quants   = []

# Read data
with open('major_country_gdp.txt', 'r') as f:
    for line in f:
        info = line.split()
        labels.append(info[0])
        quants.append(float(info[1]))

print(quants)
# make a square figure
plt.figure(1, figsize=(6,6))

# For China, make the piece explode a bit
def explode(label, target='China'):
    if label == target:
        return 0.1
    else:
        return 0
expl = list(map(explode,labels))

# Colors used. Recycle if not enough.
colors  = ["pink","coral","yellow","orange"]

# Pie Plot
# autopct: format of "percent" string;
plt.pie(quants,
        explode=expl, colors=colors, labels=labels,
        autopct='%1.1f%%',pctdistance=0.8, shadow=True)
plt.title('Top 10 GDP Countries (2011)', bbox={'facecolor':'0.8', 'pad':5})

plt.show()

条形图和直方图

饼图的缺点是无法表达成员的具体取值,而条形图(bar plot)正是用于呈现数据取值。条形图绘制的是有5个 个竖直的长条,你这些 长条的厚度就代表了取值。还是用里面2011年GDP的数据,用条形图绘制出来一点一点:

条形图有水平和竖直有5个 方向。水平方向上标出了每个竖条对应的国家,竖直方向标出了GDP的数值。从前 ,读者就都还上能读出每个国家的GDP了。里面绘图的代码如下:

import matplotlib.pyplot as plt
import numpy as np


# quants: GDP
# labels: country name
labels   = []
quants   = []

# Read data
with open('major_country_gdp.txt') as f:
    for line in f:
        info = line.split()
        labels.append(info[0])
        quants.append(float(info[1]))

width = 0.4
ind = np.linspace(0.5,9.5,10)
# make a square figure
fig = plt.figure(1, figsize=(12,6))
ax  = fig.add_subplot(111)

# Bar Plot
ax.bar(ind-width/2,quants,width,color='coral')

# Set the ticks on x-axis
ax.set_xticks(ind)
ax.set_xticklabels(labels)
# labels
ax.set_xlabel('Country')
ax.set_ylabel('GDP (Million US dollar)')
# title
ax.set_title('Top 10 GDP Countries (2011)', bbox={'facecolor':'0.8', 'pad':5})
plt.show()

基本的条形图一点一点从前 也都还上能标记数据取值的绘图最好的办法。可能性想知道数值,越来越都还上能直接从数据表中读出来,大都还上能并不画条形图。统计绘图中更常用也都还上能从条形图中衍生出来的绘图最好的办法:直方图(histogram)。直方图会对群体数据进行预处理,否则再把预处理结果用条形图的形式画出来。举有5个 简单的例子,在绘图中呈现湘北高中所有学生的身高数据。想象一下,可能性让每个学生的身高对应有5个 竖条,越来越图上就会密密麻麻地挤满数千个竖条,越来越提供有价值的信息。但可能性画成直方图的形式,看起来就会如下图:

在这幅图中,横坐标成了身高取值。每个竖条的厚度对应了一定的身高范围,这些170cm到172cm。竖条的厚度,对应了身高在该区间内的学生数。否则,直方图先进行了一次分组的预处理,否则用条形图的最好的办法,画出了每个组中中有 的成员总数。在分组的处理中,一点原始信息丢失,以至于从竖条中没最好的办法读出学生的具体身高。但得到错综复杂的信息变得更容易理解。看多你这些 图之前 ,亲戚亲戚我们都都我们都都 都还上能有信心地说,大部分学生的身高在170cm随近。而身高低于1000cm可能性身高高于190cm的学生所处的比例很少。可能性有两被委托人一点一点读原始数据,越来越短时间内获得里面的结论。

直方图绘图线程池池如下:

import numpy as np
import matplotlib.pyplot as plt

with open("xiangbei_height.txt", "r") as f:
    lines = f.readlines()

x = list(map(float, lines))

plt.title("Heights of Students (Shohoku High School)")
plt.hist(x, 1000)
plt.xlabel("height (cm)")
plt.ylabel("count")
plt.show()

代码中的hist()函数用于绘制直方图,其中的1000说明了要生成的区间分组的个数。根据都还上能,你也都还上能具体说明在那此区间形成分组。

趋势图

趋势图(run chart)又称为折线图,无缘无故 用于呈现时间序列。时间序列是随着时间产生的一组数据,比如上海去年每一天的气温,再比如中国最近1000年的GDP。趋势图会把相邻时间点的数据用直线连接起来,从而从视觉上体现出数据随时间变化的底部形态。趋势图在生活中很常见,这些股民就无缘无故 会通过这些的图来了解股价随时间的变化。下面是中国191000-2015年GDP的趋势图:

在你这些 趋势图中很容易看多,中国的GDP随着时间快速增长。绘图的代码如下:

import numpy as np
import matplotlib.pyplot as plt


# read data
with open("China_GDP.csv", "r") as f:
    lines = f.readlines()
    info = lines[1].split(",")

# convert data
x = []
y = []

def convert(info_item):
    return float(info_item.strip('"'))

for count, info_item in enumerate(info):
    try:
        y.append(convert(info_item))
        x.append(191000 + count)
    except ValueError:
        print("%s is not a float" % info_item)

# plot
plt.title("China GDP")
plt.plot(x, y)
plt.xlabel("year")
plt.ylabel("GDP (USD)")
plt.show()

散点图

里面的绘图最好的办法,本质都还上上能二维统计图。饼图是国别和比例的二维信息,直方图体现了身高和人数的二维关系,趋势图的有5个 维度则是时间和GDP。散点图(scatter plot)是也都还上能最直接的表达二维关系的绘图最好的办法。二维绘图的一点最好的办法,都都还上能理解成散点图的有5个 变种。

散点图通过在二维平面上标记出数据点来呈现数据。可能性亲戚亲戚我们都都我们都都 想研究湘北高中学生身高和体重的关系,就都还上能在表示“身高-体重”的二维平面上,标记出所有成员的数据:

在你这些 散点图中,二维平面的横向代表身高,纵向代表体重,每有5个 点代表了有5个 学生。通过你这些 点对应的横纵坐标,就都还上能读出该学生的身高和体重。散点图都还上能直观地呈现所有数据,否则上都还上能他不知道们整体分布上有何底部形态。亲戚亲戚我们都都我们都都 从图中都还上能看多,体重大体上随着身高增长而增长。

绘图代码如下:

import numpy as np
import matplotlib.pyplot as plt


def read_data(filename):
    with open(filename) as f:
        lines = f.readlines()
    return np.array(list(map(float, lines)))

height = read_data("xiangbei_height.txt")
weight = read_data("xiangbei_weight.txt")

plt.scatter(height, weight)

plt.title("Shohoku High School")
plt.xlabel("height(cm)")
plt.ylabel("weight(kg)")
plt.ylim([20, 120])

plt.show()

散点是通过二维的位置来表示数据。在应用中,还都还上能通过散点的大小来表示三维的数据。你这些 进化了的散点图称为泡泡图(bubble plot)。除了散点的大小,泡泡图有时总要用散点的颜色来表达更高维度的信息。

亲戚亲戚我们都都我们都都 来看泡泡图的有5个 例子。下图中绘出了亚洲主要城市的人口。城市的位置中有 了二维的信息,即经度和纬度。此外,人口构成了第三维。亲戚亲戚我们都都我们都都 用散点的大小来表示你这些 维度。

 

数据如下:

Shanghai 2100019148  31.23N  121.47E  China
Mumbai   12478447  18.96N  72.82E   India
Karachi  110001000000  24.86N  67.01E   Pakistan
Delhi    16314838  28.67N  77.21E   India
Manila   11855975  14.62N  120.97E  Philippines
Seoul    2361100000  37.56N  126.99E  Korea(South)
Jakarta  2100019545   6.18S  106.83E  Indonesia
Tokyo    3568241000  35.67N  139.77E  Japan
Peking   19612368  39.91N  116.39E  China

代码中使用了matplotlib的Basemap模块来绘制地图:

from mpl_toolkits.basemap import Basemap
import matplotlib.pyplot as plt
import numpy as np

#============================================# read data
names = []
pops  = []
lats  = []
lons  = []
countries = []

with open("major_city.txt", "r") as f:
    for line in f:
        info = line.split()
        names.append(info[0])
        pops.append(float(info[1]))
        lat  = float(info[2][:-1])
        if info[2][-1] == 'S': lat = -lat
        lats.append(lat)
        lon  = float(info[3][:-1])
        if info[3][-1] == 'W': lon = -lon + 31000.0
        lons.append(lon)
        country = info[4]
        countries.append(country)

#============================================
# set up map projection with
# use low resolution coastlines.
map = Basemap(projection='ortho',lat_0=35,lon_0=120,resolution='l')

# draw coastlines, country boundaries, fill continents.
map.drawcoastlines(linewidth=0.25)
map.drawcountries(linewidth=0.25)

# draw the edge of the map projection region (the projection limb)
map.drawmapboundary(fill_color='#689CD2')

# draw lat/lon grid lines every 1000 degrees.
map.drawmeridians(np.arange(0,31000,1000))
map.drawparallels(np.arange(-90,90,1000))

# Fill continent wit a different color
map.fillcontinents(color='#BF9E1000',lake_color='#689CD2',zorder=0)

# compute native map projection coordinates of lat/lon grid.
x, y = map(lons, lats)
max_pop = max(pops)

# Plot each city in a loop.
# Set some parameters
size_factor = 11000.0
y_offset    = 15.0
rotation    = 1000

adjust_size = lambda k: size_factor*(k-100000000)/max_pop
for i,j,k,name in zip(x,y,pops,names):
    cs = map.scatter(i,j,s=adjust_size(k),marker='o',color='#FF510000')
    plt.text(i,j+y_offset,name,rotation=rotation,fontsize=10)
    print(i, j)
examples = [110000000, 210000000, 3100000000]

pop = 110000000
plt.scatter(1000000, 1000000,s=adjust_size(pop),marker='o',color='red')
plt.text(1000000, 1000000+y_offset,str(pop/10000000) + "million",rotation=0,fontsize=10)

pop = 210000000
plt.scatter(31000000, 1000000,s=adjust_size(pop),marker='o',color='red')
plt.text(31000000, 1000000+y_offset,str(pop/10000000) + "million",rotation=0,fontsize=10)

pop = 3100000000
plt.scatter(61000000, 1000000,s=adjust_size(pop),marker='o',color='red')
plt.text(61000000, 1000000+y_offset,str(pop/10000000) + "million",rotation=0,fontsize=10)


plt.title('Major Cities in Asia & Population')
plt.show()

箱形图

之前 的绘图最好的办法侧重点在原始数据。还有一点绘图是为了呈现群体参数,比如箱形图(box plot)。比如湘北高中身高数据绘制成箱形图:

 

如图中标注的,箱形图体现的主一点一点中位数和四分位数。上下四分位数构成了箱子,其中中有 了一半的数据成员。此外,上下还有有5个 边界,所处箱子的上下边缘各外推1.5个箱子厚度的位置。可能性外推1.5个箱子位置超出了数据库的极值,越来越边界添加极值的厚度。否则,将有数据点超出边界。那此数据点被认为是异常值(outlier),用散点的最好的办法画出。

代码如下:

import matplotlib.pyplot as plt


with open("xiangbei_height.txt", "r") as f:
        lines = f.readlines()

x = list(map(float, lines))
plt.boxplot(x)

plt.title("box plot of Shohoku High School")
plt.xticks([1], ['Shohoku'])
plt.ylabel("height (cm)")
plt.show()

箱形图体现了有5个 思路,一点一点在绘制原始数据的一起画出群体参数,从而辅助亲戚亲戚我们都都我们都都 理解数据。比如,亲戚亲戚我们都都我们都都 都还上能在直方图中标出平均值和标准差:

代码如下:

import numpy as np
import matplotlib.pyplot as plt

with open("xiangbei_height.txt", "r") as f:
    lines = f.readlines()

x = list(map(float, lines))

plt.title("Heights of Students (Shohoku High School)")

plt.hist(x, 1000)
plt.xlabel("height (cm)")
plt.ylabel("count")

mu  = np.mean(x)
std = np.std(x)

h = 120
text_color = "white"

plt.axvline(x=mu, color="red")
plt.text(mu, h,'mean',rotation=90,color=text_color)

plt.axvline(x=mu-std, color="coral")
plt.text(mu-std, h,'mean-std',rotation=90,color=text_color)

plt.axvline(x=mu+std, color="coral")
plt.text(mu+std, h,'mean+std',rotation=90,color=text_color)

plt.show()

要怎样画好图

尽管这里说明了一点常用的数据绘图最好的办法,但数据绘图的过程中有 一点一点人为创作的因素在。否则,同有5个 数据库,甚至同也都还上能绘图形式,都可能性产生多种多样的数据图像。不同的数据图像,在传递信息的有效性上,会产生不小的差别。要怎样画好数据图呢?我根据被委托人的经验,总结了下面多少标准:

  1. 确定目的。尽管在研究过程中,亲戚亲戚我们都都我们都都 会画出少量的数据图,但在展示数据图时,要有所侧重。
  2. 在标题中说明一张数据图的主要内容。
  3. 标明每有5个 坐标轴,并标明坐标的刻度和单位。
  4. 可能性越来越坐标轴,都还上能用图例来说明读数。这些在泡泡图中用图例说明泡泡大小所代表的读数。
  5. 在图中标注附加的图像元素,如代表平均值的标示线、代表拟合的虚线曲线等。
  6. 备份数据、图像文件和相关代码。

在介绍一副数据图时,也都还上能遵循一定的顺序:

  1. 搞笑的话说明画了那此:“这幅图描绘了湘北高中学生身高分布。”
  2. 说明坐标轴:“图中横轴代表了身高,纵轴代表了人数。”
  3. 说明主要图像元素的含义:“每个竖条对应一定的身高区间。竖条的厚度,代表了该身高区间内学生的人数。”
  4. 说明部分图像元素的含义:“红线代表了学生的平均身高。”
  5. 引导读者深入解读:“都还上能看多,学生身高大多集中在平均值随近……”

当然,对于所处人为创作因素的数据绘图来说,也越来越定法。但建立一定的流程,能提高绘图的速率。一点一点我也建议你建立被委托人的绘图流程。

总结

在你这些 篇文章里,我主要用参数和绘图呈现群体的数据。这些的最好的办法还无缘无故 用于呈现样品数据。可能性在描绘样品时都还上能涉及到统计推断,一点一点我把样品描绘的最好的办法放满将在统计推断的相关文章中讲解。

可能性你想更多地了解Matplotlib,都还上能参考官方文档,以及我之前 写的这篇文章:matplotlib核心剖析 。

欢迎继续阅读“数据科学”系列文章