描述樣本值的離散程度,最常用的指標(biāo)是方差和標(biāo)準(zhǔn)差,它們與前面所說(shuō)的全距(極差)只使用了兩個(gè)極值情況不同,它們利用了樣本的全部信息去描述數(shù)據(jù)取值的分散性。
方差是各樣本相對(duì)均值的偏差平方和的平均。使用s2來(lái)表示,其公式如下:
![]()
當(dāng)數(shù)據(jù)分布比較分散(即數(shù)據(jù)在平均數(shù)附近波動(dòng)較大)時(shí),各個(gè)數(shù)據(jù)與平均數(shù)的差的平方和較大,方差就較大;當(dāng)數(shù)據(jù)分布比較集中時(shí),各個(gè)數(shù)據(jù)與平均數(shù)的差的平方和較小。因此方差越大,數(shù)據(jù)的波動(dòng)越大;方差越小,數(shù)據(jù)的波動(dòng)就越小。
樣本方差的開(kāi)方稱為樣本標(biāo)準(zhǔn)差,記為s,其計(jì)算公式如下:

標(biāo)準(zhǔn)差越大,數(shù)據(jù)的離散程度越大,反之越小。但標(biāo)準(zhǔn)差與方差不同的地方是,標(biāo)準(zhǔn)差是有量綱的,它與變量值的計(jì)量單位相同,因此具有較強(qiáng)的實(shí)際意義,在實(shí)際應(yīng)用較廣泛。

在R中使用var函數(shù)和sd函數(shù)分別計(jì)算方差和標(biāo)準(zhǔn)差。
var函數(shù)的語(yǔ)法形式如下:
var(x, y = NULL, na.rm = FALSE, use)
參數(shù)x是一個(gè)數(shù)值型向量,矩陣或數(shù)據(jù)框;
參數(shù)y是與x維度相容的一個(gè)向量、矩陣或數(shù)據(jù)框,默認(rèn)為NULL值;
na.rm為邏輯值,指示是否移除缺失值,默認(rèn)為FALSE;
use是一個(gè)可選參數(shù),是一個(gè)字符型字符串。用于指明在有缺失值時(shí)計(jì)算協(xié)方差的方法。只能是 "everything", "all.obs", "complete.obs", "na.or.complete", or "pairwise.complete.obs"中值之一。
sd函數(shù)的語(yǔ)法形式如下:
sd(x, na.rm = FALSE)
各參數(shù)的含義與var函數(shù)對(duì)應(yīng)的參數(shù)相同,但是x是一個(gè)數(shù)值型向量。
下面使用一個(gè)例子來(lái)說(shuō)明具體使用方法。
設(shè)從某班某門課程中隨機(jī)抽取了20個(gè)學(xué)生的成績(jī),具體如下:
51,99,65,100,68,84,72,85,78,64,69,95,90,75,66,50,63,55,64,70.
計(jì)算其方差和標(biāo)準(zhǔn)差。
編寫R程序如下:
grade <- c(51,99,65,100,68,84,72,85,78,64,69,95,90,75,66,50,63,55,64,70)
ss <- var(grade)
s <- sd(grade)
print(ss)
print(s)
計(jì)算結(jié)果如下圖所示:
即方差為:222.87,標(biāo)準(zhǔn)差為:14.93

新聞熱點(diǎn)
疑難解答
圖片精選