獻給廣大的三國愛好者們,希望喜歡三國的朋友一起討論,加深對傳奇三國時代的了解數據分析基礎概念:數據分為“不可測量”的數據和“可測量”的數據。不可測量的數據稱為“分類數據”(Category Data或Categorical Data。),而可測量的數據稱為“數值數據”(Numerical Data)。組中值:Class Midpoint次數:Frequency相對次數:Relative Frequency相對次數=所屬各組的數據個數÷數據總數次數分布表和直方圖
組距分組掩蓋了各組內間的數據分布狀況,為反映各組數據的一般水平,我們通常用組中值來作為該組數據的一個代表值(class midpoint)。上限與下限之間的中點數值稱為組中值,它是各組上下限數值的簡單平均,即組中值=(下限+上限)/2。若遇到開口組,則上開口組組中值=下限+鄰組組距/2; 下開口組組中值=上限-鄰組組距/2。使用組中值代表一組數據時有一個必要的假定條件,即各組數據在本組內呈現均勻分布或在組中值兩側呈對稱分布。如果實際數據的分布不符合這一假定,用組中值作為一組數據的代表就會有一定的誤差。建立數據分析環境:
SELECT CASE WHEN 智力 > 0 AND 智力 < 10 THEN '0-9' WHEN 智力 >= 10 AND 智力 < 20 THEN '10-19' WHEN 智力 >= 20 AND 智力 < 30 THEN '20-29' WHEN 智力 >= 30 AND 智力 < 40 THEN '30-39' WHEN 智力 >= 40 AND 智力 < 50 THEN '40-49' WHEN 智力 >= 50 AND 智力 < 60 THEN '50-59' WHEN 智力 >= 60 AND 智力 < 70 THEN '60-69' WHEN 智力 >= 70 AND 智力 < 80 THEN '70-79' WHEN 智力 >= 80 AND 智力 < 90 THEN '80-89' WHEN 智力 >= 90 AND 智力 <= 100 THEN '90-100' END 分組 , COUNT(*) 人數FROM FactSanguo11GROUP BY CASE WHEN 智力 > 0 AND 智力 < 10 THEN '0-9' WHEN 智力 >= 10 AND 智力 < 20 THEN '10-19' WHEN 智力 >= 20 AND 智力 < 30 THEN '20-29' WHEN 智力 >= 30 AND 智力 < 40 THEN '30-39' WHEN 智力 >= 40 AND 智力 < 50 THEN '40-49' WHEN 智力 >= 50 AND 智力 < 60 THEN '50-59' WHEN 智力 >= 60 AND 智力 < 70 THEN '60-69' WHEN 智力 >= 70 AND 智力 < 80 THEN '70-79' WHEN 智力 >= 80 AND 智力 < 90 THEN '80-89' WHEN 智力 >= 90 AND 智力 <= 100 THEN '90-100' ENDORDER BY 分組SELECT *FROM FactSanguo11WHERE 智力 >= 90 AND 智力 <= 100ORDER BY 智力 DESC
三國人物智力分布表
智力分組 | 組中值 | 人數 | 相對次數 |
0-9 | 5 | 12 | 0.02 |
10-19 | 14.5 | 19 | 0.03 |
20-29 | 25 | 33 | 0.05 |
30-39 | 34.5 | 70 | 0.10 |
40-49 | 44.5 | 72 | 0.11 |
50-59 | 54.5 | 76 | 0.11 |
60-69 | 64.5 | 129 | 0.19 |
70-79 | 74.5 | 173 | 0.26 |
80-89 | 84.5 | 65 | 0.10 |
90-100 | 95 | 21 | 0.03 |
合計 | 670 | 1.00 |
直方圖:
如各位所見,上表中的組距是9。之所以選擇9,并沒有什么數學上的規定,而是全由本人主觀決定的。沒錯,組距該設多少,完全依照分析者本身的判斷。以主觀設定的組距而做成的人數分布表沒有說服力,無法在他人面前公開,難道就沒有按數學原理制定組距的方法嗎?也許有人會產生這樣的疑問。事實上,方法是有的。以步驟2求出的組距為基礎,做出如下的人數分布表: