- 相關推薦
統計學知識要點匯總2017
統計學知識要點有哪些你知道嗎?你對統計學的知識要點了解嗎?下面是yjbys小編為大家帶來的統計學知識要點匯總的知識,歡迎閱讀。
一、主成分和因子分析
1.(1)概念:在研究實際問題時,往往需要收集多個變量。但這樣會使多個變量間存在較強的相關關系,即這些變量間存在較多的信息重復,直接利用它們進行分析,不但模型復雜,還會因為變量間存在多重共線性而引起較大的誤差。為能夠充分利用數據,通常希望用較少的新變量代替原來較多的舊變量,同時要求這些新變量盡可能反映原變量的信息。主成分分析和因子分子正是解決這類問題的有效方法。它們能夠提取信息,使變量簡化降維,從而使問題更加簡單直觀
(2)主成分分析:研究如何通過少數幾個主成分(principal component)來解釋多個變量間的內部結構。即從原始變量中導出少數幾個主分量,使它們盡可能多地保留原始變量的信息,且彼此間互不相關
主成分分析的目的:數據的壓縮;數據的解釋。常被用來尋找判斷事物或現象的綜合指標,并對綜合指標所包含的信息進行適當的解釋。(主成分所代表的原始變量的信息用其方差來表示,一般要求所選主成分的方差總和占全部方差的80%以上就可以了。如果原來的變量之間的相關程度高,降維的效果就會好一些,所選的主成分就會少一些。特征根反映了主成分對原始變量的影響程度,表示引入該主成分后可以解釋原始變量的信息。特征根又叫方差,某個特征根占總特征根的比例稱為主成分方差貢獻率。一般情況下,當特征根小于1時,就不再選作主成分了,因為該主成分的解釋力度還不如直接用原始變量解的釋力度大。)
(3)因子分析:與主成分分析類似,它們都是要找出少數幾個新的變量來代替原始變量。
不同之處:主成分分析中的主成分個數與原始變量個數是一樣的,即有幾個變量就有幾個主成分,只不過最后我們確定了少數幾個主成分而已。而因子分析則需要事先確定要找幾個成分,也稱為因子(factor),然后將原始變量綜合為少數的幾個因子,以再現原始變量與因子之間的關系,一般來說,因子的個數會遠遠少于原始變量的個數。
因子分析可以看作是主成分分析的推廣和擴展,但它對問題的研究更深入、更細致一些。實際上,主成分分析可以看作是因子分析的一個特例
簡言之,因子分析是通過對變量之間關系的研究,找出能綜合原始變量的少數幾個因子,使得少數因子能夠反映原始變量的絕大部分信息,然后根據相關性的大小將原始變量分組,使得組內的變量之間相關性較高,而不同組的變量之間相關性較低。因此,因子分析屬于多元統計中處理降維的一種統計方法,其目的就是要減少變量的個數,用少數因子代表多個原始變量
(4)因子數量的確定
用公因子方差貢獻率提。号c主成分分析類似,一般累計方差貢獻率達到80%以上的前幾個因子可以作為最后的公因子
用特征根提。阂话阋笠蜃訉奶卣鞲笥1,因為特征根小于1說明該共因子的解釋力度太弱,還不如使用原始變量的解釋力度大
實際應用中,因子的提取要結合具體問題而定,在某種程度上,取決于研究者自身的知識和經驗
(5)主成分分析和因子分析都是多元分析中處理降維的兩種統計方法。只有當原始數據中的變量之間具有較強的相關關系時,降維的效果才會明顯,否則不適合進行主成分分析和因子分析
主成分和因子的選擇標準應結合具體問題而定。在某種程度上取決于研究者的知識和經驗,而不是方法本身
即使得到了滿意的主成分或因子,在運用它們對實際問題進行評價、排序等分析時,仍然要保持謹慎,因為主成分和因子畢竟是高度抽象的量,無論如何,它們的含義都不如原始變量清晰
因子分析可以看作是主成分分析的推廣和擴展,而主成分分析則可以看作是因子分析的一個特例。目前因子分析在實際中被廣泛應用,而主成分分析通常只作為大型統計分析的中間步驟,幾乎不再單獨使用
二、多元回歸
1.多重共線性
回歸模型中兩個或兩個以上的自變量彼此相關
多重共線性帶來的問題有
可能會使回歸的結果造成混亂,甚至會把分析引入歧途
可能對參數估計值的正負號產生影響,特別是各回歸系數的正負號有可能同我們預期的正負號相反
2.多重共線性的識別
檢測多重共線性的最簡單的一種辦法是計算模型中各對自變量之間的相關系數,并對各相關系數進行顯著性檢驗
若有一個或多個相關系數顯著,就表示模型中所用的自變量之間相關,存在著多重共線性
如果出現下列情況,暗示存在多重共線性
模型中各對自變量之間顯著相關。
當模型的線性關系檢驗(F檢驗)顯著時,幾乎所有回歸系數的t檢驗卻不顯著
回歸系數的正負號與預期的相反。
3.變量選則過程
在建立回歸模型時,對自變量進行篩選
選擇自變量的原則是對統計量進行顯著性檢驗
將一個或一個以上的自變量引入到回歸模型中時,是否使得殘差平方和(SSE)有顯著地減少。如果增加一個自變量使SSE的減少是顯著的,則說明有必要將這個自變量引入回歸模型,否則,就沒有必要將這個自變量引入回歸模型
確定引入自變量是否使SSE有顯著減少的方法,就是使用F統計量的值作為一個標準,以此來確定是在模型中增加一個自變量,還是從模型中剔除一個自變量
變量選擇的方法主要有:向前選擇、向后剔除、逐步回歸、最優子集等
4.向前選擇
從模型中沒有自變量開始
對k個自變量分別擬合對因變量的一元線性回歸模型,共有k個,然后找出F統計量的值最高的模型及其自變量(P值最小的),并將其首先引入模型
分別擬合引入模型外的k-1個自變量的線性回歸模型
如此反復進行,直至模型外的自變量均無統計顯著性為止
5.向后剔除
先對因變量擬合包括所有k個自變量的回歸模型。然后考察p(p
考察p-1個再去掉一個自變量的模型(這些模型中每一個都有k-2個的自變量),使模型的SSE值減小最少的自變量被挑選出來并從模型中剔除
如此反復進行,一直將自變量從模型中剔除,直至剔除一個自變量不會使SSE顯著減小為止
6.逐步回歸
將向前選擇和向后剔除兩種方法結合起來篩選自變量
在增加了一個自變量后,它會對模型中所有的變量進行考察,看看有沒有可能剔除某個自變量。如果在增加了一個自變量后,前面增加的某個自變量對模型的貢獻變得不顯著,這個變量就會被剔除
按照方法不停地增加變量并考慮剔除以前增加的變量的可能性,直至增加變量已經不能導致SSE顯著減少
在前面步驟中增加的自變量在后面的步驟中有可能被剔除,而在前面步驟中剔除的自變量在后面的步驟中也可能重新進入到模型中
7.虛擬自變量
用數字代碼表示的定性自變量
虛擬自變量可有不同的水平
只有兩個水平的虛擬自變量。比如,性別(男,女)
有兩個以上水平的虛擬自變量,貸款企業的類型(家電,醫藥,其他)
虛擬變量的取值為0,1
回歸模型中使用虛擬自變量時,稱為虛擬自變量的回歸
當虛擬自變量只有兩個水平時,可在回歸中引入一個虛擬變量,比如,性別
一般而言,如果定性自變量有k個水平,需要在回歸中模型中引進k-1個虛擬變量
例:引進虛擬變量時,回歸方程可寫:
E(y) =b0+ b1x1+ b2x2
女( x2=0):E(y|女性) =b0 +b1x1
男(x2=1):E(y|男性) =(b0 + b2 ) +b1x1
b0的含義表示:女性職工的期望月工資收入
(b0+ b2)的含義表示:男性職工的期望月工資收入
b1含義表示:工作年限每增加1年,男性或女性工資的平均增加值
b2含義表示:男性職工的期望月工資收入與女性職工的期望月工資收入之間的差值 (b0+ b2) - b0= b2
三、簡單回歸
1.相關分析:對兩個變量之間線性關系的描述與度量,它要解決的問題包括
§ 變量之間是否存在關系?
§ 如果存在關系,它們之間是什么樣的關系?
§ 變量之間的強度如何?
§ 樣本所反映的變量之間的關系能否代表總體變量之間的關系?
2.回歸分析:從一組樣本數據出發,確定變量之間的數學關系式;對這些關系式的可信程度進行各種統計檢驗,并從影響某一特定變量的諸多變量中找出哪些變量的影響顯著,哪些不顯著;利用所求的關系式,根據一個或幾個變量的取值來預測或控制另一個特定變量的取值,并給出這種預測或控制的精確程度
3.回歸分析與相關分析的區別
相關分析中,變量 x 變量 y 處于平等的地位;回歸分析中,變量 y 稱為因變量,處在被解釋的地位,x 稱為自變量,用于預測因變量的變化
相關分析中所涉及的變量 x 和 y 都是隨機變量;回歸分析中,因變量 y 是隨機變量,自變量 x 可以是隨機變量,也可以是非隨機的確定變量
相關分析主要是描述兩個變量之間線性關系的密切程度;回歸分析不僅可以揭示變量 x 對變量 y 的影響大小,還可以由回歸方程進行預測和控制
4.一元線性回歸模型
描述因變量 y 如何依賴于自變量 x 和誤差項e 的方程稱為回歸模型
一元線性回歸模型可表示為
y = b0 +b1 x + e
y 是 x 的線性函數(部分)加上誤差項
線性部分反映了由于 x 的變化而引起的 y 的變化
誤差項 e 是隨機變量
l 反映了除 x 和 y 之間的線性關系之外的隨機因素對 y 的影響
l 是不能由 x 和 y 之間的線性關系所解釋的變異性
b0 和 b1 稱為模型的參數
5.利用回歸方程預測時應注意
1. 在利用回歸方程進行估計或預測時,不要用樣本數據之外的x值去預測相對應的y值
2. 因為在一元線性回歸分析中,總是假定因變量y與自變量x之間的關系用線性模型表達是正確的。但實際應用中,它們之間的關系可能是某種曲線
3. 此時我們總是要假定這條曲線只有一小段位于x測量值的范圍之內。如果x的取值范圍是在xL和xU之間,那么可以用所求出的利用回歸方程對處于xL和xU之間的值來估計E(y)和預測y。如果用xL和xU之間以外的值得出的估計值和預測值就會很差
6.離差平方和
總平方和(SST)
反映因變量的 n 個觀察值與其均值的總離差
回歸平方和(SSR)
反映自變量 x 的變化對因變量 y 取值變化的影響,或者說,是由于 x 與 y 之間的線性關系引起的 y 的取值變化,也稱為可解釋的平方和
殘差平方和(SSE)
反映除 x 以外的其他因素對 y 取值的影響,也稱為不可解釋的平方和或剩余平方和
7.估計標準誤差
實際觀察值與回歸估計值離差平方和的均方根(自由度n-2)
反映實際觀察值在回歸直線周圍的分散狀況
對誤差項e的標準差s的估計,是在排除了x對y的線性影響后,y隨機波動大小的一個估計量
反映用估計的回歸方程預測y時預測誤差的大小
四、方差分析
1. 通過分析數據的誤差判斷各總體均值是否相等;研究一個或多個分類型自變量對一個數值型因變量的影響
單因素方差分析:涉及一個分類的自變量
雙因素方差分析:涉及兩個分類的自變量
2.(1)僅從散點圖上觀察還不能提供充分的證據證明不同行業被投訴的次數之間有顯著差異
這種差異也可能是由于抽樣的隨機性所造成的
需要有更準確的方法來檢驗這種差異是否顯著,也就是進行方差分析
所以叫方差分析,因為雖然我們感興趣的是均值,但在判斷均值之間是否有差異時則需要借助于方差
這個名字也表示:它是通過對數據誤差來源的分析判斷不同總體的均值是否相等。因此,進行方差分析時,需要考察數據誤差的來源
(2)隨機誤差
因素的同一水平(總體)下,樣本各觀察值之間的差異
比如,同一行業下不同企業被投訴次數是不同的
這種差異可以看成是隨機因素的影響,稱為隨機誤差
系統誤差
因素的不同水平(不同總體)下,各觀察值之間的差異
比如,不同行業之間的被投訴次數之間的差異
這種差異可能是由于抽樣的隨機性所造成的,也可能是由于行業本身所造成的,后者所形成的誤差是由系統性因素造成的,稱為系統誤差
(3) 數據的誤差用平方和(sum of squares)表示
組內平方和(within groups)
因素的同一水平(同一個總體)下樣本數據的平方和
比如,零售業被投訴次數的誤差平方和
組內平方和只包含隨機誤差
組間平方和(between groups)
因素的不同水平(不同總體)下各樣本之間的平方和
比如,四個行業被投訴次數之間的誤差平方和
組間平方和既包括隨機誤差,也包括系統誤差
3.方差分析的基本假定
正態性:每個總體都應服從正態分布
對于因素的每一個水平,其觀察值是來自服從正態分布總體的簡單隨機樣本
比如,每個行業被投訴的次數必需服從正態分布
方差齊性:各個總體的方差必須相同
各組觀察數據是從具有相同方差的總體中抽取的
比如,四個行業被投訴次數的方差都相等
獨立性:觀察值是獨立的(該假定不滿足對結果影響較大)
4.問題的一般提法:(1)設因素有k個水平,每個水平的均值分別用m1 , m2, ¼, mk 表示
(2)要檢驗k個水平(總體)的均值是否相等,需要提出如下假設:
H0 : m1 = m2 = …= mk
H1 : m1 , m2 , ¼,mk 不全相等
5.SST:全部觀察值xij與總平均值的離差平方和,反映全部觀察值的離散狀況
SSA:各組平均值xi與總平均值xij的離差平方和;反映各總體的樣本均值之間的差異程度,又稱組間平方和;該平方和既包括隨機誤差,也包括系統誤差
SSE:每個水平或組的各樣本數據與其組平均值的離差平方和;反映每個樣本各觀察值的離散狀況,又稱組內平方和;該平方和反映的是隨機誤差的大小
總離差平方和(SST)、誤差項離差平方和(SSE)、水平項離差平方和 (SSA) 之間的關系:
SST = SSA + SSE
如果原假設成立,則表明沒有系統誤差,組間平方和SSA除以自由度后的均方與組內平方和SSE和除以自由度后的均方差異就不會太大;如果組間均方顯著地大于組內均方,說明各水平(總體)之間的差異不僅有隨機誤差,還有系統誤差
判斷因素的水平是否對其觀察值有影響,實際上就是比較組間方差與組內方差之間差異的大小
6.均方
各誤差平方和的大小與觀察值的多少有關,為消除觀察值多少對誤差平方和大小的影響,需要將其平均,這就是均方,也稱為方差
計算方法是用誤差平方和除以相應的自由度
三個平方和對應的自由度分別是
SST 的自由度為n-1,其中n為全部觀察值的個數
SSA的自由度為k-1,其中k為因素水平(總體)的個數
SSE 的自由度為n-k
7.構造檢驗統計量
將MSA和MSE進行對比,即得到所需要的檢驗統計量F
當H0為真時,二者的比值服從分子自由度為k-1、分母自由度為 n-k 的 F 分布
將統計量的值F與給定的顯著性水平a的臨界值Fa進行比較,作出對原假設H0的決策
² 根據給定的顯著性水平a,在F分布表中查找與第一自由度df1=k-1、第二自由度df2=n-k 相應的臨界值 Fa
² 若F>Fa ,則拒絕原假設H0 ,表明均值之間的差異是顯著的,所檢驗的因素對觀察值有顯著影響
² 若F
8.關系強度
變量間關系的強度用自變量平方和(SSA)及殘差平方和(SSE)占總平方和(SST)的比例大小來反映
自變量平方和占總平方和的比例記為R2 ,即
3、其平方根R就可以用來測量兩個變量之間的關系強度
五、假設檢驗
(一)概念
先對總體的參數(或分布形式)提出某種假設,然后利用樣本信息判斷假設是否成立的過程
有參數檢驗和非參數檢驗
邏輯上運用反證法,統計上依據小概率原理
什么小概率?
1. 在一次試驗中,一個幾乎不可能發生的事件發生的概率
2. 在一次試驗中小概率事件一旦發生,我們就有理由拒絕原假設
3. 小概率由研究者事先確定
怎樣通過假設檢驗去掉偶然性
利用P值進行檢驗就可以去掉偶然性。因為P值告訴我們在某個總體的許多樣本中,某一類數據出現的經常程度,P值是當原假設正確的情況下,得到所觀測的數據的概率。如果原假設是正確的,P值若很小,則告訴我餓們得到這樣的觀測數據是多么的不可能,相當不可能得到的數據,就是原假設不對的合理證據,偶然性也就消除了。
(二)原假設
1. 研究者想收集證據予以反對的假設。是關于總體參數的表述,它是接受檢驗的假設。
2. 總是有符號 =, £ 或 ³
3. 表示為 H0
n H0 : m = 某一數值
n 指定為符號 =,£ 或 ³
(三)備擇假設
研究者想收集證據予以支持的假設。黨員假設被否定時另一種可成立的假設。
總是有符號 ¹, < 或 >
表示為 H1
n H1 : m <某一數值,或m >某一數值
(四)結論與總結
原假設和備擇假設是一個完備事件組,而且相互對立
n 在一項假設檢驗中,原假設和備擇假設必有一個成立,而且只有一個成立
先確定備擇假設,再確定原假設
等號“=”總是放在原假設上
因研究目的不同,對同一問題可能提出不同的假設(也可能得出不同的結論)
(五)兩類錯誤
1. 第Ⅰ類錯誤(棄真錯誤)
原假設為真時拒絕原假設
第Ⅰ類錯誤的概率記為a。被稱為顯著性水平。常用的 a 值有0.01, 0.05, 0.10
2. 第Ⅱ類錯誤(取偽錯誤)
原假設為假時未拒絕原假設
第Ⅱ類錯誤的概率記為b (Beta)
影響b錯誤的因素:1. 總體參數的真值。隨著假設的總體參數的減少而增大
2. 顯著性水平 a。當 a 減少時增大 3. 總體標準差 s。當 s 增大時增大 4.樣本容量 n。當 n 減少時增大
控制:進行假設檢驗時總希望犯兩類錯誤的可能性都很小,然而,在其他條件不變的情況下,a與b是此消彼長的關系,二者不可能同時減小。若要同時減小a與b,只能是增大樣本量。一般總是控制a,是犯錯誤的概率不大于a,即a是允許犯棄真錯誤的最大概率值(而P值相當于根據樣本計算的犯棄真錯誤的概率值,故P值又稱為觀測的顯著性水平)。但確定a時必須注意,如果犯棄真錯誤的代價較大,a可取小些,相反,如果返取偽錯誤的代價較大,則a宜取大些(以使b較小)
(六)假設檢驗的結論表述
假設檢驗的目的就在于試圖找到拒絕原假設,而不在于證明什么是正確的
拒絕原假設時結論是清楚的
例如,H0:m=10,拒絕H0時,我們可以說¹m10
當不拒絕原假設時
并未給出明確的結論
不能說原假設是正確的,也不能說它不是正確的
例如, 當不拒絕H0:m=10,我們并未說它就是10,但也未說它不是10。我們只能說樣本提供的證據還不足以推翻原假設
(七)統計上的顯著與實際意義
1. 當拒絕原假設時,我們稱樣本結果是統計上顯著的(statistically Significant)
2. 當不拒絕原假設時,我們稱樣本結果是統計上不顯著的
3. 在“顯著”和“不顯著”之間沒有清除的界限,只是在P值越來越小時,我們就有越來越強的證據,檢驗的結果也就越來越顯著
4. “顯著的”(Significant)一詞的意義在這里并不是“重要的”,而是指“非偶然的”
5. 一項檢驗在統計上是“顯著的”,意思是指:這樣的(樣本)結果不是偶然得到的,或者說,不是靠機遇能夠得到的
6. 如果得到這樣的樣本概率(P)很小,則拒絕原假設
在這么小的概率下竟然得到了這樣的一個樣本,表明這樣的樣本經常出現,所以,樣本結果是顯著的
7. 在進行決策時,我們只能說P值越小,拒絕原假設的證據就越強,檢驗的結果也就越顯著
8. 但P值很小而拒絕原假設時,并不一定意味著檢驗的結果就有實際意義
因為假設檢驗中所說的“顯著”僅僅是“統計意義上的顯著”
一個在統計上顯著的結論在實際中卻不見得就很重要,也不意味著就有實際意義
9. 因為值與樣本的大小密切相關,樣本量越大,檢驗統計量的P值也就越大,P值就越小,就越有可能拒絕原假設
10.如果你主觀上要想拒絕原假設那就一定能拒絕它
這類似于我們通常所說的“欲加之罪,何患無詞”
只要你無限制擴大樣本量,幾乎總能拒絕原假設
11.當樣本量很大時,解釋假設檢驗的結果需要小心
在大樣本情況下,總能把與假設值的任何細微差別都能查出來,即使這種差別幾乎沒有任何實際意義
12.在實際檢驗中,不要刻意追求“統計上的”顯著性,也不要把統計上的顯著性與實際意義上的顯著性混同起來
n一個在統計上顯著的結論在實際中卻不見得很重要,也不意為著就有實際意義
六、參數估計
(一)點估計
用樣本的估計量直接作為總體參數的估計值
2. 缺點:沒有給出估計值接近總體參數程度的信息,它與真摯的誤差、估計可靠性怎么樣無法知道。區間估計可以彌補這種不足。
點估計的方法有矩估計法、順序統計量法、最大似然法、最小二乘法等
(二) 區間估計
在點估計的基礎上,給出總體參數估計的一個區間范圍,該區間由樣本統計量加減抽樣誤差而得到的。
根據樣本統計量的抽樣分布能夠對樣本統計量與總體參數的接近程度給出一個概率度量。
(三)置信水平
將構造置信區間的步驟重復很多次,置信區間包含總體參數真值的次數所占的比例稱為置信水平
表示為 (1 - a% )
常用的置信水平值有 99%, 95%, 90%;相應的 a 為0.01,0.05,0.10
(四)置信區間
ü 由樣本統計量所構造的總體參數的估計區間稱為置信區間;
ü 統計學家在某種程度上確信這個區間會包含真正的總體參數,所以給它取名為置信區間
ü 用一個具體的樣本所構造的區間是一個特定的區間,我們無法知道這個樣本所產生的區間是否包含總體參數的真值,我們只能是希望這個區間是大量包含總體參數真值的區間中的一個,但它也可能是少數幾個不包含參數真值的區間中的一個
置信區間的表述:
總體參數的真值是固定的,而用樣本構造的區間則是不固定的,因此置信區間是一個隨機區間,它會因樣本的不同而變化,而且不是所有的區間都包含總體參數
實際估計時往往只抽取一個樣本,此時所構造的是與該樣本相聯系的一定置信水平(比如95%)下的置信區間。我們只能希望這個區間是大量包含總體參數真值的區間中的一個,但它也可能是少數幾個不包含參數真值的區間中的一個
當抽取了一個具體的樣本,用該樣本所構造的區間是一個特定的常數區間,我們無法知道這個樣本所產生的區間是否包含總體參數的真值,因為它可能是包含總體均值的區間中的一個,也可能是未包含總體均值的那一個
一個特定的區間總是“包含”或“絕對不包含”參數的真值,不存在“以多大的概率包含總體參數”的問題
置信水平只是告訴我們在多次估計得到的區間中大概有多少個區間包含了參數的真值,而不是針對所抽取的這個樣本所構建的區間而言的
使用一個較大的置信水平會得到一個比較寬的置信區間,而使用一個較大的樣本則會得到一個較準確(較窄)的區間。直觀地說,較寬的區間會有更大的可能性包含參數
但實際應用中,過寬的區間往往沒有實際意義
區間估計總是要給結論留點兒余地
影響置信區間寬度的因素:
1.總體數據的離散程度,用 s 來測度;2.樣本容量;3. 置信水平 (1- a),影響 zα/2 的大小
(五) 參數估計標準:
無偏性:估計量抽樣分布的數學期望等于被估計的總體參數
有效性:對同一總體參數的兩個無偏點估計量,有更小標準差的估計量更有效
一致性:隨著樣本容量的增大,估計量的值越來越接近被估計的總體參數
七、數據特征
(一)集中趨勢:表明同類現象在一定時間、地點條件下,所達到的一般水平與大量單位的綜合數量特征,有以下3個特點:
1. 用一個代表數值綜合反映個體某種標志值的一般水平。
2. 將個體標志值之間的差異抽象掉了。
3. 計量單位與標志值的計量單位一致。
集中趨勢
1. 一組數據向其中心值靠攏的傾向和程度
2. 測度集中趨勢就是尋找數據水平的代表值或中心值
3. 不同類型的數據用不同的集中趨勢測度值
4. 低層次數據的測度值適用于高層次的測量數據,但高層次數據的測度值并不適用于低層次的測量數據
集中趨勢的作用:
比較若干總體的某種標志數值的平均水平
研究總體某種標志數值的平均水平在時間上的變化
分析社會經濟現象的依存關系
研究和評價事物優劣的數量指標
計算和估算其他重要的經濟指標
(二)離中趨勢:
數據分布的另一個重要特征
反映各變量值遠離其中心值的程度(離散程度)
從另一個側面說明了集中趨勢測度值的代表程度
不同類型的數據有不同的離散程度測度值
離中趨勢度量的目的:
描述總體內部差異程度;衡量和比較均值指標的代表性高低;為抽選樣本單位數提供依據
區別與聯系:
區別:集中趨勢是對頻數分布資料的集中狀況和平均水平的綜合測度;是一組數據向其中心值靠攏的傾向和程度;測度集中趨勢就是尋找數據水平的代表值或中心值。離中趨勢是對頻數分布資料的差異程度和離散程度的測度,用來衡量集中趨勢所測數據的代表性,或者反應變量值的穩定性與均勻性;是用來描述總體內部差異程度及衡量和比較均值指標的代表性高低。偏度是用來反應變量數列分布偏斜程度的指標,有對稱分布和非對稱分布,非對稱分布也即為偏態分布,包括左偏分布和右偏分布。峰度是用來反應變量數列曲線頂端尖峭或扁平程度的指標。
聯系:為了反面描述研究對象的情況,僅僅用集中趨勢方法來測度集中性和共性是不夠的,還要用離散趨勢方法來測度其離散性和差異性,因此,而這需要結合使用。集中趨勢和離中趨勢是變量數列分布的兩個重要特征,但要全面了解變量數列分布的特點,還需要知道數列的形狀是否對稱、偏斜程度以及分布的扁平程度等。偏度和峰度就是從分布特征作進一步的描述。
八、數據質量
1. 數據的誤差:(1)抽樣誤差;
a、 在用樣本數據進行統計推斷時所產生的誤差(樣本統計量與相應總體參數之間的偏差)
b、由于抽樣的隨機性所帶來的誤差
c、 影響抽樣誤差的大小的因素:抽樣方法;樣本量的大小;總體的變異性
(2) 非抽樣誤差(抽樣框誤差;回答誤差;無回答誤差;調查員誤差)
a、 調查過程中由于調查者和被調查者的人為因素所造成的誤差(除抽樣誤差之外的,由于其他原因造成的樣本觀察結果與總體真值之間的差異)
b、理論上可以消除
c、 存在于所有的調查之中:概率抽樣,非概率抽樣,全面性調查
(3) 誤差的控制
a、 抽樣誤差可計算和控制
b、非抽樣誤差的控制:調查員的挑選;調查員的培訓;督導員的調查專業水平:調查過程控制(調查結果進行檢驗、評估;現場調查人員進行獎懲的制度)
(4)統計數據質量的要求;
1. 精 度:最低的抽樣誤差或隨機誤差
2. 準 確 性:最小的非抽樣誤差或偏差
3. 關 聯 性:滿足用戶決策、管理和研究的需要
4. 及 時 性:在最短的時間里取得并公布數據
5. 一 致 性:保持時間序列的可比性
6. 最低成本:以最經濟的方式取得數據
九、統計數據
對現象進行測量的結果;不是指單個的數字,而是由多個數據構成的數據集;不僅僅是指數字,它可以是數字的,也可以是文字的
分類:按計量
分類數據(categorical data)
只能歸于某一類別的非數字型數據
對事物進行分類的結果,數據表現為類別,用文字來表述
順序數據(rank data)
只能歸于某一有序類別的非數字型數據
對事物類別順序的測度,數據表現為類別,用文字來表述
數值型數據(metric data)
按數字尺度測量的觀察值
結果表現為具體的數值,對事物的精確測度
按收集方法
觀測的數據(observational data) :
在沒有對事物人為控制的條件下而得到的,通過調查或觀測而收集到的數據
試驗的數據(experimental data) :在試驗中控制試驗對象而收集到的數據
按時間狀況
1. 時間序列數據(time series data)
在不同時間上收集到的數據
描述現象隨時間變化的情況
2截面數據(cross-sectional data)
在相同或近似相同的時間點上收集的數據
描述現象在某一時刻的變化情況
十、統計學性質
統計學: 收集、分析、表述和解釋數據的科學 1.數據搜集:取得數據;2.數據分析:分析數據;3.數據表述:圖表展示數據;4.數據解釋:結果的說明
(一)現代統計學的性質可歸納為如下幾個方面:
1.統計學是方法論科學,而不是實質性科學
它研究的是事物普遍存在的數量關系的計量和數量分析的方法,并通過數量分析來認識特定事物的內在規律性,但不是研究規律本身。
2.統計學的應用范圍不局限于社會科學,也不局限于自然科學。
由于其方法來自于社會科學也來自于自然科學,所以它可以用于社會現象也可以用于自然現象,即統計學是一種通用的方法論科學。同時統計學也不是依服于實質性科學而存在的方法論,它是獨立的方法論科學。
3.統計學的研究對象既包括確定性現象的總體數量關系,也包括隨機現象的總體數量關系,即統計學是研究各類事物總體數據的方法論科學。
統計學是為探索事物數量所反映的客觀規律性,而對事物總體的大量數據進行收集、整理和分析研究的方法論科學。它以大量的客觀事物的量化描述、特征推算及關系分析為其主要研究對象。
(二)描述統計學與推斷統計學:
描述統計學(Descriptive Statistics)研究如何取得反映客觀現象的數據,并通過圖表形式對所收集的數據進行加工處理和顯示,進而通過綜合概括與分析得出反映客觀現象的規律性數量特征。內容包括統計數據的收集方法、數據的加工處理方法、數據的顯示方法、數據分布特征的概括與分析方法等。
推斷統計學(1nferential Statistics)則是研究如何根據樣本數據去推斷總體數量特征的方法,它是在對樣本數據進行描述的基礎上,對統計總體的未知數量特征做出以概率形式表述的推斷。
描述統計學和推斷統計學的劃分,一方面反映了統計方法發展的前后兩個階段,同時也反映了應用統計方法探索客觀事物數量規律性的不同過程。
統計研究過程的起點是統計數據,終點是探索出客觀現象內在的數量規律性。在這一過程中,如果搜集到的是總體數據(如普查數據),則經過描述統計之后就可以達到認識總體數量規律性的目的了;如果所獲得的只是研究總體的一部分數據(樣本數據),要找到總體的數量規律性,則必須應用概率論的理論并根據樣本信息對總體進行科學的推斷。
顯然,描述統計和推斷統計是統計方法的兩個組成部分。描述統計是整個統計學的基礎,推斷統計則是現代統計學的主要內容。
【統計學知識要點】相關文章:
小升初的相關知識要點06-29
小升初語文知識要點08-12
外貿單證知識要點12-16
統計學基礎知識匯總08-26
黨建基礎知識要點03-22
小升初語文知識要點復習06-28
小升初語文知識要點匯總06-27
小升初語文知識要點歸納06-27
小升初數學知識要點06-28