左 尾檢定 例子

作者:謝維馨/有勁生物科技

一般來說,當我們希望藉由統計的方法來協助我們進行推論時,我們會先針對結果提出假設,並希望能夠利用有限的的資料加以證實我們提出的假設,而假設檢定就是一種用來檢驗統計假設的方法。

在研究的過程中,要提出一個強而有力的證據來證明假設為真是不容易的,因此在進行假設檢定的過程中,我們會先將結果分成兩種相反的決策:虛無假設 (Null Hypothesis, H0)和對立假設(Alternative Hypothesis, H1),並利用反證法來證實我們的推論。換句話說,進行假設檢定的目標,不是在於證明立論為真,而是希望能夠有足夠的證據可以推翻相反的立論。因此,我們通常會將我們希望推翻的目標設為虛無假設 (H0)、將我們期望證實的結果設為對立假設 (H1),並期望可以透過推翻虛無假設來證實我們的推論。

根據H0所定訂範圍的差異,可將假設檢定的型式分成兩種:單尾檢定 (one-tailed tests)以及雙尾檢定 (two-tailed tests)。其中,單尾檢定又可細分為右尾檢定 (upper-tail test)和左尾檢定  (lower-tail test)。當樣本檢定量越大,越容易拒絕H0時,即為右尾檢定;反之,當樣本檢定量越小,越容易拒絕H0時,就稱為左尾檢定;若樣本檢定量越大或越小均可能拒絕H0時,則為雙尾檢定。

左 尾檢定 例子

然而,如果虛無假設在事實上成立,但是檢驗的結果卻將虛無假設推翻,而造成檢定錯誤,我們稱之為型一誤差 (Type I Error)。若虛無假設事實上不成立,但是檢驗結果卻沒有推翻虛無假設,我們將此類型的錯誤稱之為型二誤差 (Type II Error)。

在理想上,我們會希望正確率越高越好,然而在實務上,我們受限於技術與金費,發生檢定錯誤是在所難免的,因此當我們在進行假設檢定時,我們會控制型一誤差的發生,給定一個我們容許型一誤差發生的上限,稱之為顯著水準 (Significance level, α )。

左 尾檢定 例子

給定顯著水準後,便可以開始進行檢定。檢定統計假設的方法主要有兩種:臨界值法 (Critical value method)和P值法 (P-value method)。

使用臨界值法時,我們一般會給定拒絕域 (拒絕H0的區域)以及接受域 (不拒絕H0的區域),當檢定統計量落入拒絕域時,則表示我們的樣本有足夠的證據來拒絕H0;反之,當檢定統計量落入接受域的時候,就表示我們的樣本資訊沒有足夠的證據來拒絕H0。

使用P值法時,我們會再H0為真的條件下,計算拒絕H0的最大機率。若P值小於 α ,則拒絕虛無假設 (H0),否則便無法拒絕H0。

用人話說明什麼是假設檢定

用一個情境先帶大家有點感覺。

聽說大陸內地新疆出美女

於是我上網搜尋,不得了,還真的是美女如雲,迪麗熱巴、佟麗婭、古力娜扎個個臉蛋標緻、身材纖細,這句話我真他媽的信了!於是我買了機票,在新疆烏魯木齊機場降落,開始一窺美女的部落,但接連而來的路人,要嘛腦滿腸肥,要嘛拐瓜劣棗,我開始覺得那句話根本是在唬爛。

新疆美女 — 圖擷取自網路

我有沒有去新疆不是重點,到底新疆是不是出美女啊?怎麼同一句話在不同時間會出現這麼大的感覺變異,關鍵就在於抽樣,因為我們總不可能將所新疆女性一個一個看過,所以我們是透過少數的抽樣來反推母體,判斷那個"對母體的描述"是否正確,如果將"對母體的描述"改成"聽說大陸內地新疆無美女",相信上述情境的感覺就會顛倒。

假設檢定是統計學裡的一門學問,從字義上可得知先做假設(對母體的描述),再做檢定求證(抽樣判斷是否描述為真)。主要是利用樣本來推論母體狀況。我們想知道母體的模樣,但因為全取樣(母體)的成本及作業相對困難,因此會採用少量樣本,透過假設檢定方法,去判斷"對母體的描述"是否正確。這邊值得注意的是,一開始舉的例子,純粹是一種感覺(多或少),假設檢定是種科學的方法,它講求描述一定是要有"數值"。

再舉一個貼近假設檢定運用的情境,有一個袋子裝著100顆球,有人聲稱:

袋子裡裝的全部都是白球

結果從袋子裡抽出第一顆球是紅球,馬上打臉這個假設,但如果改稱:

袋子裡裝著三顆紅球,其餘是白球

那剛第一顆出來的紅球,就變得合情合理。接下來抽出第二顆球還是紅球,相信大家就會開始執疑這個假設,認為袋子裡的紅球不只三顆,畢竟100顆球裡面要連續抽出兩個紅球這機率實在不高(3/100 X 2/99),但平心而論還是有這個機會的,但如果第三顆還是紅球,我想沒人會去相信他這鬼話吧!從這個情境,我們可以用一句話來形容假設檢定:

根據"對母體描述"的假設,樣品出現的機率是多少

至於機率多少可以接受,端看你能接受的程度,一般是為5%(α)。相信大家看過以上兩個情境之後,對於假設檢定的功用及運作模式一定有較具體的概念,接下來就來講講一些專有名詞吧!

「虛無假設」和「對立假設」

如同上述情境的聲稱"聽說大陸內地新疆出美女"、"袋子裡裝著三顆紅球,其餘是白球",這些都是對母體的描述,也就是虛無假設(H0),而對立假設(H1)就是它的相反面。也就是如果「虛無假設」是錯的,那麼「對立假設」就是對的。假設檢定真正的用意就是推翻(拒絕)虛無假設來證明對立假設為真;反之,如果無法拒絕虛無假設,並非虛無假設必定為真,只是樣本証據上無法拒絕。

顯著因子(α)

你可能會問,小樣本數怎麼可能100%準確的呈現母體樣貌(現實)?對,既然我們知道假設檢定是透過機率來運作,那必定會有誤判的風險。

誤判的情況有兩種:型一錯誤和型二錯誤。

型一:我選H1(拒絕H0),但結果是錯的

型二:我選H0(不拒絕H0),但結果是錯的

假設檢定的誤判

如同前段談論假設推定的目的,拒絕H0,讓H1成立。可能伴隨發生的就是型I錯誤,因此為了提升我們的準確性,我們勢必要降低型I錯誤發生的機率。因此需要限定一個可容忍的錯誤發生率,也就是α(顯著因子)。常用的α值為:0.1(90%正確性)、0.05(95%正確性)、0.01(99%正確性)。

假設的訂定

基無上述的理由,怎樣訂定虛無假設和對立假設就變得十分重要。舉例來說,法官會寧可錯放,也不要錯殺(冤獄),所以皆以無罪推定為假設(虛無假設),也就是檢查官必須去找出有力的證據來推翻嫌疑犯的無罪論述,所以才會有很多判決結果令人傻眼,有許多法官被灌上"恐龍法官"的稱號,但基本上如果是法治國家,都是用無罪推定當做前題!總不能我誣賴你偷竊,要你自己找證據證明自己清白吧!

虛無假設和對立假設的訂定有其潛規則,基本上依據下列方式去訂定

  1. 對立假設為真的後果是較嚴重的
  2. 對立假設為真的結果是關係利害人所關切的
  3. 對立假設為真的正確的機率較高

Z檢定和 t檢定的差別

說到假設檢定,常聽到Z檢定和t檢定,其有何差別?簡單來說就是兩個不同的檢定方法,各有使用的適當時機。Z檢定用於大樣本(樣本數大於30,統計學上可代表母體),而t檢定則用於小樣本(樣本數小於30)。t檢定的運算中包含自由度,當樣本數越高,自由度越高,其結果與Z檢定也越相近。

檢定統計量、拒絕域、信賴區間

t檢定根據樣本數(自由度)和顯著因子,可查表得到臨界值(critical value),如果樣本資料算出的檢定統計量落於臨界值外(拒絕域,同時表示樣本出現的機率比顯著因子還要低),則可以拒絕虛無假設。反之,如果不在拒絕域,就是在信賴區間上,決策上就不會拒絕虛無假設。

麻煩的檢定統計量計算拒絕域與接受域

左尾、右尾、雙尾?

拒絕域位於左邊區域屬於左尾,位於右邊區域屬於右尾。位於驗証值兩邊則屬於雙尾。可以直接用H1的假設來判斷。

左尾、右尾、雙尾,誰比較大尾

p-value是什麼,為什麼越小越好?

p-value簡單的說就是根據對母體的描述,這個樣本出現的機率有多少,如果p-value比顯著因子還要低,樣本的檢定統計量落於拒絕域上,表示出現了不可能樣本,如此便可拒絕虛無假設(也就是假設檢定的目的)。

取得的樣本,依據假設所得到的機率(p)低有兩種可能,要嘛,就是你的假設是錯的(拒絕虛無假設),要嘛就是取樣的樣本就是這麻註屎(造成型一錯誤)

檢定型式有Z值法和p值法,差異為何?

Z值法(比較樣本的檢定統計量和臨界值)和p值法(比較樣本機率和顯著因子)

假設檢定運用的地方有:平均數檢定(最常用)、比例檢定、變異數檢定。

假設檢定運用:平均數、比例、變異數

而你可以根據以下步驟,更清楚如何執行假設檢定

  1. 定訂H0、H1
  2. 選擇樣本適合的檢定:Z檢定或是 t檢定
  3. 選擇檢定型式:Z值法或是P值法
  4. 計算檢定統計量和查表求拒絕域
  5. 決策:拒絕H0 or 不拒絕H0

好啦!我想大家都不會想用手去計算假設檢定,那你可以借助軟體的力量。簡單常見的EXCEL就有這功能,統計套裝軟體那就更不用說了XD。希望這篇有幫助到大家理解假設檢定是什麼東東。

EXCEL執行假設檢定