2009年9月19日 星期六

空間異質性

在臺灣,一般公認客家人比福佬人偏向泛藍。然而,這屬於平均狀態的描述,並非放諸各地皆準。事實上,北部客家人確實比福佬人偏向泛藍,但南部客家人比福佬人偏向泛綠。由於北部客家人比南部客家人還多,平均之後,南部客家人的政治傾向就被抵銷而看不見了。像這種客家人與政黨支持度的關係隨位置而改變的情況,就是所謂的空間異質性 (spatial heterogeneity)。

空間異質性與空間相依性是空間計量的兩大重點。過去,我經常在這裡談論空間相依性,但幾乎不涉及空間異質性。現在利用這篇文章,正式介紹空間異質性。內有數學怪獸,繼續閱讀前請三思。


在開始之前,先看看 2008 年臺灣總統選舉的例子。如果我們想知道族群結構與謝長廷得票率的關係,可利用下列迴歸式:

謝長廷得票率 = 截距項 + β1*客家人比例 + β2*原住民比例 + β3*外省人比例 + 誤差項

福佬人做為對照組,所以不在迴歸式裡面。這個迴歸式的左手邊也可以換成馬英九得票率,如此則 β1、β2、β3 的值與上式正負相反。將臺灣 358 個鄉鎮的資料代入後,得到 R平方為 0.61。換言之,謝長廷 (或馬英九) 的得票分布可由族群結構解釋 61% 的變異。β1 的估計值為 -0.24。亦即,若原住民與外省人比例保持不變,當客家人比例多 1% (福佬人比例少 1%) 時,謝長廷得票率預期少 0.24%。顯而易見,客家人比福佬人較不支持謝長廷。

不過,-0.24 這個迴歸係數是 358 個鄉鎮的平均。倘若客家人的政治傾向存在明顯的空間異質性,那麼有些鄉鎮的 β1 就會偏離 -0.24,甚至可能是正的。如此,用 -0.24 來描述這些鄉鎮的客家人政治傾向就偏離事實了。更麻煩的是,空間異質性還會使 -0.24 這個估計值本身就是偏誤的,並使其統計檢定過度樂觀。

空間異質性意味著函數形式或參數隨著位置而改變。當遇到這種情況時,該如何處理呢?以下,分別介紹幾種方法。


(一) 劃分空間體制 (Spatial Regimes)

最簡單而粗糙的方法,是將異質的觀察點拆開來,不要混在同一條迴歸式裡。更精確地說,將空間異質的型式劃分為若干體制,每個體制具有獨自的迴歸係數或解釋變數。為了便於說明,設想只有兩個體制的簡單模型,觀察點事先被分類到其中一個體制。令 i 與 j 分別代表不同的體制,以矩陣型式表示:

yi = Xi*βi + μi

yj = Xj*βj + μj

例如,既然知道南部客家與北部客家不同,就把它們拆成兩個空間體制,各估各的迴歸係數。這個方法的缺點是:空間體制怎麼劃分?雲林的客家人算是北客還是南客?顯然,我們需要關於空間結構的先備知識。空間體制的劃分是一種先驗假定。倘若我們不清楚空間異質性的具體結構,如何劃分呢?此時,我們只能透過嘗試錯誤來尋找合理的空間體制了。

回到 2008 年臺灣總統選舉的例子。假設我們以臺灣的六大分區做為空間體制依據,則客家人比例對於謝長廷得票率的迴歸係數 (原住民比例與外省人比例已被控制) 分別如下。

北基宜:0.24
桃竹苗:-0.22
中彰投:-0.10
雲嘉南:-0.61
高屏澎:0.05
花東:0.18

從這樣的結果來看,北基宜、高屏澎、花東的客家人並非如同多數人印象中的偏藍。


(二) 多層次模型 (Multilevel Modelling)

多層次模型並不將觀察點拆成不同的迴歸式,而是允許同一條迴歸式的迴歸係數具有不同的值。如此,迴歸係數本身也成為一種變數,可由其他已知變數決定。我們通常以觀察點所屬區域之若干變數決定其係數。為了便於說明,這裡以簡單迴歸為例子:

yij = αj + βj*xij + εij

上式為觀察點層次的式子。觀察點 i 位於區域 j 之內,假設其係數是區域 j 某個變數的函數:

αj = α0 + α1*zj + μj
βj = β0 + β1*zj + νj

zj 是區域 j 的某個變數,例如產業結構或平均所得等等。上述兩式為區域層次的式子,將其代回觀察點層次的式子後:

yij = (α0 + α1*zj) + (β0 + β1*zj)*xij + (μj + νj*xij + εij)

顯而易見地,這個模型具有異質誤差。估計參數時若忽略誤差項的異質特徵,將產生誤導。估計方面的問題,這裡略而不提。其實,區域虛擬變數是多層次模型的一種特殊型式。假如 zj 非 1 即 0,而 μj 與 νj 皆為 0。如此,這個模型就成為納入區域虛擬變數的迴歸式,可利用最小平方法估計。

在多層次模型中,區域 j 的劃分乃是一種先驗假定。由於迴歸係數在跨越區域邊界時可產生不連續的變異,這成為多層次模型處理空間異質性的主要缺點。


(三) 空間擴張方法 (Spatial Expansion Methods)

空間體制或多層次模型只是將迴歸係數拆成若干組,同一體制或區域內的觀察點仍被視為同質。更進階的方法,則要讓任一觀察點都具有獨自的迴歸係數。問題是,如此會讓參數比觀察點還多,無法解開。假設觀察點有 n 個,解釋變數有 k 個。若任一觀察點都具有獨自參數,則未知參數有 n*k 個。為了減少未知參數,我們必須再附加少許的解釋變數來決定這 n*k 個參數。所謂的空間擴張方法,就是以坐標值來做為附加變數。這裡繼續以簡單迴歸為例子:

yi = αi + βi*xi + εi

上式為初始模型。任一觀察點 i 都具有獨自的係數 αi 與 βi。假設這些係數是橫坐標 z1 與縱坐標 z2 的精確函數:

αi = α0 + α1*z1i + α2*z2i
βi = β0 + β1*z1i + β2*z2i

z1 與 z2 稱為擴張變數。將上述兩式代回初始模型,可得最終模型:

yi = (α0 + α1*z1i + α2*z2i) + (β0 + β1*z1i + β2*z2i)*xi + εi

這個模型可利用最小平方法估計。然而,係數與擴張變數維持精確關係的假定是不切實際的。事實上,擴張變數的函數可加入隨機誤差項:

αi = α0 + α1*z1i + α2*z2i + μi
βi = β0 + β1*z1i + β2*z2i + νi

將上述兩式代回初始模型,則最終模型成為:

yi = (α0 + α1*z1i + α2*z2i) + (β0 + β1*z1i + β2*z2i)*xi + (μi + νi*xi + εi)

顯而易見地,這個模型具有異質誤差。估計方面的問題不在這裡討論。其實,空間擴張方法的型式與多層次模型類似。兩者的差異為,前者以觀察點的坐標值決定其係數,後者則以觀察點所屬區域之若干變數決定其係數。

空間擴張方法允許任一觀察點具有獨自的迴歸係數。以 2008 年臺灣總統選舉為例,客家人比例對於謝長廷得票率之迴歸係數 (原住民比例與外省人比例已被控制),隨著愈往東南方而愈大。不過,迴歸係數隨著坐標呈連續變化,仍是一種先驗假定。空間擴張方法的缺點是僅能掌握係數的整體變化趨勢,但不能捕捉係數的地區性變異。


(四) 隨機係數模型 (Random Coefficient Models)

多層次模型與空間擴張方法皆由特定變數來決定迴歸係數之空間變異。但有時候,我們實在找不到明顯的變數可用來決定迴歸係數的空間變異型式。此時,隨機係數模型是一個替代方法。對於任一觀察點 i 而言,都具有獨自的係數 αi 與 βi:

yi = αi + βi*xi + εi

係數 αi 與 βi 可拆解為共同係數與隨機誤差兩項:

αi = α + μi
βi = β + νi

α 與 β 對於所有觀察點都是相同的。將上述兩式代回初始模型後:

yi = α + β*xi + (εi + μi + νi*xi)

當然,這個模型也具有異質誤差。估計方面的問題不在這裡討論。隨機係數模型將迴歸係數的異質性視為隨機。既為隨機,異質性就沒有空間上的關連。因此嚴格說來,這個方法處理的不是空間異質性的問題。


(五) 空間適應過濾 (Spatially Adaptive Filtering)

還有一種完全不同的取向可以處理迴歸係數的空間異質,亦即根據嘗試錯誤的適應估計。在空間適應過濾的技術裡,每個觀察點的係數根據其鄰近觀察點的係數被重複地修正,直到模型配適度最適化。雖然這種取向提供完整的空間差異係數估計,並且能提升模型配適度,然而其統計詮釋是有限的。由於缺乏顯著性與假設檢定的架構,這種技術主要用於探索性分析。


(六) 移動窗迴歸 (Moving Window Regression)

既然任一觀察點都具有獨自的迴歸係數,那就讓任一觀察點都獨自跑一條迴歸式。不過,一個觀察點不足以跑一條迴歸式,因此得將其鄰近的觀察點包含進來。所謂的移動窗,即被用來界定鄰近觀察點的範圍。例如,移動窗的半徑設定為 10 公里,則距離迴歸點 10 公里內的觀察點都被納入迴歸點的迴歸式中。當迴歸式由某迴歸點移動至其旁邊的迴歸點時,窗戶就跟著往旁邊移動。於是,一些新的觀察點被包含進來,一些原有的觀察點則跑到窗戶以外。由此可見,位置愈靠近的兩條迴歸式,其迴歸係數也愈相似。

在移動窗之內的所有觀察點,無論距離迴歸點遠近,對於迴歸係數的估計都具有相同影響力。在移動窗之外的觀察點,就算只有一線之隔,仍然沒有任何影響力。換言之,觀察點對於係數估計的影響力呈現空間不連續。這成為移動窗迴歸的主要缺點。


(七) 地理加權迴歸 (Geographically Weighted Regression)

地理加權迴歸是移動窗迴歸的加強版。不同的是,地理加權迴歸給予任一觀察點一個權重。距離迴歸點愈近的觀察點,獲得愈高的權重。在窗戶邊界的觀察點,權重趨近於零。這個方法允許任何位置具有獨自的迴歸係數,且迴歸係數在空間上呈現連續的變異。

最後,再回到 2008 年臺灣總統選舉的例子。高雄、屏東、臺東、花蓮的客家人比福佬人更支持謝長廷。例如,花蓮縣玉里鎮的迴歸係數是 0.13。這意味著,若原住民與外省人比例保持不變,當客家人比例多 1% (福佬人比例少 1%) 時,謝長廷得票率預期多 0.13%。

地理加權迴歸看起來很好用。不過,我們應將其視為探索性工具。它能具體告訴我們迴歸係數的空間異質型式,卻不能解釋為何會有這樣的型式。地理加權迴歸的模型設定是資料導向的,並不適合做理論上的假設檢驗。因此,做完地理加權迴歸後,通常只是發現問題,而不是解答問題。例如,何以南部、東部客家人的政治傾向與北部客家人大異其趣呢?這只是問題的開端。地理加權迴歸不能告訴我們答案。


延伸閱讀:Geographically Weighted Regression


23 則留言:

  1. @x@重傷送醫休養中....

    回覆刪除
  2. 這是很好的論文題目

    回覆刪除
  3. 統計上.這是我認為多層次模型會越來越重要的地方.一般統計分析所假定的單一因素在不同時空下有同樣作用的假設並不實際.從這角度下去可以改寫很多分析
    另一問題其實是,從社會學角度看,客家是一個身份但不是一個機制.所以實際上的問題是,所謂客家身分影響投票的機制是什麼
    從這角度來看,北部客家恐怕是最不通台語的,相對的東部南部因為沒有足夠客家人所以多數通台語.就我個人猜測,如果加入台語能力的客觀指標,或許可以部分解答,也可以解答為什麼2004的克與廣告收到還不錯的效果.

    回覆刪除
  4. 被咬了很痛的一口...

    迴歸的統計假設是各自變項(X變項)之間互相獨立
    但是在這個範例之中的X好像有一定的相依關係
    這樣會不會有問題呢 @@?

    回覆刪除
  5. to CHT: 應該還好
    假設 客家 鶴佬 原住民 外省的比例加總為一
    那把鶴佬變數排除在model之外 就可以了

    我好奇的是
    各項係數的siginicant level是多少?
    R-squared呢?

    回覆刪除
  6. 好文必推!!
    雲嘉兩縣那麼紅 不過我記得這兩縣客家人並不多
    會不會因為人少 所以數值變得很敏感

    回覆刪除
  7. 可以轉記你文章給我朋友嗎

    版主回覆:(03/03/2010 12:42:42 AM)


    可以。

    回覆刪除
  8. 自首 +1

    我被開頭的圖引誘進來被數學怪獸咬了 ...

    回覆刪除
  9. 關於「客家人」的資料,請問您是使用戶口普查資料還是客委會的調查資料?還是有其他的資料來源?

    版主回覆:(09/21/2009 04:13:00 PM)


    客委會客家人口調查。

    回覆刪除
  10. 雲嘉兩縣比較紅的原因會不會因為這些地方鶴佬人比例大過客家人許多,而占多數的鶴佬人又比交支持謝。因此若客家人比例多1%、而傾向支持謝的鶴佬人比例少1%,則得票率就會比預期來的少(負的β1值主要來自比例減少的鶴佬人,而非由增加的客家人所貢獻;例如客家人多1%只多出10個人,但鶴佬人少1%就減少了100人)??
    那如果對客家人比例較少的地區作加權,會不會比較好??才不會產生雲嘉地區的β1<桃竹苗的β1的情況?


    回覆刪除
  11. 由於花東的福佬人不具過半優勢,個人感覺東部的客家人會閩南話的比例還比竹苗的低喔!東部多半是使用國語的,就算是70歲這代的福佬人,也是多半會用國語。

    回覆刪除
  12. 被咬到了 XD,我看這可當作一篇博士論文了

    回覆刪除
  13. 被咬掛了><

    回覆刪除
  14. 感謝大大,這真是對我太有幫助了!

    回覆刪除
  15. 有趣的是,這次DPP在屏東縣的九個客家鄉鎮中拿下七個鄉鎮長。

    回覆刪除
  16. 對了,想請教一下版主,若中壢,平鎮,龍潭這些地區扣除掉外省票,則這裡的客家人藍綠比會不會是將近50比50?

    回覆刪除
  17. 我是看到題目進來的,但圖也很棒。
    不過請教一下,不知我是否理解錯誤,圖與數據配不大起來,數據裏北基宜是正值,但圖上全屬於負值?

    版主回覆:(09/23/2009 02:30:32 AM)


    地圖是地理加權迴歸的結果。

    回覆刪除
  18. 觀察鄭文燦在南桃園的得票數有一個有趣的現象還就是縣道114,中壢車站往新屋的主要道路這條道路
    是老路,台灣堡圖上已經有出現了,沿途都是傳統客家庄,更重要的是,沿途經過的村里,無論是中壢,平鎮,楊梅更不用說新屋,都是鄭文燦得票數比較高的地區。或許傳統的中壢客家人,投票的屬性和竹苗差很多>


    版主回覆:(12/19/2009 04:34:11 AM)


    中壢西部、新屋、觀音的客家人應該是偏綠的。不過跑地理加權迴歸時,仍然被其周遭的偏藍客家人掩蓋了。

    回覆刪除
  19. 若版主用的是客委會的抽查資料,該資料有點問題,原住民的人口率被大幅低估。例如該資料中台東縣和花蓮縣的原住民人口比率分別為18.2%和18.4%(我引用的是2004的調查),但我查原委會的數據加以計算,實際的原住民人口卻為34.5% 26.6%。我猜想可能該其以電話號碼隨機抽查的方式有關。這麼大的誤差可能會影響這篇文章的結論(在原住民鄉鎮中)的正確性。

    回覆刪除
  20. 若同時應用HLM 和 sptial regression呢?

    回覆刪除
  21. 真的要說:謝謝您,您的部落格實在太棒了。
    不僅提供了極有價值的學術訊息,也提供了重要知識,更釐清了一些民間傳說的參考資料。
    真的謝謝你,希望藉此,我們可以減少以訛傳訛的情況了。

    回覆刪除