2016年8月25日星期四

策略投票,還是自求多福?

雷動計劃=策略投票運動

雷動計劃,說穿了就是一個全港性的策略投票運動。策略投票的意思是,投票者會本著「票值最大化」的想法去投票,將票投給最需要他一票的候選人,令投票者的陣營可以得到最多的議席。議會是表決議案的場合,不能單打獨鬥,想要自己的政治理想更有效地在議會中落實,就一定要有更多與自己立場相近的候選人當選可行。所以,策略地投票令最多非建制陣營的候選人當選,就是在香港這個爛議會選舉制度下,最理性的投票選擇。

要達到「票值最大化」這個目的,策略選民需要幾件武器:
  1. 愈準愈好的選舉預測
  2. 客觀有效,認受性高的選舉分析
  3. 有效的傳訊工具,令策略選民可以互通訊息
  4. 一個令所有策略選民都可以切實執行,週詳的行動計劃
雷動計劃已經為所有策略選民準備好上述武器,任君使用。

選舉預測怎樣做?

策略選民所需的選舉預測資訊,是由其中一個雷動計劃參與團體「公民數據」負責。公民數據負責做三件事:
  • 建立民意收集和聯繫的通訊平台《雷動聲吶》
  • 推動和建立更多的數據來源,如推動選情市場,推動學術機搆開放原始民調數據,組織近百名義工執行街頭民調工作等
  • 數據分析,將港大民研的數據,街頭民調和雷動聲吶,按適當的統計方法製作成有價值的「合併民調報告」
「合併民調報告」揉合了不同的數據,令它有條件比單以任何一組數據製成的報告有更好的預測能力。但這是怎樣做到的呢?方法是:

  1. 先將每個名單劃分進數個組別,不同組別代表票源是來自由「本土」到「保皇」政治光譜的選民。
  2. 將雷動聲吶的數據和港大民研的數據做比較,得出雷動聲吶參與者和港大民研的參與者在政治光譜的差異。由於大家都是來自香港選民人口,所以如果出現偏差,政治光譜偏差應較多發生在取樣沒較不符合隨機要求的雷動聲吶數據。我們就按照這個方法,為雷動聲吶數據進行加權調整。

    不同政治光譜在兩組數據中的差異
    不同政治光譜在兩組數據中的差異
  3. 我們會將數據分開六個選區來做比較。分組比較後,我們就可以知道雷動聲吶參與者相比港大民調數據,傾向非建制光譜的情況大概是怎樣,然後我們就可以按比例,逐個調低雷動聲吶支持非建制的樣本的加權。
  4. 把雷動聲吶數據調整後,我們就會用下列方法將港大民調數據與調整後的雷動聲吶數據進行合併:
• 由於雷動聲吶中只有少數親建制立場的參加者,所以支持者來自親建制候選人的得票數全數以港大民調結果作計算。

• 至於支持度來自非建制立場參加者的候選人,其在雷動聲吶中的數據將以港大民調結果,用「最小均方差估計」(MMSE)的方式合併。(「最小均方差估計」 為一種通用的統計方法,用最淺白概括的解釋,即是以樣本數增多,就適當提高加權值的一種方法。)

那我們就得到一個集合了各組數據的合併報告,成為比單看來自一組數據的選舉預測有效反映出來了。


雷動聲吶綜合分析報告
雷動聲吶綜合分析報告

數據偏差怎麼辦?

雷動聲吶的數據存在偏差,這時我們預計之內的事。其實任何現實世界收集的數據都有偏差,分別只是大小的問題。但有偏差的數據(biased data)不並是純綷的噪音(random noise),更不代表當中就沒有資訊內容(information)。只要我們能進行適當的數據勘探(data mining),我們仍能從中抽取資訊,令選舉預測更加準確。

我們是這樣處理和減少數據偏差帶來的不利影響:
  1. 上文已經解釋過,我們藉分析雷動聲吶參與者的政治傾向來與港大民研數據來比對,處理了雷動聲吶數據的部分偏差
  2. 除此之外,我們將會在下週推出的第三份報告中,開始引入街頭民調的數據,進一步改善偏差。
  3. 因為雷動聲吶系統容許我們追蹤每個參與者每次的投票變化,所以我們還會引入一些條件來為數據的可靠度做加權分析。用淺白的語言說,如果個別樣本的投票傾向在歷次民調中更改激烈,或者剛剛才加入雷動聲吶,那我們用統計方法便會減少他們的比重;相反,如果某樣本在歷次投票的光譜相近,我們就相應增加這樣本的比重,餘此類推。這套方法也會在第三份報告開始引入。
有關雷動聲吶受到有組織的影響,上我們亦一早預料到,並且已經有對策。我們在數月前撰寫的常見問題中,是這樣說的:


Q:如何防止參與者提供假資料影響數據分析?

A:首先,任何民調基本上都沒法阻止參與者提供假資訊。可是,從港大民調一向的紀錄,證明參與者提供假資訊對民調準確度的影響並不嚴重。

另外,雷動聲吶利用Telegram的設計,綁定每個電話號碼的戶口只能投票一次。這大大減輕了重覆投票問題,也增加了擾亂者的運作成本。

但如果真的有人或組織發起向雷動聲吶發放假消息的話,因為雷動聲吶的樣本基數大(目標為十萬個以上),他們也要動員相當人數和應(千人或以上)才足夠破壞數據準確度。一個動員那麼多人的行動,在消息流通的時間和強度,和滾動調查中的蛛絲馬跡,我們就可用統計技巧找出擾亂的出現和其程度,然後藉追查分佈來以減除干擾,並調整誤差值。

雷動聲吶常見問題

所以,要做到神不知鬼不覺的惡意擾亂並不容易,總會有跡可尋。一旦是有跡可尋,就不難以數據分析的方法去解決。就舉日前網上有人發起一起票投九龍西某候選人的事件為例子,因為參加者都只是響應網上動員而非真誠支持該候選人,所以在數據處理時我們會消除這些干擾。而事實上,我們亦在很短時間內就已經找出那大約一千位企圖擾亂數據的樣本,並會於未來的合併報告中減輕加權或排除。有趣的是,或者是媒體的流傳,干擾事件後,我們反而額外增加了千多位朋友(不計干擾者)參與民調。長遠來看,干擾者的行為或許反而幫助了系統改善數據質素。

當然,我們還有一些備用方案,去處理更細緻的擾亂,有需要時我們亦會使用。

(待續)

沒有留言:

發佈留言