跳到主要內容

前任財政司司長網誌

從比賽中學習

上星期,我談到DARPA機械人挑戰賽。從機械人的表現,我們不難看到多用途仿人機械人的技術,仍在起步階段,即使獲勝的機械人,與實際應用,仍有很大的距離。

港大的機械人雖然在比賽中未能夠完成相關工作,但他們沒有失敗。用愛迪生的說法,港大的硏究團隊發現了多一個未能成功的方法,甚至發現了多一個從未有人想像過的情景,須要進一步研究。累積更多這些「發現」,多用途仿人機械人的技術,才可以不斷得到提升。學術界遇到一些未被解破的難題,舉行比賽邀請志同道合者,透過競爭和交流,一同尋求答案,並不罕見。DARPA和Amazon挑戰賽只是較近期的例子。

數學家John Nash在博弈理論方面,有傑出貢獻,他上月不幸在車禍中喪生。曾鈺成主席在六月初寫了兩篇關於「囚徒困境」的文章,討論Nash Equilibrium(納殊平衡)。在單次「囚徒困境」之中,最佳策略顯然易見。但在重複「囚徒困境」中,最佳策略就複雜得多。密歇根州大學政治科學與公共政策教授Robert Axelrod在80年代初,舉辦了一個比賽,參加者須為重複「囚徒困境」遊戲設計策略,並把策略編寫成電腦程式,透過電腦模擬,與其餘每個參賽程式較量,總累積得分最高者得勝。

第一年得勝的,是非常簡單的策略Tit For Tat(TFT),只有四行BASIC程式碼。第二年,各參加者優化了自己的策略,但仍然是TFT獲勝。TFT會在首輪「囚徒困境」採用「合作」,以後每一輪採用對手上一輪的策略,就是這麽簡單。換句話說,如果對手第一輪也「合作」,大家雙贏得分。TFT在第二輪也會繼續「合作」。如果對手第二輪改為「背叛」,謀求獨取高分,TFT在第二輪吃虧後,第三輪也「背叛」,實行「累鬥累」,直到對手願意再次「合作」後,TFT 也隨即在下一輪回恢「合作」策略。

Axelrod 教授發現TFT及其他表現較佳的策略,不會視擊倒對手為目標,而是要自己取得高分,所以都是以「合作」為主,希望透過雙贏得分,而不是「背叛」對手獨取高分,因為被背叛的對手總會反撃,最終兩敗俱傷。事實上,TFT策略在一場對賽中取得的分數,永遠不會高於對手,但與所有對手對賽後的總分卻是全場最高的。

表現較佳的策略,也不會視釋出善意為示弱的表現,不怕自己率先「合作」會吃虧,當對手以回復「合作」,也不會繼續「背叛」,佔對手便宜。所以,TFT在第一輪會先「合作」,當對手回到「合作」時,TFT在下一輪也會以「合作」回應,鼓勵對手繼續「合作」。事實上,如遇上採用TFT的對手,傾向「合作」的策略,往往得分較高。

昨天早上起床,我發現Facebook竟然被《大時代》「洗板」,不得不佩服韋家輝,二十多年前的作品,雖然經過無數次重播,至今仍然叫好叫座,還不斷被引用來反映最新的社會狀況;雖然觀眾對結局早已滾瓜爛熟,沒有懸念,但展博、慳妹和紀文的愛情和友情,仍然扣人心弦、賺人熱淚。《大時代》在星期五晚大結局, 相信不少朋友終於可以「有覺好瞓」。

另一邊廂,無論政改表決結果如何,香港政治的環境都會進入大時代,可能有些朋友下星期會「無覺好瞓」。雖然我對表決結果早已心中有數,但此刻心裡仍有點忐忑。從去年五月起,我在不下十篇網誌都有談及政改這個課題,因為我深相五百萬人普選行政長官,肯定較一千二百人組成的選委會,更符合任何民主標準,是香港民主進程的一大步。

現在我再説甚麼可能也是徒然,但我仍然相信在追求民主的過程中,面對市民間的分歧,我們不能單靠「鬥人多」,更不能「鬥大力」,必須衡量彼此的得失,有時須要放下自己心中的首選,以換取大多數人能夠接受的共識。這往往是艱難的抉擇,需要很大的勇氣,但卻是對自己和下一代必要的承擔。試想想,如果今天你不就我,明天我又不撐你,結果只會「累鬥累」,永遠不會有由絕大多數市民達成的共識,在民主路上永遠不能邁步向前,即使在經濟民生方面,也不一定能夠有所寸進。

在表決後,也許有人會慶祝勝利,也許有人會灰心發愁。我希望大家激情過後,細心想想,往後的路如何走下去,也許Axelrod的比賽會對大家有些啟發。我期待《大時代》再重播時,會有不一樣的結局。(我當然不是期待丁蟹會戰勝展博!)

2015年6月14日


BrandHK | 香港品牌