前任財政司司長網誌

從比賽中學習

上星期，我談到DARPA機械人挑戰賽。從機械人的表現，我們不難看到多用途仿人機械人的技術，仍在起步階段，即使獲勝的機械人，與實際應用，仍有很大的距離。

港大的機械人雖然在比賽中未能夠完成相關工作，但他們沒有失敗。用愛迪生的說法，港大的硏究團隊發現了多一個未能成功的方法，甚至發現了多一個從未有人想像過的情景，須要進一步研究。累積更多這些「發現」，多用途仿人機械人的技術，才可以不斷得到提升。學術界遇到一些未被解破的難題，舉行比賽邀請志同道合者，透過競爭和交流，一同尋求答案，並不罕見。DARPA和Amazon挑戰賽只是較近期的例子。

數學家John Nash在博弈理論方面，有傑出貢獻，他上月不幸在車禍中喪生。曾鈺成主席在六月初寫了兩篇關於「囚徒困境」的文章，討論Nash Equilibrium（納殊平衡）。在單次「囚徒困境」之中，最佳策略顯然易見。但在重複「囚徒困境」中，最佳策略就複雜得多。密歇根州大學政治科學與公共政策教授Robert Axelrod在80年代初，舉辦了一個比賽，參加者須為重複「囚徒困境」遊戲設計策略，並把策略編寫成電腦程式，透過電腦模擬，與其餘每個參賽程式較量，總累積得分最高者得勝。

第一年得勝的，是非常簡單的策略Tit For Tat（TFT），只有四行BASIC程式碼。第二年，各參加者優化了自己的策略，但仍然是TFT獲勝。TFT會在首輪「囚徒困境」採用「合作」，以後每一輪採用對手上一輪的策略，就是這麽簡單。換句話說，如果對手第一輪也「合作」，大家雙贏得分。TFT在第二輪也會繼續「合作」。如果對手第二輪改為「背叛」，謀求獨取高分，TFT在第二輪吃虧後，第三輪也「背叛」，實行「累鬥累」，直到對手願意再次「合作」後，TFT 也隨即在下一輪回恢「合作」策略。

Axelrod 教授發現TFT及其他表現較佳的策略，不會視擊倒對手為目標，而是要自己取得高分，所以都是以「合作」為主，希望透過雙贏得分，而不是「背叛」對手獨取高分，因為被背叛的對手總會反撃，最終兩敗俱傷。事實上，TFT策略在一場對賽中取得的分數，永遠不會高於對手，但與所有對手對賽後的總分卻是全場最高的。

表現較佳的策略，也不會視釋出善意為示弱的表現，不怕自己率先「合作」會吃虧，當對手以回復「合作」，也不會繼續「背叛」，佔對手便宜。所以，TFT在第一輪會先「合作」，當對手回到「合作」時，TFT在下一輪也會以「合作」回應，鼓勵對手繼續「合作」。事實上，如遇上採用TFT的對手，傾向「合作」的策略，往往得分較高。

昨天早上起床，我發現Facebook竟然被《大時代》「洗板」，不得不佩服韋家輝，二十多年前的作品，雖然經過無數次重播，至今仍然叫好叫座，還不斷被引用來反映最新的社會狀況；雖然觀眾對結局早已滾瓜爛熟，沒有懸念，但展博、慳妹和紀文的愛情和友情，仍然扣人心弦、賺人熱淚。《大時代》在星期五晚大結局，相信不少朋友終於可以「有覺好瞓」。

另一邊廂，無論政改表決結果如何，香港政治的環境都會進入大時代，可能有些朋友下星期會「無覺好瞓」。雖然我對表決結果早已心中有數，但此刻心裡仍有點忐忑。從去年五月起，我在不下十篇網誌都有談及政改這個課題，因為我深相五百萬人普選行政長官，肯定較一千二百人組成的選委會，更符合任何民主標準，是香港民主進程的一大步。

現在我再説甚麼可能也是徒然，但我仍然相信在追求民主的過程中，面對市民間的分歧，我們不能單靠「鬥人多」，更不能「鬥大力」，必須衡量彼此的得失，有時須要放下自己心中的首選，以換取大多數人能夠接受的共識。這往往是艱難的抉擇，需要很大的勇氣，但卻是對自己和下一代必要的承擔。試想想，如果今天你不就我，明天我又不撐你，結果只會「累鬥累」，永遠不會有由絕大多數市民達成的共識，在民主路上永遠不能邁步向前，即使在經濟民生方面，也不一定能夠有所寸進。

在表決後，也許有人會慶祝勝利，也許有人會灰心發愁。我希望大家激情過後，細心想想，往後的路如何走下去，也許Axelrod的比賽會對大家有些啟發。我期待《大時代》再重播時，會有不一樣的結局。（我當然不是期待丁蟹會戰勝展博！）

2015年6月14日