前任财政司司长网志
从比赛中学习
上星期,我谈到DARPA机械人挑战赛。从机械人的表现,我们不难看到多用途仿人机械人的技术,仍在起步阶段,即使获胜的机械人,与实际应用,仍有很大的距离。
港大的机械人虽然在比赛中未能够完成相关工作,但他们没有失败。用爱迪生的说法,港大的硏究团队发现了多一个未能成功的方法,甚至发现了多一个从未有人想像过的情景,须要进一步研究。累积更多这些「发现」,多用途仿人机械人的技术,才可以不断得到提升。学术界遇到一些未被解破的难题,举行比赛邀请志同道合者,透过竞争和交流,一同寻求答案,并不罕见。DARPA和Amazon挑战赛只是较近期的例子。
数学家John Nash在博弈理论方面,有杰出贡献,他上月不幸在车祸中丧生。曾钰成主席在六月初写了两篇关于「囚徒困境」的文章,讨论Nash Equilibrium(纳殊平衡)。在单次「囚徒困境」之中,最佳策略显然易见。但在重复「囚徒困境」中,最佳策略就复杂得多。密歇根州大学政治科学与公共政策教授Robert Axelrod在80年代初,举办了一个比赛,参加者须为重复「囚徒困境」游戏设计策略,并把策略编写成电脑程式,透过电脑模拟,与其余每个参赛程式较量,总累积得分最高者得胜。
第一年得胜的,是非常简单的策略Tit For Tat(TFT),只有四行BASIC程式码。第二年,各参加者优化了自己的策略,但仍然是TFT获胜。TFT会在首轮「囚徒困境」采用「合作」,以后每一轮采用对手上一轮的策略,就是这麽简单。换句话说,如果对手第一轮也「合作」,大家双赢得分。TFT在第二轮也会继续「合作」。如果对手第二轮改为「背叛」,谋求独取高分,TFT在第二轮吃亏后,第三轮也「背叛」,实行「累斗累」,直到对手愿意再次「合作」后,TFT 也随即在下一轮回恢「合作」策略。
Axelrod 教授发现TFT及其他表现较佳的策略,不会视击倒对手为目标,而是要自己取得高分,所以都是以「合作」为主,希望透过双赢得分,而不是「背叛」对手独取高分,因为被背叛的对手总会反撃,最终两败俱伤。事实上,TFT策略在一场对赛中取得的分数,永远不会高于对手,但与所有对手对赛后的总分却是全场最高的。
表现较佳的策略,也不会视释出善意为示弱的表现,不怕自己率先「合作」会吃亏,当对手以回复「合作」,也不会继续「背叛」,占对手便宜。所以,TFT在第一轮会先「合作」,当对手回到「合作」时,TFT在下一轮也会以「合作」回应,鼓励对手继续「合作」。事实上,如遇上采用TFT的对手,倾向「合作」的策略,往往得分较高。
昨天早上起床,我发现Facebook竟然被《大时代》「洗板」,不得不佩服韦家辉,二十多年前的作品,虽然经过无数次重播,至今仍然叫好叫座,还不断被引用来反映最新的社会状况;虽然观众对结局早已滚瓜烂熟,没有悬念,但展博、悭妹和纪文的爱情和友情,仍然扣人心弦、赚人热泪。《大时代》在星期五晚大结局, 相信不少朋友终于可以「有觉好瞓」。
另一边厢,无论政改表决结果如何,香港政治的环境都会进入大时代,可能有些朋友下星期会「无觉好瞓」。虽然我对表决结果早已心中有数,但此刻心里仍有点忐忑。从去年五月起,我在不下十篇网志都有谈及政改这个课题,因为我深相五百万人普选行政长官,肯定较一千二百人组成的选委会,更符合任何民主标准,是香港民主进程的一大步。
现在我再説什么可能也是徒然,但我仍然相信在追求民主的过程中,面对市民间的分歧,我们不能单靠「斗人多」,更不能「斗大力」,必须衡量彼此的得失,有时须要放下自己心中的首选,以换取大多数人能够接受的共识。这往往是艰难的抉择,需要很大的勇气,但却是对自己和下一代必要的承担。试想想,如果今天你不就我,明天我又不撑你,结果只会「累斗累」,永远不会有由绝大多数市民达成的共识,在民主路上永远不能迈步向前,即使在经济民生方面,也不一定能够有所寸进。
在表决后,也许有人会庆祝胜利,也许有人会灰心发愁。我希望大家激情过后,细心想想,往后的路如何走下去,也许Axelrod的比赛会对大家有些启发。我期待《大时代》再重播时,会有不一样的结局。(我当然不是期待丁蟹会战胜展博!)
2015年6月14日