入球王這個情景讓人機評分相差20%,説明評審團容易被情景影響評分,不是十分客觀地評價表現。
參加過商場選拔的職場戰士,可能會經常感到沮喪,覺得選美會(投行)、輪選會(基金)或面試日(職場)不是有黑幕,就是純粹靠運氣。不過,在下《超級巨星經濟學》一書提到的複雜網絡科學家,從兩屆意甲足球聯賽的球員評級上,體會到評審這貌似科學和客觀的程序,原來到最後,好評與否,是看結果而不是過程;而是否「出位」,亦決定你的評級。
情景因素:球場是英雄地
上文提到科學家利用機器學習和算法,為意甲的專業評審團量身訂製了一個中立的「智能評審機」,以150個硬技術指標和每場100萬個事件數據,推測所有賽事每個球員應該有的評級。以這模擬推測的結果,和現實中人肉評級的結果,相互印證。結果當然是理論與現實相差一大截(相關性只0.55)。科學家沒有就此停手,他們藉着大數據,在兩個結果的差別之中,再引進了一套硬技術以外的解釋項:「情景因素」(contextual features)。
相對於運動機能的指標如速度、射門、準繩度等的硬指標,情景因素是個別球員不能控制的環境因素,如入球/失球(前鋒個人決定不了一個射門是否能成為入球,還要看龍門的撲救是否有效)、比賽結果(一個球員控制不了賽事的結果)、公眾對賽果預期的落差(預期綜合了許多因素、賽果又不可控)等。
當科學家把情景因素加進程式後,便發現模型對球員的賽後評級的預測,與人肉結果的距離,改善兩成(相關性0.67)。當中的道理是,球場是英雄地,成王敗寇,所以,個人評級的高低,不一定是看硬技術(速度觸覺、盤扭能力),原來更重要的是比賽的戰果情景;一個球員那怕表現奇差,但只要球隊贏波,他得到的人肉評級,會比機器純粹以硬技術指標所預測的評級高出許多。
報告舉了阿根廷球員希古恩某場賽事的入球讓他成為意甲史上入球王,因而得了人肉評級的滿分,可是按他跑動、射門等的硬指標,只應有8分,入球王這個情景讓人機評分相差20%,説明評審團容易被情景影響評分,不是十分客觀地評價表現。數據還顯示,前鋒、中場、後衛和龍門對情景因素有不同的敏感度。(你猜猜誰最敏感?)
極端行為:抓住評審目光
更有趣的發現,是科學家還別出心裁地把不同的硬指標(動作和事件)和情景因素,歸類成極端高、平均、和極端低等9個級別,並由此發現,高評級是與極端行為相關。這與近年行為科學發現人們在決策時,容易受「可得性的意會/偏差」(availability heuristic/bias)影響相似。直觀解釋是,一個出奇不意的插花,對表現和成績不一定有正面的貢獻,不過,評判一般先入為主有「插花等於好波」等的前設,一個成功插花,會抓住評審的眼光,如果球隊剛巧打勝仗,那你就會由花拳綉腿變成飛毛腿。
下次參加選拔,會否考慮唱/穿/講「浮誇」?(答案:前鋒和龍門的評級與射門/撲救較直接相關,中場後衛的則更看環境/情景)
參加過商場選拔的職場戰士,可能會經常感到沮喪,覺得選美會(投行)、輪選會(基金)或面試日(職場)不是有黑幕,就是純粹靠運氣。不過,在下《超級巨星經濟學》一書提到的複雜網絡科學家,從兩屆意甲足球聯賽的球員評級上,體會到評審這貌似科學和客觀的程序,原來到最後,好評與否,是看結果而不是過程;而是否「出位」,亦決定你的評級。
情景因素:球場是英雄地
上文提到科學家利用機器學習和算法,為意甲的專業評審團量身訂製了一個中立的「智能評審機」,以150個硬技術指標和每場100萬個事件數據,推測所有賽事每個球員應該有的評級。以這模擬推測的結果,和現實中人肉評級的結果,相互印證。結果當然是理論與現實相差一大截(相關性只0.55)。科學家沒有就此停手,他們藉着大數據,在兩個結果的差別之中,再引進了一套硬技術以外的解釋項:「情景因素」(contextual features)。
相對於運動機能的指標如速度、射門、準繩度等的硬指標,情景因素是個別球員不能控制的環境因素,如入球/失球(前鋒個人決定不了一個射門是否能成為入球,還要看龍門的撲救是否有效)、比賽結果(一個球員控制不了賽事的結果)、公眾對賽果預期的落差(預期綜合了許多因素、賽果又不可控)等。
當科學家把情景因素加進程式後,便發現模型對球員的賽後評級的預測,與人肉結果的距離,改善兩成(相關性0.67)。當中的道理是,球場是英雄地,成王敗寇,所以,個人評級的高低,不一定是看硬技術(速度觸覺、盤扭能力),原來更重要的是比賽的戰果情景;一個球員那怕表現奇差,但只要球隊贏波,他得到的人肉評級,會比機器純粹以硬技術指標所預測的評級高出許多。
報告舉了阿根廷球員希古恩某場賽事的入球讓他成為意甲史上入球王,因而得了人肉評級的滿分,可是按他跑動、射門等的硬指標,只應有8分,入球王這個情景讓人機評分相差20%,説明評審團容易被情景影響評分,不是十分客觀地評價表現。數據還顯示,前鋒、中場、後衛和龍門對情景因素有不同的敏感度。(你猜猜誰最敏感?)
極端行為:抓住評審目光
更有趣的發現,是科學家還別出心裁地把不同的硬指標(動作和事件)和情景因素,歸類成極端高、平均、和極端低等9個級別,並由此發現,高評級是與極端行為相關。這與近年行為科學發現人們在決策時,容易受「可得性的意會/偏差」(availability heuristic/bias)影響相似。直觀解釋是,一個出奇不意的插花,對表現和成績不一定有正面的貢獻,不過,評判一般先入為主有「插花等於好波」等的前設,一個成功插花,會抓住評審的眼光,如果球隊剛巧打勝仗,那你就會由花拳綉腿變成飛毛腿。
下次參加選拔,會否考慮唱/穿/講「浮誇」?(答案:前鋒和龍門的評級與射門/撲救較直接相關,中場後衛的則更看環境/情景)
請按此登錄後留言。未成為會員? 立即註冊