美国总统大选仍未有最终结果,但从两名候选人得票率分析,今年的选举民调似乎重複上届总统大选的错误,大幅低估特朗普的支持度,坊间认为,大数据分析有能力取代民调,更准确评估选情。IT专家指出,社会两极分化既令民调回应率低,又增加受访者说谎机率,惟数码足迹难以造假,可信性高,更可反映即时民情,不会有民调数据滞后的问题。亦有业界尝试整合数十家民调机构的调查结果,按机构往绩提炼出最精准的资讯,从而评估候选人胜出机率,并认为民调与大数据可互补不足。 记者 郭增龙
四年一度的美国总统大选全球瞩目,根据民调分析机构FiveThirtyEight指出,截至十月底,民主党参选人拜登的全国民调平均支持率比共和党参选人特朗普高百分之九点一,然而,这场从民调看来是毫无悬念的选举,最终演变成势均力敌的较量,沐鸣帐号注册有关键州份更要重新点票,令官方结果迟迟未能公布,再一次令人质疑民调失去可信性。
政治两极 选民说谎碍可信性
时事评论员梁启智指出,就结果而言,民调机构成功推算十二个关键州份当中十个的胜负,但从胜负差距来说,个别州份似乎重複上一届的明显偏差,其中以威斯康星州最为严重。他认为,民调回应率愈来愈低,使民调工作变得困难,而高度两极化的政治环境,有可能减低特朗普支持者回答民调的意欲,加上在疫情下,民主党的支持者较愿意响应减少外出的呼吁,亦可能变相增加他们回答民调的机会,这一系列的原因使民调高估民主党的支持度。
ASIAM数据分析及策略总监李鸿彦认为,民调准确性下跌源于受访者向民调说谎,他形容在二元对立的社会下,公众往往会先评估民调机构的立场,再调整答案,部分网上民调更出现大批网民空群而出,干预结果的情况。基于以上的问题难以解决,他认为通过大数据分析选情,将会比民调更准确,「大数据是分析使用者在搜索引擎寻找的关键字,一个人不会无目标地搜索关键字,亦不会意识到需要通过数码足迹来造假。」此外,传统民调的样本亦远较大数据少,「民调用电话、街头访问几千人,大数据可以在美国一个州份,收集到五十万人的数据。」
纵然近年不时有人组织「网军」试图左右网上舆论,不过,洞视科技创办人陈敬伦指出,大数据分析可将相似度高的资讯视作杂讯去除,待提炼出有用资料后再作分析,反观传统民调则无有效机制处理。
应整合民调兼重「厚数据」
李鸿彦过去亦有分析本港选举,包括在去年区选前一日,预测投票率可达六成九,以及当投票率达七成后,建制派的优势将会消失,最终该次选举投票率逾七成一,非建制派取得八成议席。他解释,其分析方法不止侧重传统大数据分析所採用的数据比较,更着重「厚数据」,即是能够带出社会和文化意义的大数据。他以去年反修例风波为例,特首在「六.一六」游行前宣布撤回条例,舆论预计游行数字将会大减,惟他发现除了「游行」及「维园」的搜寻量急增,「白花」或「花店」的搜寻量亦有同样的情况,反映不少港人有意悼念早前堕楼的男子梁凌杰,「如果只知大数据而不知厚数据的话,会认为网上搜索『白花』或『花店』的资讯只是巧合。」
就大数据分析民情的限制,李鸿彦指出,长者使用互联网的机会较少,未必有足够数据分析长者情况,建议未来民调增加访问长者的数目,以补充大数据未能覆盖的年龄层。
除了通过数码足迹评估选择,有数据专家尝试以整合民调方式,减低民调误差。英国华威大学数学系博士邹宇熙过去有通过数据分析本地政党的选举分析,是次美国大选,他整合过去五个美国选举周期均有进行民调的数十家机构,製作概率模型,并在投票前三日,估计特朗普的胜率不足四分之一。他解释,其概率模型考虑民调机构的往绩、样本数量及系统误差数据,再加入近年选举出现的隐藏保守派选民情况,调整民调误差值。
欠误差值数据变主观解读
邹宇熙认为,沐鸣注册每一个民调机构都有一定的误差,但正因为民调拥有标准化方式计算出误差值,令统计学家可通过数学模型,按民调的往绩整合数据,提炼出精准的资讯。相反,利用大数据预测选情的方法,各机构的做法均有不同,难以像民调一样,提供误差值数据,最后令大数据分析的结果,成为主观解读多于利用科学方法所印证的结果。
他续说,近十年人工智能的发展,足以分析某些议题在网上的散播速度及正负面情绪,因此参选人通过大数据分析,可针对选民热议的话题发表意见,促进与选民的沟通,但仍未足以估计赛果,「要有频繁的事态及可以标准量化的数据,才可以发挥人工智能的优势,但美国选举两年一次,限制很大。」
事实上,美国数据分析公司IGC研发的LUX election2020平台,亦是利用大数据了解美国人对两位候选人的观感,并发现有一半选民对特朗普抱有强烈负面情绪,从而评估他难以胜出选举,不过,IGC强调平台并非正式选举预测,只是民情监测。对此,香港民意研究所主席锺庭耀认为,大数据分析配合混合模式的民意调查,似乎是大势所趋,惟现阶段大数据分析创意不少,但实效存疑,似乎仍然未成气候,尚未能与民意调查争长短。