【欢迎登录 www.chinaxwcb.com 权威的新闻出版第一门户】
邮箱登陆: 用户名: 
 密码: 

作为中介的算法:新闻生产中的算法偏见与应对*

作者:张  超        来源:《中国出版》        时间:2018/3/2 14:36:44
分享到: 更多

  [摘    要]  在人工智能驱动下的新闻生产中,算法已渗透到新闻生产的各个环节,被视为中立的算法本质上是人工产物,算法偏见应引起重视。文章从中介的角度剖析了算法在新闻生产中的不同应用,分析了算法偏见产生的三个来源:算法设计者的偏见、输入数据的偏见和算法局限的偏见。对抗算法偏见的有效措施在于,对处于“黑箱”状态的算法进行监管,算法透明是必然选择,主动的算法透明和被动的算法透明是两种可行的算法透明方式。认识算法、理解算法、批判算法是善用算法的前提,也是算法时代新闻生产的新命题。
  [关键词]  书籍设计   “五感”   创意   体验

 

  如今人类置身算法世界,算法成为人们洞察现实、进行决策的新中介。在新闻传播领域,算法已渗入从选题到分发的各个新闻生产环节。路透新闻研究所《数字新闻报告2017》显示,54%的受访者更喜欢通过算法筛选故事。在中国的资讯信息分发市场上,算法推送的内容已超过50%。[1]
  在西方新闻业信任危机和专业性危机的背景下,算法中立的支持者试图通过算法的中立与传统媒体的编辑价值观划清界限。算法对新闻生产的介入似乎用“技术中立”的姿态昭示着新闻客观性的“回归”与“在场”。与此同时有关“算法偏见”(algorithmic bias)和“算法歧视”(algorithm discrimination)的讨论日渐兴起。人们发现算法并非万能,也非完美。美国非盈利新闻机构“为了公众”(ProPublica)对一家公司开发的犯罪评估系统“替代性制裁的惩戒性罪犯管理分析”(Correctional Offender Management Profiling for Alternative Sanctions,COMPAS)的评分方式进行研究,发现针对同样罪行有色人种可能会得到比白人更高的犯罪分数。
  在新闻生产中,算法偏见带来的后果是严重的,尤其在内容生产阶段,算法偏见将导致结论错误,媒体将不是社会的“瞭望者”,而是“误导者”。算法偏见何以产生,又该如何应对新闻生产中的算法偏见?本文将展开探讨。

 

一、作为中介的算法

 

  算法是解题方案的准确而完整的描述,是一系列解决问题的清晰指令,能对一定规范的输入在有限时间内获得所要求的输出。[2]算法是一种求解的方法,它是程序设计的核心(见图1)。

 

 

 

  从技术的角度看算法是计算机求解中的一个抽象“装置”,是横亘在输入数据和输出数据之间的中介(mediation)。“中介”一词强调在传播过程中“引起”任何主体与其他主体或者与环境产生关系的刻意举动。[4]作为中介的算法不是透明的、中立的,其本质是“转译者”,在新闻生产中算法可分为5种类型(见表1)。

 

 

 


  作为新闻价值判断的中介,算法用于新闻选题,通过把关和决策将热点事件转化为新闻事件;作为表征现实的中介,算法应用于内容生产,通过对客观现实的量化处理“映射”出表征现实;作为体验现实的中介,算法用于新闻游戏中,借由程序修辞(procedural rhetoric)进行观点说服;作为监测用户的中介,算法用于新闻推送,通过对用户数据的分析描摹用户画像,有针对性地推送内容;作为现实决策的中介,算法用于决策服务,帮助用户判断问题、做出选择。《纽约时报》的数据新闻《租房还是买房》,用户输入居住年限、抵押贷款利率以及首付等数值可判断租房划算还是买房划算。
  与以往一些新闻生产技术不同,算法由于其复杂性和晦涩性被视为“黑箱”(black box)。“黑箱”在法国哲学家布鲁诺·拉图尔看来体现的是一种“客观性”:只要人们认为所有“黑箱”密封完好,它们就像科学家一样摆脱了虚构、表示、象征、近似与管理构成的世界,就是绝对正确的。[5]当算法被贴上“中立的”“客观的”“权威的”“万能的”标签时,这种认知带来的危害也是巨大的:人们将被算法所控制。世界上没有完美的算法,也没有超越人的意志的算法,甚至包括搜索引擎也有偏见。

 

二、算法偏见的产生机制

 

  算法偏见如何产生?回答这个问题或许可以“算法是人工产物(artifact)”来回答,但这种解释并不全面和具体。算法偏见存在于算法设计和运行的每一个环节,主要包括算法设计者的偏见、输入数据的偏见和算法局限的偏见(见图2)。任何一个环节出现偏见都将导致算法偏见,区别在于有的算法偏见是潜在的、不可避免的,有的算法偏见则是人为的、有意图的。

 

 

 

  1.算法设计者的偏见
  算法设计者的偏见是指由于算法设计者自身有意或无意的偏见造成算法设计出现偏差。算法设计一般包括理解问题、选择算法设计技术、设计并描述算法、手工运行算法、分析算法的效率、实现算法等6个步骤。[6]算法设计者在算法设计中居于核心地位。对问题的理解、对数据的选取、对变量的选择、对算法的综合评价等都贯穿着人为因素。当然即便算法设计者力求做到客观、公正,其无意识的认知偏见也会通过算法设计中对标准的选择体现出来,如指标标准、数据提取、语用分析和结果解读等。[7]
  既然算法是由人设计的,那么算法不可能比算法设计者更客观。算法不可避免地会反映设计者对周遭事物和问题的认识。2015年平面设计师约翰娜·布莱(Johanna Burai)用谷歌搜索“手”的图片,发现检索结果上边的全是白人的手。社会学家泽奈普·图费克奇(Zeynep Tufekci)认为,要想真正让算法变得更加公正,算法设计者要清醒地意识到自己并不代表中立和公正的立场,而是有着天然偏见的人。[8]
  2.输入数据的偏见
  在被数据量化的世界中,数据本身与现实世界重合的程度决定了数据的可靠性。在现实中算法依赖的数据往往是有局限的、有缺陷的,甚至是错误的。因为算法是从有局限的训练数据集中学习,可以说,任何一个数据集都会蕴含偏见。
  无论算法多完美,输入数据有偏见,最后的结论必定有偏见。微软纽约研究院高级研究员汉娜·瓦拉赫(Hanna Wallach)认为,机器学习的程序是通过社会中已存在的数据进行训练,只要这个社会还存在偏见,机器学习便会重现这些偏见。[9]例如采用算法进行自动化新闻写作的美联社,需要时常向系统输入报道范本、更新数据,如果自动化新闻写作系统输入数据出错,则算法生成的新闻就会出错。[10]
  3.算法局限的偏见
  虽然在大数据时代一切皆可量化,但现实生活并不能总是被数学“模仿”。即使是最复杂的算法和最大限度的大数据挖掘,也会将多维度的问题变成简单的模型,把复杂的世界模拟得简单。因此,算法系统本身不是十全十美的,也是有局限的。
  以新闻推送为例,如果算法仅依赖点击量来推荐内容,用户可能只会收到观点偏激、猎奇吸睛的低俗文章,看不到点击量不大的高质量文章。如果算法想避免推送低俗的内容,还需要考虑用户的停留时长、转发分享、收藏评论等指标,以此确定文章的推荐权重。[11]即便如此,由于技术的限制,再完善的算法也达不到完美。例如基于协同过滤的新闻内容推荐算法虽然可以推荐新的信息,发掘潜在用户的兴趣爱好,但算法本身存在打分稀疏性问题、冷启动问题和算法可扩展问题。[12]当脸书解雇人工编辑,完全用算法推送热门新闻话题后,小错、乌龙不断。因此算法决策不可能完全替代人工判断,在算法充斥的世界中,人的判断依然很重要。

 

三、算法透明:算法偏见的应对之道

 

  媒介即讯息。算法有形塑社会和文化形态并直接作用于个体的能力。[13]在算法不成熟、不完善的情况下,算法塑造的拟态环境可能会出现更多“假新闻”和“噪音”。新闻从业者和公众需考虑算法的介入给新闻生产带来的负面影响,对算法进行监督尤为必要。但监督算法并非易事,算法很复杂,需投入大量的人力和财力,往往被视为商业机密不予公开。监督算法的前提是打开“黑箱”并对其祛魅,作为新闻生产流程的一部分,算法偏见需要依靠新闻伦理解决,新闻生产中的透明性(transparency)伦理可以成为应对算法偏见的有效措施之一。
  1.算法透明
  透明性指一个组织通过允许其内部活动或绩效处在外部行为者监督之下的方式,积极地公开自身信息。[14]在新闻伦理中,透明性被视为“新闻业内部和外部人士对新闻流程进行监督、检查、批评,甚至介入的各种方式”,[15]透明性原则在一些科学研究中被采用,研究者在公布研究结果时需要附上数据、编码和补充材料,证明其研究是可重复的。
  作为新闻透明性的一部分,算法透明(algorithmic transparency)旨在让人们知道某一算法的设计意图、设计目标、运行效率、适用条件和存在的缺陷,了解算法的运行机制和做出特定决定的原因。
  算法透明包括五个方面:①用于优先(prioritize)、排序(rank)、强调(emphasize)或发表意见(editorialize)时的标准,包括定义、操作和可能的替代。②数据算法的数据。如哪些数据被关注,运行算法的其他因素。③准确性,包括分类中误报(false positive)和漏报(false negative)的错误比率以及如何设置这些错误平衡点的说明。④描述测试数据(training data)以及潜在的偏见,包括算法的演变和运行。⑤用于相似性或分类算法的定义、操作或阈值(thresholds)。[16]
  2.算法透明的两种可行方式
  算法透明的逻辑起点在于新闻业是一项公共服务,当涉及公共利益时,公众有权知道算法的运行机制及其缺陷。在新闻生产中有两种不同利益导向的新闻服务(见图3):一种是完全基于公共利益的非盈利新闻生产,如非盈利新闻业、公共广播事业;另一种是兼顾公共利益和商业利益的新闻生产,这是全球新闻业的主流。

 

 

 

  对应以上两种新闻服务取向,在新闻生产中,有两种不同属性的算法,笔者将其命名为开源算法和专有算法。
  开源算法是指算法设计本身旨在服务社会,通过透明和参与式编码,让所有的源代码都能被人使用和修改,最终生成具有共创、共享的透明算法。这种算法出现的社会背景主要与开源运动有关,国外现在已经有开放人工智能(OpenAI)等一些人工智能开源运动。开源算法一旦被设计出来,可以被所有人免费使用、修改。因此涉及公共利益、不涉及商业利益的算法可以是开源算法,经由各方不断修改、完善的开源算法会更大限度地服务社会。
  专有算法在使用和修改上有限制,这种算法作为知识产品是受法律保护的,算法所有者对此持有知识产权。目前新闻生产中的各类算法大多属于这种。当涉及商业利益时,算法透明不容易实现,此时算法往往被视为商业机密有权不予公开。当涉及公共利益时,作为使用者和被影响者的公众就拥有了关于算法的知情权,这时需要区分两种算法透明的方式:主动的算法透明和被动的算法透明。
  3.主动的算法透明
  “主动的算法透明”是指新闻生产者主动将算法的运行机制与设计意图公之于众,接受社会监督,开源算法都采用主动的算法透明。计算机科学家汉森(Hansen)认为:“公开代码是社会的责任,这样的过程可以使得公众参与进来,不论它成为何种格式,基于算法的报道将很快成为一种必须技能,记者得跟上这游戏,不仅要理解对算法透明度的要求,还要提高现有的新闻业务能力,这样我们才能利用人类与日俱增的智慧。”[17]
  2016年调查性数据新闻报道《网坛骗局》的制作媒体公布了原始数据、算法程序和分析过程,详细说明了该报道的数据获取、数据准备、赛事排除、赔率变化计算、选手选择、仿真和显著性检验等细节,公众可以对数据结论进行验证。在《金融时报》的数据新闻《世界到底在采取哪些措施阻止气候变化》中,用户通过操作“气候变化计算器”对不同国家碳排放量进行“控制”,从而洞察全球变暖的趋势。该报道提供了“气候变化计算器”的设计和运行资料,让用户了解该计算器的运行机制。
  “主动的算法透明”由于媒体坦诚算法设计与应用中的局限,不仅可以规避一些风险(如不必为错误的预测或产生的偏见结论负责),还有助于建立媒体与用户的信任关系。随着算法在新闻生产中的应用越来越普遍,未来可能会出现更多针对新闻生产各环节的算法模板,主动的算法透明会越来越多,也会在不断的开源分享中越来越完善。
  4.被动的算法透明
  算法不透明(algorithmic opacity)在各行各业中是一个普遍问题。如果想让算法透明,必须采取一种强制性手段,即法律手段,笔者称之为“被动的算法透明”,即依据法律规定、按照法律程序公布有关算法的全部或部分内容。假定在新闻生产中,用户怀疑或发现涉及公共利益的某专有算法涉嫌种族歧视、误导公众时,可依据法律规定要求媒体披露该新闻算法运行的相关信息,保障公众的“知情权”。
  由于算法在新闻生产中的应用时间不长,各国缺少监督、审计算法的法律法规。目前意识到“被动的算法透明”的是欧盟,在2018年5月生效的《一般性数据保护法案》(General Data Protection Regulation,GDPR)中,欧盟给予用户申请某项基于算法得出结论的解释权(right to explanation),但该法案实际上并没有从根本上保证算法的问责和透明度。[18]在算法时代,如何针对不同领域、不同用途的算法制定契合实际的法律条款对算法实现有效监督,是当前各国信息立法的新课题。
  从技术上说,完全的算法透明很难实现。现实世界的很多算法都是“黑箱”,在深度学习领域一些算法即便对算法设计者来说也是难以理解的。因此切实可行的方式是为“被动的算法透明”确定一个合适的透明程度,即有意义的透明(meaningful transparency),这是一种较低标准的算法透明,利益相关者(stakeholders)借此能够介入、使用、执行算法,保证算法过程是负责任的。[19]当然“有意义的透明”是相对的,需要“具体算法具体分析”,对于不同的利益相关者,透明性的具体要求是不同的。因此在算法透明中,如何在不同情况下做到“有意义”,并不是设定一个统一的标准就能解决的,需要立法、相关行业、公众和技术人员充分讨论。
  在媒体层面,为保障公众对涉及公共利益的新闻算法的知情权,媒体需要制定相应政策,或由行业协会出台相关指导意见。由于算法的专业性与复杂性,一般公众很难对其实现有效监督,比较可行的方式是让值得信赖的第三方核查机构介入,对公众关心或存有争议的新闻算法进行检查和评估,看算法是否透明和公平,这也会打消算法所有者对商业机密泄露的顾虑。但在社会上如何组建核查算法的第三方机构、如何对其赋权,是算法时代社会治理的新问题。

 

四、结语

 

  当前我们正处于弱人工智能(Artificial Narrow Intelligence,ANI)阶段,算法偏见的问题虽然存在,但还没有给社会带来严重危害,相关立法和行业伦理规范并未成熟。随着人类奔向强人工智能(Artificial General Intelligence,AGI)阶段,算法的中介本质、主体地位和社会影响会愈来愈突出,人们需要思考如何设计、应用、监督、规制算法等问题。在未来的新闻生产和媒介素养教育中,笔者认为“算法素养”(algorithm literacy)应纳入专业技能培养和通识教育体系中,新闻从业者和公众都要意识到算法的中介属性和设计局限。在算法主体地位日益凸显的算法时代,认识算法、理解算法、批判算法是善用算法的前提,也是新闻生产面对的新命题。
  [作者单位:山东大学(威海)文化传播学院]

 

  *本文系2017年度教育部人文社会科学研究青年基金项目“大数据时代的数据新闻生产与伦理研究”(17YJC860033)的阶段性成果

 

  参考文献:
  [1][7]方师师.新闻业和你我的宿命,就是被算法“算计”[EB/OL].http://www.jfdaily.com/news/detail?id=58922
  [2]吕国英.算法设计与分析(第2版)[M].北京:清华大学出版社,2009:7
  [3][6]王红梅,胡明.算法设计与分析(第2版)[M].北京:清华大学出版社,2013:8,6-7
  [4]唐士哲.重构媒介?“中介”与“媒介化”概念爬梳[J].新闻学研究,2014(3)
  [5]卢克·多梅尔.算法时代:新经济的新引擎[M].胡小锐,钟毅,译.北京:中信出版集团,2016:220
  [8]Kelly.开除了所有编辑 Facebook算法为什么还没有消除新闻偏见?[EB/OL].http://www.evolife.cn/html/2016/88787_2.html
  [9]Princeton University, Engineering School.Biased bots:Human prejudices sneak into artificial intelligence systems[EB/OL].www.sciencedaily.com/releases/2017/04/170413141055.htm
  [10]余婷.美联社推出新闻编辑部“人工智能”使用手册[EB/OL].http://mp.weixin.qq.com/s/kGINkWfIN1c_EeO_rt7dbA
  [11]刘爽.人工智能时代如何通过编辑让算法更闪亮[EB/OL].http://tech.ifeng.com/a/20161018/44471576_0.shtml
  [12]王博.新闻内容推荐算法研究[J].信息与电脑(理论版),2016(6)
  [13]Beer.Power through the algorithm? Participatory web cultures and the technological unconscious[J].New Media & Society,2009(6)
  [14]Grimmelikhuijsen,.Transparency of Public DecisionMaking:Towards Trust in Local Government?.Policy&Internet,2010(1)
  [15]Deuze.What Is Journalism? Professional identity and ideology of journalists Reconsidered.Journalism,2005(4)
  [16]Diakopoulos. Algorithmic Accountability. Digital Journalism,2015(3)
  [17]肖敏树.那些算计着我们生活的算法[EB/OL].http://mp.weixin.qq.com/s/tgvKybyZArluu7c51_sioA
  [18]Sample.AI watchdog needed to regulate automated decision-making, say experts[EB/OL].https://www.theguardian.com/technology/2017/jan/27/ai-artificial-intelligence-watchdog-needed-to-prevent-discriminatory-automated-decisions
  [19]Brauneis&Goodman.Algorithmic Transparency for the Smart City[EB/OL].https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3012499

作为中介的算法:新闻生产中的算法偏见与应对*

以下网友留言只代表网友个人观点,不代表本网站观点

发布评论

 匿名发表    您在以匿名发表时可以输入昵称

如果您是本站注册用户请将此复选框钩掉,并在下面输入有效的用户名密码。

用户名:         密码:

关于中国新闻出版广电网 | 版权声明 | 人才招聘 | 广告服务 | 联系我们

京ICP备07004361号 Copyright 2007 chinaxwcb.com All Rights Reserved

中国新闻出版广电网 版权所有,未经许可不得复制或镜像