算法决定信用评分?一个世纪前人类就犯过类似错误

原标题:算法决定信用评分?一个世纪前人类就犯过类似错误

编者按:我们经常抱怨他人决策时所犯的人类偏见和错误对我们的生活产生了影响。于是由代码实现的,不那么容易出错、不带偏见的算法来做这件事情的想法就有一定的诱惑力了。但是机器不是你的朋友。代码也是由人编写的。而且,当算法出错时,没人可以抱怨。Rachel O'Dwyer在《Quartz》的这篇文章就解释了算法正在犯着人类在一个世纪以前所犯的信用评分方面的错误。

全世界最大的金融贸易展Money2020每年都会在拉斯维加斯的威尼斯人酒店举行。在最近的一次展会上,在布满一堆老虎机的赌场上方,加密数字货币初创企业在推销着自己最新的代币发售,而在主展台上,PayPal总裁兼CEO Dan Schulman面对数千观众发表了一次激情洋溢的演讲,他谈到了全球贫穷的劳动阶层对银行和信贷的需求。按照PauPal和许多其他公司的说法,未来将属于算法性信仰评分,支付和社交媒体数据跟机器学习结合在一起,将会做出“比人类更好的”借贷决策。

中国的信贷目前掌握在支付宝手上,它利用了包括用户买什么、用什么样的手机、玩什么类型的增强现实游戏,以及社交媒体上的朋友是谁等在内的数千个消费者数据点来决定信用评分。在一个老年人偶尔也会掏出手机购买日用百货,甚至连乞丐都会用二维码接受捐赠的文化里,可以抓取的数据实在是太多了。在信用评分跟贷款额度直接挂钩的同时,这玩意儿其实还充当了好品质的代理。比方说,在中国有一个个很高的信用排名可以帮助你提高就业或者拿到去欧洲旅游签证的机率,甚至连在网上约会中找到伴侣的机会都要更好。在中国的在线约会网站百合网上,信用评分高的人能看到的东西都会比别人多。

所有这一切都是由算法决定的。

比方说,在中国如果信用排名高的话,得到就业或者拿到旅游签证的机会也会更大。

比方说,在中国如果信用排名高的话,得到就业或者拿到旅游签证的机会也会更大。

据说这种由算法性信用评分应用做出的决定不仅在预测风险方面比传统评分手段更精确,而且其支持者还认为这样做还更加公平,因为算法是不受种族、性别以及社会经济学偏见影响的,而这些在过去已经扭曲了对信用的使用。为什么玩视频游戏,用Android手机,或者有400位Facebook朋友能够帮助确定一项贷款申请的成功与否,但是在金融危机10年之后,现在的逻辑已经变成我们需要相信数字是不会说谎的。

支付宝并不孤单。除了微信这样的中国竞争对手以外,其他公司也在利用机器学习在撒哈拉以南非洲来做出贷款决定。其中一家叫做Branch的公司正在利用手机在肯尼亚普及的机会,从极其流行的移动支付平台M-Pesa抓取数据来进行信用评分。当然,算法性信用评分并不仅限于新兴市场,在德国,决定要建设“消费者金融的Amazon”的借贷服务Kreditech正在从偿还历史等传统指标转向从客户放弃的Facebook数据背后挖掘隐藏的性格线索。与此同时,美国一家叫做ZestFinance的公司利用了大数据来定向寻找那些显然从未从次贷危机中恢复元气的客户。

算法性信用评分的崛起主要是受到了全球“无银行账户”需求的助推。

算法性信用评分的崛起主要是受到了全球“无银行账户”需求的助推。

正如Schulman在Money2020的演讲中提出那样,算法性信用评分的崛起主要是受到了全球“无银行账户”需求的助推,吸引了数十亿因为缺乏传统金融历史记录而被排除的客户。但是算法性信用的崛起也对发达经济体的焦虑,尤其是金融危机的余波做出响应。金融危机过去10年后,大家现在燃起了大数据也许最终可以为风险重重的消费者信贷普及提供支撑的希望。我们是否应该对这一希望抱有信心仍然是个开放性的问题——但鉴于机器学习的不可测知性,也是一个很难回答的问题。

2002年,Canadian Tire的一位主管J.P. Martin开始分析来自上一年的交易数据。这家公司销售体育和游乐设备、家居用品以及汽车备件,还发行了广受采用的信用卡。Martin通过检查交易历史跟踪客户购买与拖欠还款可能性之间的关联。负责任的、面向社会的购买项目,比如鸟食或者屋顶除雪工具等跟未来的好信誉具有关联关系,而买廉价的机油则表明拖欠的可能性更高。

一些公司会在出现咨询费用的情况时降低客户信用,因为抑郁和婚姻冲突是有可能失业的迹象。

一些公司会在出现咨询费用的情况时降低客户信用,因为抑郁和婚姻冲突是有可能失业的迹象。

出现这些情况之后,一些信用卡公司很快就会开始利用这些和其他发现来对其客户进行仔细审查。在美国,维萨和万事达处理的每一笔交易都会按照商家类别进行编码——比方说5122是药物,7277是债务、婚姻或者个人咨询,7995是赌博和赌注,7273是约会与三陪服务。一些公司会在出现咨询费用的情况时减少客户信用,因为抑郁和婚姻冲突是有可能失业或者昂贵的诉讼的迹象。

尽管这些计算的依据是交易历史,信用评分算法却会对从支付历史、社交媒体、人口统计甚至GPS数据聚合的数千变量组成的数据集做出响应。ZestFinance的专利描述了对支付数据、社交行为、浏览行为、用户社交网络细节以及“借贷者关系网络的任意或所有成员的任何社交图谱信息”的使用。类似地,Branch的隐私政策也提到了侏儒个人数据、短信记录、社交媒体数据、金融树以及类似制造商、型号、浏览器类型等终端细节。这些应用不仅利用这些聚合的数据来进行决策;它们还建立了循环分析并针对想要的输出调整结果的系统,使得算法能通过建立自己的连接来“学习”。正如ZestFinance CEO 最近指出那样,“一切数据都是信用数据”,而算法的诡计也不再像雪耙=好;婚姻咨询=坏那样直截了当。

算法的黑箱性质导致没人能够真正理解哪些数据,或者哪些数据组合是具有显著影响意义的。

算法的黑箱性质导致没人能够真正理解哪些数据,或者哪些数据组合是具有显著影响意义的。

尽管那些公司通常预先知道输入了哪些数据从而可以对决策流程进行调优和更新,但算法的黑箱性质导致没人能够真正理解哪些数据,或者哪些数据组合是具有显著影响意义的。比方说,英国兰卡斯特大学的研究人员Joe Deville仅通过一点点的试错就发现,自己手机屏幕分辨率的改动似乎会导致一些算法性借贷商给出了不同的信用分,而有时候像给手机充电更频繁这样的神秘动作似乎能产生出更令人满意的结果。与此同时,Branch的CEO反复在讲他们的机器学习算法是一个“空中机器人”——听起来有点像某种AI童话,会根据用户乖不乖来做出放贷决定。就算你对这个黑箱蹦出来的数字感到不满意,你也没办法改变或者提出质疑。

算法信用评分看似十分的未来主义,但这些做法并不是根植于很久以来的新颖评分实践。比方说,早期的信用机构会雇人去发掘客户的信用历史。信用报告基本上是根据当地的传闻以及以白人男性中产阶层为主的报告人的推测汇编而成。报告会对客户的种族和阶层进行备注,外加家用开支情况,以及对性取向之类的猜测。来自纽约州布法罗市的一名信贷报告员指出“跟所有犹太人进行大型交易时均应采取谨慎性”,而乔治亚州的一位报告员把他看过的一家贩酒店描述成“一家低端的黑人商店”。类似地,成立于1899年的Retailer Credit Company(现在的Equifax)在60年的时间里利用欢迎送货车代表收集到的信息对数百万美国人进行资料建档。

到了1935年,他们根据信用特征对美国所有的街区都进行了分类。当年的一幅亚特兰大地图就用蓝色(令人满意)、黄色(明显衰退)和红色(危险区)对不同的地区进行了划分。上面的图例令人想起了个人拿到房屋抵押贷款的机率一度要取决于所在地理位置的历史。着色为红色的街区通常是贫穷或者少数种族占主导的地方。这种评分方法在今天被称为redlining(划红线注销),它充当了降低机动性并且将非洲裔美国人家庭从白人占主导地位的街区排除在外的一种手段。

1970年的公平信赖报告法案(The Fair Credit Reporting Act)以及1974年的平等信贷机会法(Equal Credit Opportunity Act)是纠正这些歧视性做法的尝试。在今天,按照金融科技的叙事手法,我们已经拥有了详细的、不带偏见的评分算法,据说它们在寻找个人信用度时是不看种族、阶层的。尽管如此,越来越多有关算法如何进行分类和决策的研究表明,其做法不过是镜像了这些地域排斥的历史做法,导致研究算法决策的社会、经济及政治影响的学者,如Cathy O’Neill和Frank Pasquale等人,把现在的一些做法称为是“weblining(网上注销)”,那些算法性评分只不过是复制了过去的信用世袭制和不平等罢了。因为这些系统是通过现有数据集来学习的,所以往往会遵循那些已有的偏见来让机器确定什么是好的,什么是坏的,以及什么属于正常或者信誉好的。

越来越多有关算法如何进行分类和决策的研究表明,其做法不过是这些地域排斥的历史做法的镜像罢了。

越来越多有关算法如何进行分类和决策的研究表明,其做法不过是这些地域排斥的历史做法的镜像罢了。

这些系统正在迅速变成常态。中国政府现在已经准备要针对其14亿公民推出其自己的算法性“社会信用系统”,这是一套利用在线数据对信用度进行打分的指标体系。随着这些系统的逐渐流行,随着评分代表了个体价值,决定了一个人能不能获得金融、服务以及基本自由,坏决策的代价比以往任何时候都要高昂。而且我们还没有讨论到使用此类算法代理的合法性如何。

要求这些系统提高透明度似乎是理所当然,但由于机器学习的晦涩性质以及数据集的规模之庞大,想要找出偏见的出处是极其困难的。即便我们能够瞥见黑箱里面,大概也找不出代码里面指示系统做出对穷人、有色人种或者玩太多视频游戏的人做出歧视性决定的线索。比理解这些评分是如何被计算出来更重要的,是要赋予用户有意义的机会对这些算法做出的不利决定进行申诉和抗辩。

也许到了那个时候,我们才能真正知道这些系统是否会在信用到期时给予我们信用。

原文链接:https://qz.com/1276781/algorithms-are-making-the-same-mistakes-assessing-credit-scores-that-humans-did-a-century-ago/

编译组出品。编辑:郝鹏程。返回搜狐,查看更多

责任编辑:

声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
阅读 ()
免费获取
今日搜狐热点
今日推荐