关于人脸识别,好与坏之间还有五十度灰

2019-09-16 导读

导读 : 本文转载自投中网,原作者曹玮钰。亿欧智慧城市对文章进行二次编辑,供读者参考。早在20世纪70年代和80年代初,科技行业创造了一种变革性的新技术,赋予了政府和企业一种前所未有的能力——跟踪、分析和理解所有人的能力——数据库。关系数据库(RelationalDatabase)意味着,理论上存在的小规模可能性,在实际中可以大规模实现。对此,人们忧心忡忡,市面上关于这类的书籍也很多...

导读 : 本文转载自投中网,原作者曹玮钰。亿欧智慧城市对文章进行二次编辑,供读者参考。早在20世纪70年代和80年代初,科技行业创造了一种变革性的新技术,赋予了政府和企业一种前所未有的能力——跟踪、分析和理解所有人的能力——数据库...


关于人脸识别,好与坏之间还有五十度灰


本文转载自投中网,原作者曹玮钰。亿欧智慧城市对文章进行二次编辑,供读者参考。

早在20世纪70年代和80年代初,科技行业创造了一种变革性的新技术,赋予了政府和企业一种前所未有的能力——跟踪、分析和理解所有人的能力——数据库。

关系数据库(Relational Database)意味着,理论上存在的小规模可能性,在实际中可以大规模实现。对此,人们忧心忡忡,市面上关于这类的书籍也很多了起来。

具体来说,人们担心两个问题:

人们担心这些数据库包含不良数据或错误假设,特别是数据库可能会在无意中将当今社会的一些偏见编程并留存在机器中。

此外,人们也会担心,如果坏人创建并使用这种系统去做了人们不喜欢的事情,这会产生一些不良的后果。

到了如今,人们对人工智能(更恰当的说是机器学习,因为AI通过机器学习才能实现)的探讨,尤其是关于人脸识别的担忧,与当年的数据库大体相似。此外,我们也在试图探寻,这其中有多少是全新的问题,人们的担忧有多少,以及为什么需要担心。

人没有问题,但数据有问题

人们在使用数据库时曾犯了些错误。

你可能听过类似的老笑话,比如税务局拼错了你的名字,但其实直接改名字比纠正拼写错误更容易。还有一个不完全是笑话的情况,如果你和通缉犯同名,警察总会叫住你;或者你与恐怖分子同名,会发现自己被禁飞甚至更糟。还有一个例子,今年有一位安全研究人员表示,他把“NULL”注册为自定义车牌号,结果收到了数百张随机错发的停车罚单。

从中我们可以看到三个问题:

系统中可能会包含错误数据(比如拼写错误)

处理数据的方式中存在bug或错误假设(比如不能把“Null”作为一个名称处理)

系统的使用者没有经过充分培训,系统缺乏合理流程,制度结九乐棋牌构存在欠缺,也没有授权个人对类似错误进行识别并做出适当反应。

当然了,所有的官僚体系都会受制于这一系列问题,几千年前就是如此。之后数据库为人们提供了一种新的实现形式,如今轮到了机器学习(MachineLearning)。但机器学习也会以各种方式把事情搞砸,这是其运作方式中固有的天性。

试想一下,你想做一个可以识别猫咪图片的软件系统。实现这一目标的旧方法是建立逻辑步骤——进行一些设置,可以检测到边缘、耳朵、眼睛,计算出腿的数量等等......最终,共有几百个步骤拼凑在一起,但这永远不会奏效。这就好像试着造欧博平台一匹机械马,理论上完全可行,但实际却太过复杂,类似的计算机科学问题也数不胜数。

机器学习把这些难题从逻辑问题变为统计问题——无需记录下识别照片(比如写着X的照片)的方式,而是用十万张X照片和十万个非X照片图例,通过一个统计引擎生成(也就是训练)能在一定准确程度上区分出不同照片的模型。之后你再拿出一张照片,系统就会告诉你这张照片是否、以及在多大程度上可以匹配X照片。

计算机能够制定出规则,不是因为人们给了计算机规则,而是因为计算机可以基于人们提供的数据和答案(这是X,或者这不是X)制定规则。

这可以很好地解决包括人脸识别在内的一整套问题,但也存在有两个误区。

第一,X和非X图例中的训练数据究竟是什么?是否可以精准确定?图例中有什么其它的东西吗?

最好的例子来自于一个通过皮肤照片识别癌症的项目。明显的一个问题是,人们可能没有不同色调、分布均匀的皮肤图样。但另一个可能出现的问题是,皮肤科医生惯于在癌症照片放置标尺以对皮肤问题(斑点等)进行测量,所以如果所有癌症图例中都有标尺,而所有非癌症的图例中没有标尺,那么在统计中,标尺可能会比皮肤的细小斑点更有存在感。因此,人们可能在无意中建立了一个标尺识别器,而这并不是癌症识别器。

这里需要理解的一个结构性问题是,系统无法理解它看到的东西——它对皮肤、癌症、颜色、性别、人甚至图像,没有任何概念,就好比洗衣机并不知道衣服是什么,系统只是对数据集进行统计和比较。

那么,数据集又是什么呢?如何进行选取的呢?其中有没有人们没有注意到的细节?数据中是否存在可能与人毫不相关、没有预测价值,但却会影响结果的东西呢?人们可能无法分辨个中区别,但计算机却会把这些当作信号。

第二点就更微妙了:什么才是“匹配”?人们熟悉的计算机和数据库通常会给出“是”或“否”的答案。但机器学习不会给出“是”或“否”,而是给出“可能是”、“可能不是”和“或许”的回答——机器学习给出的是个概率。

在近期一些噱头十足的报道中,我们就能看到上白金会述两个问题:比如运用犯罪分子的面部照片进行人脸识别系统的训练,然后拿一张正派人(通常是政治家)的照片来询问系统,如果有任何匹配,系统就会说YES。结果,这位政治家与银行抢劫犯“匹配”成功。

在计算机科学家看来,这像是一种破坏——故意使用偏斜的数据集,故意设置一个对于用例而言过低的准确度,然后(错误地)呈现概率结果——“匹配”。这么说来,人们可以用小猫照片或者大白菜照片做出相同的事,比如你告诉电脑“从卷心菜照片中找到与这张人脸照片最匹配的那个”,电脑会说“好的,以下这张卷心菜照片是最接近的”。这就是个失败的系统设置,好比你开车撞墙,然后说“白金会看!车坏了!”,仿佛已经证明了什么似的。

当然,你的确已经证明了一些东西 ——汽车撞墙会坏掉。这类证明还是有价值的,因为人们听到“人工智能”时,通常会认为它是智能的——这是AI、数学和计算机,而数学是没有偏见的。的确,数学没有偏见,但是数据却可以有偏见。人工智能技术跟数据库一样,可能会搞砸一些事,因此上面所说的“反例”是有价值的。不然,一些人在并不理解这一点的情况下,会以“错误”地进行人脸识别系统的开发,并把产品推销给一些小警察局,拍着胸脯说“这就是人工智能,永远不会出错”。

这些都是机器学习的根本性问题。需要反复说明的一点是,机器学习与人类相关的数据没有任何特别的关系。同样,机器学习的能力也非常强大——有不少有价值的案例表明,机器学习能够识别出计算机之前无法识别的东西。

但是,正如我们清楚数据库有价值的同时也会出错一样,我们需要了解机器学习的工作原理,并要确保人们清楚一点:计算机也可能会出错。机器学习的确在某些事上比人类做得好,就像狗在寻找毒品方面要比人类要强,但我们不能仅仅因为狗展现出了初步证据就去轻易给人定罪。

数据没有问题,但人有问题

到目前为止,我们谈论的是,如果人脸识别系统(或者说机器学习系统)给出了不准确的结果,会产生什么样的后果。

也有一个同样的相反问题:人们也可以开发出一个结果精准的系统,并把结果用到我们不喜欢的事情上。肖像的滥用就是一个很容易被注意到的问题 ——有人可能在你毫不知情的情况下用了你的肖像,而你却没办法改变这一点。

试想,房地产开发商用面部识别来白金会标记和跟踪购物街走过的每一个人,看看这些顾客进入了哪几家商店,看上了什么商品,试穿了什么衣服,然后把这些链接到到销售网点和信用卡上。

我认为,大多数人都会对此感到很不舒服,因为这是被动进行的,也不是为了顾客的利益。这一系列所作所为来出自于一家未经许可的私人企业,属于对隐私的非自愿入侵,顾客甚至可能根本察觉不到它的发生。

但是,如果这种跟踪是不记名的,那是否可行呢?如果识别系统并没有连接到信用卡和人名,而只是用于分析脚步呢?如果系统只是通过衣服和步态来跟踪商场周围的人,并没有涉及人的面目呢?

所有这些讨论,实际上并不关乎技术。虽然我们大多数人会非黑即白地走极端,但理性的人并不会这样开元棋牌做,因为中间还有一块巨大的灰色地带。

关于道德与监管的几点思考

对待这些问题,科技行业的应对措施是建立道德委员会,并为工程师、研究员和公司建立一整套行业行为准则。这两种做法的主张是:

•承诺不做含有“不良数据”的产品

•承诺不用数据做“坏事”。对于董事会来说,确定“坏事”的定义也需要一个流程。

这些都是必要的,但我认为还不够。

首先,在我看来,承诺不去做那些结果出问题的人工智能产品,更像是对自家公司的承诺——不要把事情搞砸。但实际上,没有人会“计划”去搞砸什么。建议公司列出一些试图避免的特定问题,虽然日后某些方面会取得进展,但问题其实是没办法完全阻止。

回到数据库上来,我的一位朋友史蒂夫切尼(Steve Cheney)最近写了一篇博客,提到他在路上被警察拦下并戴上了手铐,原因是Hertz(知名租车公司)报告了他租车被盗的错误信息。这不是机器学习的问题,而是40年前的数据库技术问题。

我们在讨论如何避免数据库上问题上的时间,比大多据库工程师活着的时间都要长,但问题仍然会发生。最重要的是,拦下史蒂夫的警察对数据库及问题是有概念的,也有进行检查的常识(和授权),但他还是把我朋友铐了起来。

这又回到了我之前提欧博平台到的人脸识别技术。你可以承诺不犯错,但是让人们知道技术会出错这件事可能更有价值——我们不能假定计算机总是正确的。

其次,有些公司认为人脸识别(或任何类型的机器学习)技术是邪恶的,表示不会做这样的产品,这是一件好事,但“邪恶”与否通常只是个主观想法。

当前有很多例子表明,人脸识别技术已经发展成了一个产品。虽然前沿成果仍掌握在少数公司和机构手中,但如今任何一家软件公司都可以轻而易举地开发“面部识别”产品了。

此外,从一些城市到欧盟各级政府,都在推动对人脸识别的监管,这当然具有强制力,可仍然无法阻止技术出现的差池。但城市和政府可以开展审计程序以发现问题,并在发生状况时采取补救或处罚措施。

我认为,这其中的挑战在于,如何从层层的抽象中找出重点。比如,庞氏骗局破裂的时候,人们不认为日后需要对Excel表格进行更严格的监管,真正应该干预的地方在金融服务。同理,单单制定一部法律,规定关于面部解锁手机、把脸变成小猫、在超市里识别出购物卡持有者的系统、警察可以使用相机监控的地点等等,不太可能是一个有效的办法。

由亿欧公司主办、粤港澳大湾区研究院(广外)联合主办的“2019大湾区国际科创峰会(BATi)”结合湾区科创和青年特色优势,将第二届大湾区国际科创峰会的主题定位于“科技赋能、青年引领”,将围绕5G生态、硬件创新、工业数字化、AI企服、科技出海等热点展开探讨,欢迎科技创新的观察者参与!

报名链接:https://www.iyiou.com/post/ad/id/875


编辑:李腾

本文已标注来源和出处,版权归原作者所有,如有侵权,请联系我们。


本站所收集的资源来源于互联网公开资料,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。本站部分作品是由网友自主投稿和发布,本站仅为交流平台,不为其版权负责。

人工智能的未来发展,需要以人为本
移动支付花样多 “视网膜支付”或成真