嘿!您似乎在 United States,您想使用我们的 English 网站吗?
Switch to English site
Skip to main content

【转载】人工智能哪些事儿(2)- 您用的数据可靠么?

原作者:苏老师

转载自:https://mp.weixin.qq.com/s/YMRT0WYEKdyZzFZ4RFBvgA

上一篇我们讲到,基于神经网络的深度学习之所以能够快速燃爆人工智能的蓬勃发展,一个非常重要的原因就是到了今天我们真正拥有了足以让神经网络产生价值的海量的数据,尤其是世界顶级的互联网公司Google、Amazon、Apple、Facebook、阿里巴巴、微信等。正是基于这海量的数据才能够让机器进行深度的学习,并从中训练出能够推理的模型。

无处不在的数据

自从半导体领域的先驱大牛发明了ADC(模数转换器),从此我们将对周围世界认知的方式从模拟世界转移到了数字域里面。在数字域里,人类积累的最高智慧 - 数学可以大显身手 - 通过逻辑处理、数字信号处理、高速运行的微处理器等等,这些处理的对象都是数据,它们有的来源于对世界表征的信号,有的是中间的处理结果。

在过去的40年里,摩尔定律一直主宰并推动着半导体的高速发展,对我们今天数据的获取、存储、加工以及管理都起着巨大的影响。

Law_5a33ff4116d94b1ad47416b4433e107dc40adbd4.png

越来越多的晶体管被装入CPU中

今天,我们每个人都被互联网移动互联网连接起来,而逐渐渗透到我们生活的各个角落的物联网将我们人跟周边的事、物也紧密联系,我们、我们周边的一切都会成为这个庞大网络的一个个节点,我们每天积累的数据以惊人的速度在增加 - 几乎每个人生活的每一个侧面、细节都以数据的形式被记录、被存储。我们上网的每一个点击、我们交易的每一个环节、我们分享的每一幅照片和短视频、通过传感器对我们周围世界包括我们自身的任何一个感知测量都被记录。据说,目前我们每天能够产生2.5Quintillion(18个零)字节的数据(天文数字也就这么大吧?),以后会更多。这些数据与人的行为、情感、体验、社会关系等都相关,通过对这些数据的分析,机器就能够更好地推理并且变得越来越像人,比如:

  • 社交媒体(Facebook、Youtube、Google、微信、微博)上分享的照片和视频中存储着每个人的“人脸”以及“表情”,并且有着性别、年龄、情感、性取向、政治主张、智商等信息;

  • 智能手表存储着大量的私人健康数据,包括在健康和发病时期的体温、心跳等信息;

  • 通过社交网站、搜索引擎可以提取出每个人的关系网络以及对他们的兴趣起到影响作用的因素;

  • 我们每天使用的手机已经将我们每个人喜欢说的话、问的问题、以及同其他人的沟通方式做了记录。

12342_f5111cb0066f50af15a9b3981e037dbc26e1b0f4.png

我们使用的社交平台存储了我们每个人的行为和关系信息

看过电影“Her”和黑镜系列的“be right back”吧?未来的某一天,人工智能完全可能基于你在各处留下的蛛丝马迹重造一个“你” - 一样的声音、一样的说话方式、一样的眼神、一样的柔情脉脉,“你”这个角色将可以在人工智能的世界里永生,虽然你自己未必喜欢。。

Be_Right_Back_45b5268bd1cf4c8dda2f3b7e51730f2da821f147.jpg

黑镜系列的“be right back”

算法的执行需要经过处理过的数据:

同以往的学习算法不同的是,深度学习算法使得越多的数据我们可以获得越强的智能。因此随着数据的继续增加,人工智能的演进步伐也会越来越快。

Why-Deep-Learning-1024x742_aba4bbebcdf5c2bff0b3f7c754bb770f68607931.png

基于目前的AI方案,越多的数据意味着越强的智能

当然要让这些数据在AI算法中起到作用,还需要大量的外部整理和处理工作,因为原始的数据很难用于分析,尤其是一些专业的领域,我们需要对这些数据的意义有着深刻理解的专业人士来对这些数据进行加工、格式化、标记等等。

算法对非格式化数据的理解也是目前科学界研究的一个重要的方向,毕竟每天如此巨量的数据产生,都要经过专业的处理之后才能使用,这也会大大阻碍A.I.的有效发展。当前Google的AI处理机制已经能够基于最原始的数据理解同义词概念,其最新的算法(Rankbrain)能够直接从每天百万的查询中学习,回答各种模糊不定的搜索查询,有的甚至是俚语或口语,或者有很多错误的简单问话。

有效获取并正确解读数据是个巨大的挑战和机会

A.I.需要的数据来自于产生这些数据的人的一切行为,以及来自于专业的人士对事、物产生的数据的解读。

而人,因为主观、因为认知的不同,因为客观情况的限制,很多时候是不靠谱的。

比如,你对一群人做一个社会调查,得出的数据未必反应真实的情况,只能说反应的是这群人刻意要表达或者说不得不表达的信息,用什么方式才能获取更接近真实的信息呢?

比如,你询问一个造成交通事故的人,是什么原因导致的?他/她的回答未必就是真相,一系列主观或客观的因素导致了结果谬之千里。

比如,人会有意或无意地犯错,即便两个人沟通都会产生理解上的差异。

很多网站让用户填写一些信息(获取数据的过程),但由于网站UI/UE的不同导致得到的数据质量千差万别,一个好的UI设计应该人性化到所有的选项都尽可能预置好,并且让用户能够自觉的勾选最符合他/她情形的一个选项,这样采集下来的数据才相对更可靠。

数据是A.I.的基础,面对每天产生的巨量的数据,我们在数据加工方面的工作才刚刚开始。我们需要开发更好的技术来采集、修剪、清洗、格式化从各种来源得到的数据,让数据更加可靠、更加真实、对算法更加友好,我们也需要更多专业的人士对这些数据的真实含义进行解读。

今天的文章结尾,我们再来看一下Intel关于人工智能的一个短片介绍。

Intel关于人工智能(A.I.)的一个短片介绍

PuaChengLin 还没写个人简介...