BTC-E美元实时行情Bitstamp美元实时行情BTC-E莱特币实时行情比特币中国实时行情
比特币时代

区块链将彻底改变人工智能

作者:网文 来源:转载 日期:2017-6-27 9:20:48 人气: 标签:区块链 【打印】

作者简介:Trent McConaghy是人工智能研究人员兼区块链工程师。他是BigchainDB、IPDB、ascribe和Solido等公司的创始人兼首席技术官。

近些年来,人工智能(AI)领域的研究人员终于攻克了几十年来为之努力的诸多问题,从围棋到人类级别的语音识别。一个关键的部分是收集并学习海量数据的能力,这方面的错误率已迈过了成功线。


简而言之,大数据已彻底改变了人工智能,达到了几乎难以置信的地步。


区块链技术也有望以自己独特的方式,彻底改变人工智能。区块链在人工智能的一些应用很普通,比如人工智能模型方面的审计跟踪记录(audit trail)。一些应用似乎不合常理,比如能拥有自己的人工智能――即人工智能去中心化(DAO)。所有这些都是机会。本文将探究这些应用。


区块链是蓝海数据库


在我们探讨种种应用之前,不妨先看一下区块链相比MongDB等传统的大数据分布式数据库有何不同。


我们可以把区块链看成是“蓝海”数据库:它们避开了“血惺的红海”:好多鲨鱼在现有的市场争夺地盘,而是选择进入了市场一片广阔、没有竞争的蓝海。著名的蓝海例子就是视频游戏机Wii(牺牲了一点原始性能,但是拥有新的交互模式),或者是黄尾袋鼠(Yellow Tail)葡萄酒(忽视了花里胡哨的规格,让葡萄酒更贴近爱喝啤酒的人)。


按照传统数据库的标准来看,比特币等传统的区块链很糟糕:吞吐量低、容量低、延迟高、队列支持差劲,不一而足。但是按照蓝海思维来看,这没什么,因为区块链引入了三个新的特点:去中心化/共享式控制、不可改变/审计跟踪记录,以及原生资产/交换中心。比特币的启发,人们很高兴忽视以传统数据库为中心的不足,因为这些新的好处有望以全新的方式影响众多行业和整个社会。


这三个新的“区块链”数据库特点对人工智能应用而言也可能令人关注。但是大多数现实世界的人工智能处理大量的数据,比如训练庞大数据集,或高吞吐量数据流处理。所以,区块链要想应用于人工智能,就需要拥有大数据可扩展性和队列的区块链技术。像BigchainDB这些新兴技术及其公共网络IPDB正好具有这种功能。你不再需要为了获得区块链的好处而牺牲传统大数据数据库的优点。


面向人工智能的区块链概述


拥有可扩展的区块链技术发掘了它应用于人工智能的潜力。现在不妨探究一下那些应用是哪些,先从区块链的三个好处说起。

区块链的这些好处给人工智能的从业人员带来了下列机会:


去中心化/共享式控制鼓励数据共享:


(1)带来更多的数据,因而带来更好的模型。

(2)带来全新的数据,因而带来全新的模型。

(3)便于对人工智能训练数据和模型实行共享式控制。


不可改变/审计跟踪记录:


(4)带来训练测试数据和模型方面的数据溯源(provenance),从而改善数据和模型的可信度。数据也想要信誉。


原生资产/交换中心


(5)导致训练/训练数据和模型成为知识产权(IP)资产,因而导致去中心化的数据和模型交换中心。它还能更有效地控制上游对你数据的使用。

还有另一个机会:

(6)人工智能连同区块链为人工智能去中心化自治组织(DAO)发掘了机会。这种人工智能可积累财富,是你无法关闭的。它们是增强版的软件即服务(SaaS)。


区块链几乎势必能以更多的方式帮助人工智能。人工智能同样能以许多方式帮助区块链,比如挖掘区块链数据(比如黑市交易网站Silk Road调查)。不过那是另一番讨论:)


许多这些机会关乎人工智能与数据之间的特殊关系。所以不妨先来探讨这方面。之后,我们将更深入详细地探讨区块链在人工智能领域的应用。


人工智能和数据


这里我要描述有多少现代人工智能在充分利用海量数据以获得出色的结果。(并非总是这样子,但是这是值得描述的一个共同话题。)


人工智能和数据的“远古”历史


我在上世纪90年代开始从事人工智能研究时,一种典型的方法是:


1. 这是你的固定数据集(通常很小)。

2. 设计一种算法来提高性能,比如说为降低曲线下面积(AUC)的支持向量机分类器设计一种新的内核。

3. 在会议或杂志上发表这种算法。相对提高10%是“最小的可发表单位”,只要你的算法本身够花哨的话。如果你能提高2倍至10倍,那么你看到的是最佳论文,如果这种算法确实很花哨,更是如此。


如果这听起来太学术化了,那是由于它本身很学术化。大多数人工智能工作仍囿于学术圈,不过也有实际的应用。在我看来,在人工智能的许多分支领域都是这样,包括神经网络、模糊系统(还记得这种系统吗?)、进化计算,甚至有点不太像人工智能的技术,比如非线性编程或凸优化(convex optimization)。


在我发表的第一篇论文(1997年)中,我自豪地展示了刚发明的算法相比最先进的神经网络、遗传编程及更多技术如何拥有最佳结果,只可惜使用很小的固定数据集。


迈向现代人工智能和数据


但是世界发生了转变。2001年,微软的两位研究人员米歇尔·班科(Michele Banko)和埃里克·布里尔(Eric Brill)发表了一篇结果很抢眼的论文。首先,他们描述了所研究的自然语言处理领域的大多数工作训练的单词数量不到100万个――这是很小的数据集。对于像朴素贝叶斯(Naive Bayes)和感知器(Perceptron)这些老式/无趣的/最不花哨的算法而言,错误率高达25%,而高级的、比较新的、基于记忆的算法其错误率为19%。那是下图最左边上的四个数据点。

迄今为止,没什么惊喜。但是后来,班科和布里尔展示了令人瞩目的成果:随着你添加更多的数据――添加的数据不是只是多一点,而是多出几个数量级,并且保持算法一样,那么错误率不断下降,而且是大幅下降。等到数据集多出三个数量级,错误率不到5%。而在许多领域,18%与5%可谓天差地别,因为只有后者对实际应用而言才是足够好。


此外,表现最好的性能也是最简单的;最糟糕的算法也是最花哨的。上世纪50年代无趣老式的感知器击败了最先进的技术。


现代人工智能和数据


从事这方面研究的不止班科和布里尔他俩。比如在2007年,谷歌的几位研究人员阿朗·哈勒维(Alon Halevy)和、费尔南多·诺维格(Fernando Norvig)和谷歌研究部门主管彼得·佩雷拉(Peter Pereira)联合发表了一篇论文,表明在人工智能的许多领域,数据有可能“异常有效”。


这好比往人工智能领域投放了一颗原子弹。


“关键在于数据,就是这么简单。”


大家在竞相收集多得多的数据。收集海量的好数据要花相当大的精力。如果你拥有资源,就能获得数据。有时,你甚至会牢牢保管数据。在这个新世界下,数据就是护城河,而人工智能算法就是大宗商品。由于这些原因,获得“更多的数据”是谷歌、Facebook及其他许多公司的一项关键要务。


“更多的数据,就是更多的钱。”――人人如此


一旦你明白了这些情况,一些公司的具体动作就不难解释。谷歌收购卫星图像公司并不仅仅是由于它喜欢太空;谷歌还免费派送TensorFlow。


深度学习正好符合这种背景:它是由于为了搞清楚:如果拥有足够庞大的数据集,如何开始捕获交互和潜在变量。值得关注的是,如果拥有同样的庞大数据集,来自80年代的反向传播神经网络有时与最新技术有得一拼。请参阅此处(https://medium.com/r/?url=https%3A%2F%2Farxiv.org%2Fabs%2F1003.0358)。关键在于数据,就是这么简单。


我自己作为人工智能研究人员逐渐成长起来的经历很相似。我在着手处理实际问题时,学会如何尽量谦逊,摈弃“很酷的”算法,只构建解决手头问题所需的算法,并学会了爱上数据和规模。我在开第一家公司:ADA(1998年–2004年)时就是这么做的,当时我们由自动化创新设计转为“无趣”的参数优化;捎带说一下,由于我们的用户要求我们将变量从10个增加到100个,这很快变得好玩起来。我在开第二家公司Solido(2004年至今)时也是这么做的,我们从比较花哨的建模方法转为像FFX这些超级简单但极具扩展性的机器学习算法;我们的用户要求我们从100个变量增加至100000个,蒙特卡洛样本从1亿个增加到10万亿个(有效样本)后,这再次变得饶有趣味。连我第三家也是目前这家公司的产品BigchainDB也是因需要规模而问世的(2013年至今)。要关注功能,要关注规模。


机会1:数据共享→ 更好的模型


简而言之:去中心化/共享式控制鼓励数据共享,这反过来带来了更好的模型,进而带来了更高的利润/更低的成本等好处。不妨详述一下。

返回顶部】【关闭窗口
【读完这篇文章后,可否发表您的感受?】
0
0
0
0
0
0
0
0
本文网址:
安全联盟站长平台 360网站安全平台