《经济学人》深度报道:DeepMind和谷歌的AI拉锯战

《经济学人》深度报道:DeepMind和谷歌的AI拉锯战

栏目标题-业内.png

文章发布于公号【数智物语】 (ID:decision_engine),关注公号不错过每一篇干货。

转自 | 大数据文摘(ID:BigDataDigest)

来源 | Economics

编译 | 橡树_hiangsug、林安安、小七、张秋玥

640?wx_fmt=jpeg

Deepmind或许是当今世界对AGI影响最深远的公司。《经济学人》近日长文撰写了这家明星AI公司及其创始人的故事。通过对二十余名内部人士的采访,研究了这家公司的研究态度——其关于AGI的追求和对强化学习的执念,这对他们的研究意识形态产生了重要影响,也根深蒂固于他们的企业文化。

以下为全文编译,enjoy。

2010年8月的一个下午,在旧金山湾,一个34岁的伦敦人大步流星地走上舞台。他深吸一口气,放松紧绷的神经,露出一个蹩脚的微笑,开口讲道:“今天,我要讲述如何用一个完全不同的方法去构建……” 空气突然安静,好像在等待着一个意欲改变世界的人呐喊出自己重大的野心——“ AGI ” Demis Hassabis说道。

640?wx_fmt=jpeg

AGI指通用型人工智能,是一种拥有与人类相同智力水平或甚至超过人类的理想化计算机程序。AGI能够出色地完成离散型任务,例如识别照片或翻译语言等,这与我们手机和计算机中所见到过的人工智能(AI)本质上是相同的。

但除此之外,它还会做加减运算、下棋、说法语;可以解物理论文、撰写小说、制定投资策略、陌生人进行愉快的交谈;它甚至可以监测核反应、管理电网和交通流量,毫不费力地在各个领域获得一个又一个的成就——AGI将使当今最先进的AI融合成一个袖珍计算器。

目前,人类是唯一拥有完成所有这些任务能力的智慧生物,但人类的智力受限于身体所能提供的能量;而AGI是在计算机上运行的,所以它不会受到这些限制,AGI的能力上限仅由处理器的数量决定。

AGI将从完成监测核反应任务开始,按照其一秒阅读上万篇物理论文的速度吸收知识,不久便可以具备发现新能源的能力,而这一速度是人类经过千年进化也比不上的。当人类智能可以被计算机的速度和可扩展性辅助,目前看似不可解决的问题将被轻松解决。

640?wx_fmt=jpeg

Hassabis曾向英国报纸《Observer》的记者描述,他希望AGI能够掌握“×××、气象、能源、基因组学、宏观经济和金融系统”等学科知识。

Hassabis发言的这场大会被称为奇点峰会。根据未来学家的说法,“奇点”指的是由于AGI出现引发的结果。由于AGI将以高速处理信息,很快它就将变得“聪明绝顶”。自我改善的快速循环将导致机器智能的“爆炸”,使人类窒息于“硅尘”之中。那么这个奇点将带来乌托邦还是地狱?这已经成为了一个宗教信仰一般的问题。

 “如何建立人造思维”、 “ AI解决老龄化问题”、“取代我们的身体”、 “改变生与死的界限”……从会谈的标题来看,这场大会的与会者倾向于将人工智能视为救世主;相比之下,Hassabis的发言似乎没有那么大的噱头——“基于神经科学的研究方法探究AGI架构”。

Hassabis语速飞快,踱步于讲台和屏幕之间。他身着一件栗色套头衫和一件白色系扣衬衫,像极了一个在校的大学生,但他瘦小的身材下却蕴藏了极高的智慧和无限的力量。Hassabis解释道:到目前为止,科学家已从两个大方向上探索AGI。

一条支路可以称为基于规则的人工智能。在这一支路上的研究人员试图描述出一个可以像人类一样思考的系统所需的所有规则,并通过编程加以实现。这种方法在20世纪80年代和90年代很流行,但没有产生预期的结果。Hassabis认为形成人类认知的神经结构太过于精妙,根本无法以这种方式描述。

640?wx_fmt=jpeg

另一条支路的研究人员试图数字化复现大脑的神经网络。这虽然有一定的道理,毕竟脑是人类智慧的所在;但Hassabis认为这些研究人员的这一企图就像想要绘制宇宙中的每一颗恒星,也走在了一个歪路上。更根本的问题是,这一研究方法就像试图通过凿开计算机检查晶体管的相互作用来了解Microsoft Excel的工作原理,他们所关注的大脑加工水平是错误的。

Hassabis提出了一个中间立场:AGI应该从大脑处理信息的宏观方法中获取灵感——而不是物理系统或它在特定情况下的应用规则。换句话说,它应该专注于理解大脑的软件,而不是硬件。

现有如功能性磁共振成像(fMRI)这样的新技术,使得研究人员可以探究人类在特定活动下的大脑活动,说明这一方向具有一定的可行性。他告诉观众,最新的研究表明,大脑会在睡眠期间通过重播经验学习一般原则,研究人员应该尝试模仿这种系统构造AI。

在演讲幻灯片的右下角出现了一个圆形的蓝色漩涡,紧贴的两个单词DeepMind赫然出现在Logo之下——这是该公司第一次正式出现在公开场合。

640?wx_fmt=png

这次发言远远没有看起来那么简单,Hassabis为了这个邀请,努力了一年之久。他真正的目的是与硅谷亿万富翁彼得·泰尔(Peter Thiel)的一分钟会面,而Thiel正是这场会议的赞助方——Hassabis想要Thiel的投资。

Thiel似乎比Hassabis本人对AGI更有热情。在2009年奇点峰会的一次演讲中,Thiel曾表示,他对未来最大的恐惧不是机器人起义(他在新西兰内陆地区拥有一个末日避难所,他其实比大多数人做好了充足的准备)。相反,他担心奇点来得太晚,世界更需要新技术来抵御经济衰退。

DeepMind最终总募资200万英镑,其中Thiel投资了140万英镑。当Google以6亿美元的价格在2014年1月收购该公司时,Thiel和其他早期投资者的投资收益率高达5,000%。

对于许多创始人来说,这是一个圆满的结局。他们可能会放慢发展速度,甚至退后一步,花更多的时间和钱打交道。但对于Hassabis来说,谷歌的收购只是他建造AGI帝国的另一步进展。2013年,他花了很多时间谈判交易的条款,使DeepMind独立于Google运营,DeepMind在不失去控股权的前提下获得了Google提供的现金流和计算能力。

Hassabis认为DeepMind将是一个混合体:它作为创业公司拥有强大的自我驱动力,又汇集了来自各大顶尖大学的聪明头脑,同时拥有世界上最有价值公司之一的雄厚资金支持——这些因素都将加速AGI的到来,解决人类所面临的难题。

有着中国血统的天才围棋少年

Demis Hassabis于1976年出生于伦敦北部,是三个兄弟姐妹中最大的一个。父亲是生活在塞浦路斯的希腊人,经营着一家玩具店;母亲是生活在新加坡的华人,在英国百货公司约翰·刘易斯工作。

640?wx_fmt=jpeg

他从小便体现出惊人的才能——在他四岁时,旁观了一场父亲和叔叔的国际象棋比赛,从此迷上了国际象棋,没过几周他竟然在棋局上击败了许多成年人,等到他13岁时,他已在世界同龄棋手中位居第二。而且在他八岁时,他已经可以在一台计算机上实现自己的代码,仅通过自学掌握了编程技术。

1992年,Hassabis比原计划提前两年完成了他的A-levels课程。他找到一份在Bullfrog Productions的电子游戏编程工作。Hassabis编写了一个名为主题公园(Theme Park)的游戏,在这个游戏里,玩家可以设计并运营了一个虚拟游乐园,这个游戏的销量高达1500万份。之后这家公司优化并开发了更大规模的虚拟城市游戏,Hassabis编写的主题公园(Theme Park)成为这个大规模游戏的一部分。

除了编写游戏外,他还很擅长玩游戏,比如国际象棋、拼字游戏、扑克和西洋双陆棋。1995年,在剑桥大学学习计算机科学时,Hassabis多次在学生围棋锦标赛击败对手。围棋比国际象棋要复杂得多,玩家只有通过长期训练才能获得足够多的经验进而熟练制定游戏战略。没有人知道Hassabis以前是否玩过围棋。

Hassabis很快称霸了初学者的比赛,然后又击败了经验丰富的围棋专业玩家,那位专业玩家对于自己败给一名19岁的新手颇为震惊。剑桥围棋大师Charles Matthews看了Hassabis的比赛后,决定开始培养他。

Hassabis一次又一次在围棋比赛上展现他的天赋,渐渐地,他开始好奇计算机是否可以像人类一样通过不断积累的经验来学习。游戏提供了一个现实世界无法比拟的学习环境。游戏虽然是从现实世界中发展而来,但它们可以在没有外界干扰的情况高效进行。与现实世界相比,在游戏里,时间可以过得比现实生活中快很多:几天内,玩家就能组建一个团体,并在几分钟内就能进行战斗。

640?wx_fmt=jpeg

1997年的夏天,Hassabis去日本旅游。那年5月,IBM的Deep Blue计算机击败了世界象棋冠军Garry Kasparov。这是计算机第一次在国际象棋比赛中击败了一位大师。这场比赛引起了全世界的关注,同时还引发了人们对计算机不断发展和潜在威胁的担忧。

Hassabis遇到日本棋盘游戏大师Masahiko Fujuwarea,他谈到了一个将战略游戏和人工智能结合起来的想法:有一天他会建立一个计算机程序,这个程序会击败全世界最厉害的人类围棋玩家。20岁的Hassabis认为,他目前的能力还不足以支持他实现自己的梦想,但他心中已经有了一个蓝图。

1998年,他创办了一个名为Elixir的游戏工作室。Hassabis专注于开发一个名为共和国革命(Republic: The Revolution)的政治模拟游戏。当Hassabis还在上学时,他告诉他的朋友Mustafa Suleyman,这个世界需要一个能模拟复杂的社会动态并解决棘手社会问题的模型。现在,他尝试在游戏中这样做。

事实证明,这很难。Elixir最终发布了这款游戏的精简版,但这款游戏没有火起来。其他类似的游戏也相继失败(比如一个名为Evil Genius的邦德恶棍模拟器)。2005年4月,Hassabis关闭了Elixir。Matthews认为,Hassabis创立公司只是为了获得管理经验。现在,在Hassabis开始寻求AGI之前,他还不够了解一个至关重要的领域——人类的大脑。

2005年,Hassabis在伦敦大学学院(UCL)获得神经科学博士学位。他在博士期间进行了记忆和想象力方面的研究。一篇被引用超过1000次的论文表明,健忘症患者很难进行想象,这表明记忆和创造心理图像之间存在联系。为了解决AGI,Hassabis正在尝试理解大脑。他的大部分工作最后都回到了一个问题:人类大脑是如何获得并记住概念和知识?

640?wx_fmt=jpeg

Hassabis于2010年11月15日正式成立了DeepMind。该公司的使命宣言与现在一样—— “解决智能(solve intelligence)”,然后用它来解决其他问题。正如Hassabis告诉Singularity Summit的参会者,这意味着让计算机像人类大脑一样理解并执行任务。

Hassabis并不觉得科学已经完全了解人类的思想。他认为不能简单地从数百项神经科学研究中提出AGI蓝图。他自信地认为以他现在的水平足够支撑他进行AGI的研究。然而,事实并非如此。我们对大脑的实际运作方式仍然知之甚少。2018年,一群澳大利亚研究人员对Hassabis的博士论文研究结果提出质疑。他们认为文章的统计数据很糟糕。虽然质疑是针对一篇论文,但也足够表明DeepMind还有很长的路要走。

Suleyman和Shane Legg是两个痴迷AGI的新西兰人,Hassabis在伦敦大学学院认识了他们,他们后来成为了DeepMind的联合创始人。

Hassabis很有天赋,DeepMind在他的带领下发展地越来越快。DeepMind前运营经理Ben Faulkner说:“Hassabis有点像磁铁,吸引着越来越多的人才。”许多人拒绝了谷歌和Facebook等硅谷巨头的offer,选择进入DeepMind。也许DeepMind最大的成功就是聘请并留下最聪明和最优秀的人才。DeepMind在布鲁姆斯伯里的罗素广场(Russell Square)里开设了商店,地址在伦敦大学学院(UCL)的马路对面。

DeepMind所关注的一种机器学习技术——强化学习(reinforcement learning),源于Hassabis对游戏和神经科学的双重热爱。这种程序是为收集相关环境信息而建立的,通过重放积累的经验来进行学习,就像Hassabis在Singularity Summit lecture讲座中给出的人类大脑活动的描述一样。

640?wx_fmt=jpeg

计算机在强化学习领域还是一片空白。该程序展示了一个虚拟环境,和国际象棋或视频游戏的模拟一样,只有规则是已知的。该程序包含至少一个称为神经网络的组件,它由多层计算结构组成,这些计算结构可以筛选信息并识别特定的特征或策略。

每个层都以不同的抽象级别对环境进行检查。起初,这些网络的成功率很低,但重要的是,它们会不断的积累经验。在尝试不同的策略时,它们会变得越来越复杂,如果它们成功,就会获得奖励,而且一旦犯过一次错误就不会再犯。人工智能的最牛逼的地方在于重复做任务的速度。

2016年,DeepMind吸引了全世界的目光,它建立了一个结合强化学习和其他技术的AI程序来玩围棋。

这就是广为人知的AlphaGo。2016年,AlphaGo在首尔的五场比赛中击败了世界冠军,全世界都为之震惊。次年,改进版的AlphaGo击败了中国围棋冠军。

640?wx_fmt=jpeg

像1997年的Deep Blue一样,AlphaGo改变了人类对自我成就的看法,人类世界的冠军,已经不再是地球上最智慧的存在了。Hassabis在将他的野心告知了Fujuwarea近20年后,实现了这一目标。Hassabis说,这场比赛让他几乎要喜极而泣。传统来说,AlphaGo的学生回报它的方式就是在一场比赛中击败它,而Hassabis就是通过赢得整场比赛来感谢Matthews的。

DeepBlue是通过蛮力和高速运算的优势赢得的胜利,但AlphaGo却风格迥异,它看起来就很有艺术性,很具人性化。它的优雅和精致,及其超强的计算力,都表明在疾病治疗和城市管理的项目设计方面,DeepMind要比其竞争对手更进一步。

结缘谷歌,走向世界

640?wx_fmt=jpeg

Hassabis坚信DeepMind将会改善世界。但AGI具有很大的不确定性,即使有一天它实现了,我们也不知道它是好是坏,又或者它是否会服从人类的控制?即使它能被控制,那又应该由谁来控制它?

从一开始,Hassabis就一直试图保护DeepMind的独立性,他坚持认为DeepMind应该留在伦敦。2014年,当谷歌要收购该公司时,控制权问题变得更加紧迫。Hassabis其实不需要向Google出售DeepMind,他手头上有大量现金,而且他还想出了一个商业模式,可以让公司设计游戏来资助研究。

但是,就像许多创始人一样,他没能抵挡谷歌的巨额的资金吸引。Hassabis并不愿交出他所精心创立的公司,因此作为交易的一部分,DeepMind制定了一项计划,来阻止谷歌单方面控制公司的知识产权。据知情人士透露,在收购前一年,双方签署了一份名为“道德与安全审查协议”的合同。

审核协议规定,作为DeepMind的核心技术AGI,无论其合何时能够研究成功,都将被一个称为道德委员会的理事会掌控。根据同一消息来源,道德委员会不仅仅是谷歌表面的让步,它还为DeepMind提供了坚实的法律支持,以控制其最有价值和最危险的技术。

小组成员的名字尚未公开,但另一个与DeepMind和Google关系密切的消息人士表示,DeepMind的三位创始人都是委员会成员。(DeepMind拒绝回答有关审核协议的一系列详细问题,但表示“道德监督和治理从一开始就是我们的首要任务。”)

Hassabis能决定DeepMind命运的还有其他方式,那便是忠诚。无论是过去的老员工还是现在的新员工,都认为Hassabis的研究课题是DeepMind最大的优势之一。他的课程吸引了世界上数百名最有才华的专家,使其放弃自己的学术研究并心甘情愿地加入他的团队工作。DeepMind在巴黎、阿尔伯塔和阿姆斯特丹均设有分公司。

许多员工认为与Hassabis和DeepMind的关系比与谷歌的关系更为亲密,毕竟谷歌收购DeepMind就是为了获益。他们都认为只要自己保持个人忠诚度,Hassabis相比其唯一的股东就拥有较大的权力。对于谷歌来说,通过代理服务的DeepMind吸纳AI人才比从Facebook或Apple挖人更好。

640?wx_fmt=jpeg

DeepMind有另一个杠杆来源,就是其公众影响力,但这是需要不断的增加曝光的。该公司最擅长的就是这一点,其中AlphaGo就是一场公关演出。自被谷歌收购以来,该公司一再引起全球关注。

其中一款火爆的应用产品,可以在眼睛扫描中发现作为黄斑变性指标的图案。另一个软件则学会了使用与AlphaGo相似的架构从头开始下棋,并成为了有史以来最伟大的国际象棋选手,仅用了9个小时它就可以对抗自己。2018年12月,一项名为AlphaFold的计划比其他竞争对手更准确地预测了复合材料清单中蛋白质的三维结构,这很大程度上为治疗帕金森氏症和阿尔茨海默氏症等疾病提供了契机。

DeepMind对其开发的算法感到特别自豪,该算法可以计算出最有效的方法来给谷歌的数据中心制冷,其数据中心包含大约250万台计算机服务器。DeepMind在2016年表示,他们将谷歌的能源费用减少了40%,但一些内部人士表示,这种吹嘘行为过于夸张。

早在DeepMind存在之前,谷歌就一直在使用算法来优化其数据中心。一位谷歌的员工表示“他们只想拥有一些所谓的在Alphabet中有价值增值的Prso”。谷歌的母公司Alphabet为这些服务支付了DeepMind费用。2017年,DeepMind向Alphabet公司收取了5400万英镑。与DeepMind的管理费用相比,这个数字相形见绌。而那一年,它仅在员工身上花费了2亿英镑。总的来说,DeepMind在2017年损失了2.82亿英镑。

640?wx_fmt=jpeg

这对现金充裕的巨人来说虽然微不足道,但其他出现赤字的子公司却引起了Alphabet的首席财务官Ruth Porat的注意。作为互联网服务提供商的谷歌光纤(Google Fibre)就陷入了财务困境,因为其明确表示需要数十年之后才能获得投资回报。私下里人工智能研究人员都知道DeepMind最后是否会成为独立的公司。

DeepMind在人工智能推进方面很谨慎,这是其管理战略的一部分,这也向当权者表明了其声誉价值。在谷歌被指控侵犯用户隐私和传播假新闻的时候,这一点特别有价值。

DeepMind也很幸运能够获得最高级别的认可——Larry Page,他是谷歌两位创始人之一,现在是Alphabet的首席执行官。Page是Hassabis唯一的交集可能就是 Page的父亲Carl在20世纪60年代研究过神经网络。Page表示在他的职业生涯早期,他就是为了建立一家人工智能公司而建立的谷歌。

DeepMind对发刊管理的严格控制并不符合公司普遍存在的学术精神。一些研究人员抱怨说,发表他们的作品很困难:他们必须先进行内部审批,然后才能将工作提交给会议和期刊。

DeepMind认为,它需要谨慎行事,以避免吓跑公众,并破坏AGI的前景。但过于紧张可能会开始恶化学术氛围并削弱员工的忠诚度。在谷歌收购之后的第五年,谁控制DeepMind的问题显得至关重要。

该公司的创始人和早期员工即将获得分红,他们可以通过收购获得的经济补偿离开(Hassabis的股票价值约为1亿英镑)。但一位与该公司关系密切的消息人士表示,Alphabet已将创始人的收益发放推迟了两年。鉴于此,Hassabis不太可能跳槽。

他只对金钱感兴趣,因为钱可以帮助他实现自己的人生。但是有些同事已经离开了,自2019年初以来,已有三名AI工程师离职。全球最著名的安全工程师之一Ben Laurie现已返回其前任雇主谷歌。这个数字虽然很小,但DeepMind提供了如此宝贵且令人振奋的工作机会和丰厚的薪酬情况下,任何人其实都应该不会离职的。

直至目前,谷歌都没有过于干涉DeepMind。但近期的一件事情使人们开始怀疑DeepMind还能保持多久的独立性。

640?wx_fmt=png

遭遇瓶颈

DeepMind一直计划使用AI来改善医疗保健。2016年2月,它成立了一个新部门:DeepMind Health。该部门由该公司的联合创始人之一Mustafa Suleyman领导。Suleyman的母亲曾是一位NHS护士。他希望创建一个名为Streams的程序,当患者的健康状况恶化时,该程序会警告医生。

DeepMind从中获得基于程序效果分成的费用。由于这项工作需要访问有关患者的敏感信息,Suleyman建立了一个由英国医疗保健与科技行业精英组成的独立审查小组(IRP)。DeepMind这样谨慎行事是非常明智的——英国信息专员随后发现其中一家合作医院违反了处理患者数据的法律。尽管如此,截至2017年底,Suleyman已与四家大型NHS医院签署了协议。

640?wx_fmt=jpeg

2018年11月8日,谷歌宣布创建了自己的医疗保健部门Google Health。五天后,又宣布DeepMind Health将被纳入其母公司。

DeepMind似乎没有收到什么预警。根据信息自由要求(Freedom of Information Act)所得到的信息,它仅提前三天向合作医院发布了变更通知。DeepMind拒绝透露有关合并的讨论是何时开始的,但表示从通知到发布正式公告如此短的实践是为了保证信息透明度的。

Suleyman在2016年写道:“在任何阶段,患者数据都不会与谷歌的账户、产品或服务相关联。”他的承诺似乎已被打破。(DeepMind说“在这个阶段,我们的合同都没有转移到谷歌,而且只有得到我们合伙人的同意后他们才能转移合同。Streams成为Google服务并不意味着患者数据……可被用于提供其他Google产品或服务。“)

谷歌的吞并激怒了DeepMind Health的员工。据知情人员表示,一旦吞并完成,更多员工将计划离开公司。IRP的一名成员Mike Bracken已经离开Suleyman了。据多位知情人士透露,Bracken于2017年12月辞职,是因为担心该独立审查小组更多的是为了装饰门面而并非真正为了应对信息隐私方面的漏洞。

640?wx_fmt=jpeg

当Bracken问Suleyman是否会给小组成员赋予非执行董事的问责制和治理权时,Suleyman发出了嘲笑。(DeepMind的一位发言人表示他们“并不记得存在”此事件)。IRP负责人Julian Huppert认为,该小组的管理“比Bracken预期更为激进”,因为成员能够公开发言而不受保密义务的约束。

这一事件显示DeepMind的外围运营容易受到谷歌的影响。DeepMind在一份声明中表示,“我们都同意,将多方力量凝聚一起共同努力能够增加资源。”这就引出了一个问题,即Google是否会将相同的逻辑应用于DeepMind的AGI工作。

大体上看,DeepMind看起来已经取得了很大的进步。它已经搭建了可学习执行超人类任务的软件。Hassabis经常引用Breakout,这是Atari游戏机上的视频游戏。玩家控制一个可以在屏幕底部水平移动小平板,用它将一个球反弹到悬停在屏幕上方的方块,球撞击到方块时会摧毁它们。当所有块都被摧毁时,玩家获胜。

如果平板没有接到球那么玩家就输了。在没有人工指导的情况下,DeepMind的程序不仅学会了玩这个游戏,而且还研究了如何将球反弹进方块背后的空间中,利用多次反弹来打破更多的方块。Hassabis说,这证明了强化学习的力量和DeepMind计算机程序超越自然的能力。

这个演示非常令人惊讶,但Hassabis还是有所保留。如果虚拟平板略微往上移动一点点,程序就会失败。DeepMind程序所学到的技能是如此受限制——它甚至无法对环境的微小变化(比人类走路时对环境产生的微小影响还小)作出反应——至少在没有数千轮强化学习的情况下既是如此。但是现实世界已经内置了这样的应对系统。

对于智能诊断来说,没有两个身体的器官是完全一样的。对于智能机械,没有两个引擎可以以相同的方式进行调整。因此,将在虚拟空间中完善的程序发布到现实世界其实充满了困难。

DeepMind很少谈到的第二个问题是,虚拟环境中的成功取决于奖励功能的存在:允许程序衡量其进展的信号。该程序学习到,发射小球到方块上方的空间使其多次反弹能够使得分上升。DeepMind与AlphaGo的大部分工作在于构建与这种复杂游戏兼容的奖励功能。不幸的是,现实世界并不提供如此简单的奖励。

进展很少能够通过单一分数来衡量。即使在存在此类度量的情况下,政治挑战也会使问题复杂化。将气候问题的奖励信号(大气中每百万的二氧化碳颗粒数)与石油公司的奖励信号(股价)相协调,需要同时满足许多有冲突动机的人。奖励信号往往非常弱。在身临其中时,人类大脑基本无法接收任务成功度的直接反馈。

DeepMind的强化学习之路

640?wx_fmt=jpeg

DeepMind花费了大量的计算机电力后找到了解决这个问题的方法。为学习任何东西,AlphaGo都需要数千年的人类游戏时间。很多AI研究者对此提出质疑:这种解决方案是不可持续的。DeepMind承认存在这种含糊之处。它最近专注于星际争霸2,一款策略计算机游戏。

在游戏早期做出的决定会在后期产生影响,这更接近于那些类似许多现实世界任务的错综复杂的延迟反馈。1月份,DeepMind软件在一场演示中击败了一些世界顶级的人类玩家;虽然许多功能依然受到大量限制,但这仍然令人印象深刻。该程序也开始通过遵循人工任务主管的反馈来学习奖励功能。但是,将人类指令置于流程循环中可能会丧失无人计算机处理所带来的规模与速度红利。

DeepMind和谷歌的现任和前任研究人员(由于严格的保密协议而要求匿名)对于DeepMind通过这些方法达到AGI的可能性表示怀疑。这些人认为,过于关乎在模拟环境中的优秀表现使得奖励信号问题难以解决。然而,这种方法是DeepMind的核心。它有一个内部排行榜,互相竞争团队的程序争夺对虚拟域的掌控。

640?wx_fmt=jpeg

Hassabis一直将生活视为一种游戏。他的职业生涯的很大一部分都致力于制作游戏,而他休闲时间的很大一部分都花在了打游戏上。DeepMind是他选择开发AGI的工具。就像他的软件一样,Hassabis只能从他的经历中学习。

追求AGI可能最终会导致失去方向——即使他们已经发明了一些有用的医疗技术,还超越了世界上最伟大的棋盘游戏玩家。这些确实是重大成就,但并非他渴望达到的。但他仍然可以将AGI引入现实应用——就在谷歌眼前却远超其掌控。如果Demis Hassabis这样做,他将赢得的是最艰难的比赛。

相关报道:

https://www.1843magazine.com/features/deepmind-and-google-the-battle-to-control-artificial-intelligence

《经济学人》深度报道:DeepMind和谷歌的AI拉锯战

《经济学人》深度报道:DeepMind和谷歌的AI拉锯战