人工智能与设计（1）：人工智能的发展和定义

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

开通会员

发布

人工智能与设计（1）：人工智能的发展和定义

薛志荣

2017-11-10

9 评论 26545 浏览 185 收藏

本文是主题为“人工智能与设计”系列文章的第一篇，主要讲述现在人工智能的基础知识，enjoy~

今年年初出于个人兴趣，我开始了对人工智能的研究。为了更好理解人工智能和设计的关系，我开始学习机器学习、深度学习、Alexa开发等知识，从当初觉得人工智能只会让大部分设计师失业，到现在觉得人工智能只是一个设计的辅助工具，也算是成长了不少。

这次希望能将积累的知识写成一本电子书，没别的，因为字太多，更重要的是这样很酷。由写作时间可能太长，互联网每天都在变化，一些比较前沿的思考可能转眼成为现实，所以先把前四章陆续发出来。

前四章主要讲了现在人工智能的基础知识、底层设计、互联网产品设计以及人工智能与设计的关系，后面会通过3~4章详细分析人工智能对不同行业设计的影响，目前考虑的领域是室内设计、公共设计和服务设计。

人工智能的发展历史

说起人工智能这词，不得不提及人工智能的历史。人工智能的概念主要由Alan Turing提出：机器会思考吗？如果一台机器能够与人类对话而不被辨别出其机器的身份，那么这台机器具有智能的特征。同年，Alan Turing还预言了存有一定的可能性可以创造出具有真正智能的机器。

说明：Alan Turing（1912.6.23-1954.6.7）曾协助英国军队破解了德国的著名密码系统Enigma，帮助盟军取得了二战的胜利。因提出一种用于判定机器是否具有智能的试验方法，即图灵试验，被后人称为计算机之父和人工智能之父。

AI诞生

1956年，在达特茅斯学院举行的一次会议上，不同领域（数学，心理学，工程学，经济学和政治学）的科学家正式确立了人工智能为研究学科。

2006年达特茅斯会议当事人重聚，左起：Trenchard More、John McCarthy、Marvin Minsky、Oliver Selfridge、Ray Solomonoff

第一次发展高潮（1955年—1974年）

达特茅斯会议之后是大发现的时代。对很多人来讲，这一阶段开发出来的程序堪称神奇：计算机可以解决代数应用题、证明几何定理、学习和使用英语。在众多研究当中，搜索式推理、自然语言、微世界在当时最具影响力。

大量成功的AI程序和新的研究方向不断涌现，研究学者认为具有完全智能的机器将在二十年内出现并给出了如下预言：

1958年，H. A. Simon，Allen Newell：“十年之内，数字计算机将成为国际象棋世界冠军。” “十年之内，数字计算机将发现并证明一个重要的数学定理。”

1965年，H. A. Simon：“二十年内，机器将能完成人能做到的一切工作。”

1967年，Marvin Minsky：“一代之内……创造“人工智能”的问题将获得实质上的解决。”

1970年，Marvin Minsky：“在三到八年的时间里我们将得到一台具有人类平均智能的机器。”

美国政府向这一新兴领域投入了大笔资金，每年将数百万美元投入到麻省理工学院、卡耐基梅隆大学、爱丁堡大学和斯坦福大学四个研究机构，并允许研究学者去做任何感兴趣的方向。

当时主要成就：

人工神经网络在30-50年代被提出，1951年Marvin Minsky制造出第一台神经网络机
贝尔曼公式（增强学习雏形）被提出
感知器（深度学习雏形）被提出
搜索式推理被提出
自然语言被提出
首次提出人工智能拥有模仿智能的特征，懂得使用语言，懂得形成抽象概念并解决人类现存问题
Arthur Samuel在五十年代中期和六十年代初开发的国际象棋程序，棋力已经可以挑战具有相当水平的业余爱好者
机器人SHAKEY项目受到了大力宣传，它能够对自己的行为进行“推理”；人们将其视作世界上第一台通用机器人
微世界的提出

第一次寒冬（1974年—1980年）

70年代初，AI遭遇到瓶颈。研究学者逐渐发现，虽然机器拥有了简单的逻辑推理能力，但遭遇到当时无法克服的基础性障碍，AI停留在“玩具”阶段止步不前，远远达不到曾经预言的完全智能。由于此前的过于乐观使人们期待过高，当AI研究人员的承诺无法兑现时，公众开始激烈批评AI研究人员，许多机构不断减少对人工智能研究的资助，直至停止拨款。

当时主要问题：

计算机运算能力遭遇瓶颈，无法解决指数型爆炸的复杂计算问题
常识和推理需要大量对世界的认识信息，计算机达不到“看懂”和“听懂”的地步
无法解决莫拉维克悖论
无法解决部分涉及自动规划的逻辑问题
神经网络研究学者遭遇冷落

说明：莫拉维克悖论：如果机器像数学天才一样下象棋，那么它能模仿婴儿学习又有多难呢？然而，事实证明这是相当难的。

第二次发展高潮（1980年—1987年）

80年代初，一类名为“专家系统”的AI程序开始为全世界的公司所采纳，人工智能研究迎来了新一轮高潮。在这期间，卡耐基梅隆大学为DEC公司设计的XCON专家系统能够每年为DEC公司节省数千万美金。日本经济产业省拨款八亿五千万美元支持第五代计算机项目。其目标是造出能够与人对话、翻译语言、解释图像、能够像人一样推理的机器。其他国家也纷纷作出了响应，并对AI和信息技术的大规模项目提供了巨额资助。

说明：专家系统是一种程序，能够依据一组从专门知识中推演出的逻辑规则在某一特定领域回答或解决问题。由于专家系统仅限于一个很小的领域，从而避免了常识问题。“知识处理”随之也成为了主流 AI 研究的焦点。

当时主要成就：

专家系统的诞生
AI研究人员发现智能可能需要建立在对分门别类的大量知识的多种处理方法之上
BP算法实现了神经网络训练的突破，神经网络研究学者重新受到关注
AI研究人员首次提出：机器为了获得真正的智能，机器必须具有躯体，它需要有感知、移动、生存，与这个世界交互的能力。感知运动技能对于常识推理等高层次技能是至关重要的，基于对事物的推理能力比抽象能力更为重要，这也促进了未来自然语言、机器视觉的发展。

第二次寒冬（1987年—1993年）

1987年，AI硬件的市场需求突然下跌。科学家发现，专家系统虽然很有用，但它的应用领域过于狭窄，而且更新迭代和维护成本非常高。同期美国Apple和IBM生产的台式机性能不断提升，个人电脑的理念不断蔓延；日本人设定的“第五代工程”最终也没能实现。人工智能研究再次遭遇了财政困难，一夜之间这个价值五亿美元的产业土崩瓦解。

当时主要问题：

受到台式机和“个人电脑”理念的冲击影响
商业机构对AI的追捧和冷落，使AI化为泡沫并破裂
计算机性能瓶颈仍无法突破
仍然缺乏海量数据训练机器

第三次发展高潮（1993年至今）

在摩尔定律下，计算机性能不断突破。云计算、大数据、机器学习、自然语言和机器视觉等领域发展迅速，人工智能迎来第三次高潮。

摩尔定律起始于Gordon Moore在1965年的一个预言，当时他看到因特尔公司做的几款芯片，觉得18到24个月可以把晶体管体积缩小一半，个数可以翻一番，运算处理能力能翻一倍。没想到这么一个简单的预言成真了，下面几十年一直按这个节奏往前走，成为了摩尔定律。

主要事件：

1997年：IBM的国际象棋机器人深蓝战胜国际象棋世界冠军卡斯帕罗夫
2005年：Stanford开发的一台机器人在一条沙漠小径上成功地自动行驶了131英里，赢得了DARPA挑战大赛头奖；
2006年：Geoffrey Hinton提出多层神经网络的深度学习算法；Eric Schmidt在搜索引擎大会提出“云计算”概念
2010年：Sebastian Thrun领导的谷歌无人驾驶汽车曝光，创下了超过16万千米无事故的纪录
2011年：IBM Waston参加智力游戏《危险边缘》，击败最高奖金得主Brad Rutter和连胜纪录保持者Ken Jennings；苹果发布语音个人助手Siri；Nest Lab发布第一代智能恒温器Nest。它可以了解用户的习惯，并相应自动地调节温度
2012年：Google发布个人助理Google Now
2013年：深度学习算法在语音和视觉识别率获得突破性进展
2014年：微软亚洲研究院发布人工智能小冰聊天机器人和语音助手Cortana；百度发布Deep Speech语音识别系统
2015年：Facebook发布了一款基于文本的人工智能助理“M”
2016年：Google AlphaGo以比分4:1战胜围棋九段棋手李世石；Chatbots这个概念开始流行；Google发布为机器学习定制的第一代专用芯片TPU；Google发布语音助手Assistant
2017年：AlphaGO在围棋网络对战平台以60连胜击败世界各地高手；Google 开源深度学习系统Tensorflow 1.0正式发布；Google AlphaGo以比分3:0完胜世界第一围棋九段棋手柯洁；默默深耕机器学习和机器视觉的苹果在WWDC上发布Core ML，ARKit等组件；Google发布了ARCore SDK；百度AI开发者大会正式发布Dueros语音系统，无人驾驶平台Apollo1.0自动驾驶平台；华为发布全球第一款AI移动芯片麒麟970；iPhone X配备前置 3D 感应摄像头(TrueDepth)，脸部识别点达到3W个，具备人脸识别、解锁和支付等功能；配备的A11 Bionic神经引擎使用双核设计，每秒可达到运算6000亿次

很多专家学者对此次人工智能浪潮给予了肯定，认为这次人工智能浪潮能引起第四次工业革命。人工智能逐渐开始在保险，金融等领域开始渗透，在未来健康医疗、交通出行、销售消费、金融服务、媒介娱乐、生产制造，到能源、石油、农业、政府……所有垂直产业都将因人工智能技术的发展而受益，那么我们现在讲的人工智能究竟是什么？

人工智能是什么？

在60年代，AI研究人员认为人工智能是一台通用机器人，它拥有模仿智能的特征，懂得使用语言，懂得形成抽象概念，能够对自己的行为进行推理，它可以解决人类现存问题。由于理念、技术和数据的限制，人工智能在模式识别、信息表示、问题解决和自然语言处理等不同领域发展缓慢。

80年代，AI研究人员转移方向，认为人工智能对事物的推理能力比抽象能力更重要，机器为了获得真正的智能，机器必须具有躯体，它需要感知、移动、生存，与这个世界交互。为了积累更多推理能力，AI研究人员开发出专家系统，它能够依据一组从专门知识中推演出的逻辑规则在某一特定领域回答或解决问题。

1997年，IBM的超级计算机深蓝在国际象棋领域完胜整个人类代表卡斯帕罗夫；相隔20年，Google的AlphaGo在围棋领域完胜整个人类代表柯洁。划时代的事件使大部分AI研究人员确信人工智能的时代已经降临。

可能大家觉得国际象棋和围棋好像没什么区别，其实两者的难度不在同一个级别。国际象棋走法的可能性虽多，但棋盘的大小和每颗棋子的规则大大限制了赢的可能性。深蓝可以通过蛮力看到所有的可能性，而且只需要一台计算机基本上就可以搞定。相比国际象棋，围棋很不一样。围棋布局走法的可能性可能要比宇宙中的原子数量还多，几十台计算机的计算能力都搞不定，所以机器下围棋想赢非常困难，包括围棋专家和人工智能领域的专家们也纷纷断言：计算机要在围棋领域战胜人类棋手，还要再等100年。结果机器真的做到了，并据说AlphaGo拥有围棋十几段的实力（目前围棋棋手最高是9段）。

那么深蓝和AlphaGo在本质上有什么区别？简单点说，深蓝的代码是研究人员编程的，知识和经验也是研究人员传授的，所以可以认为与卡斯帕罗夫对战的深蓝的背后还是人类，只不过它的运算能力比人类更强，更少失误。而AlphaGo的代码是自我更新的，知识和经验是自我训练出来的。与深蓝不一样的是，AlphaGo拥有两颗大脑，一颗负责预测落子的最佳概率，一颗做整体的局面判断，通过两颗大脑的协同工作，它能够判断出未来几十步的胜率大小。所以与柯洁对战的AlphaGo的背后是通过十几万盘的海量训练后，拥有自主学习能力的人工智能系统。

这时候社会上出现了不同的声音：“人工智能会思考并解决所有问题”、“人工智能会抢走人类的大部分工作！”“人工智能会取代人类吗？”那么已来临的人工智能究竟是什么？

人工智能目前有两个定义，分别为强人工智能和弱人工智能。

普通群众所遐想的人工智能属于强人工智能，它属于通用型机器人，也就是60年代AI研究人员提出的理念。它能够和人类一样对世界进行感知和交互，通过自我学习的方式对所有领域进行记忆、推理和解决问题。这样的强人工智能需要具备以下能力：

存在不确定因素时进行推理，使用策略，解决问题，制定决策的能力
知识表示的能力，包括常识性知识的表示能力
规划能力
学习能力
使用自然语言进行交流沟通的能力
将上述能力整合起来实现既定目标的能力

说明：以上结论借鉴李开复所著的《人工智能》一书。

这些能力在常人看来都很简单，因为自己都具备着；但由于技术的限制，计算机很难具备以上能力，这也是为什么现阶段人工智能很难达到常人思考的水平。

由于技术未成熟，现阶段的人工智能属于弱人工智能，还达不到大众所遐想的强人工智能。弱人工智能也称限制领域人工智能或应用型人工智能，指的是专注于且只能解决特定领域问题的人工智能，例如AlphaGo，它自身的数学模型只能解决围棋领域的问题，可以说它是一个非常狭小领域问题的专家系统，以及它很难扩展到稍微宽广一些的知识领域，例如如何通过一盘棋表达出自己的性格和灵魂。

弱人工智能和强人工智能在能力上存在着巨大鸿沟，弱人工智能想要进一步发展，必须具备以下能力：

跨领域推理
拥有抽象能力
“知其然，也知其所以然”
拥有常识
拥有审美能力
拥有自我意识和情感

说明：以上结论借鉴李开复所著的《人工智能》一书。

在计算机理念来说，人工智能是用来处理不确定性以及管理决策中的不确定性。意思是通过一些不确定的数据输入来进行一些具有不确定性的决策。从目前的技术实现来说，人工智能就是深度学习，它是06年由Geoffrey Hinton所提出的机器学习算法，该算法可以使程序拥有自我学习和演变的能力。

机器学习和深度学习是什么？

机器学习简单点说就是通过一个数学模型将大量数据中有用的数据和关系挖掘出来。机器学习建模采用了以下四种方法：

监督学习与数学中的函数有关。它需要研究学者不断地标注数据从而提高模型的准确性，挖掘出数据间的关系并给出结果。
非监督学习与现实中的描述（例如哪些动物有四条腿）有关。它可以在没有额外信息的情况下，从原始数据中提取模式和结构的任务，它与需要标签的监督学习相互对立。
半监督学习，它可以理解为监督学习和半监督学习的结合。
增强学习，它的大概意思是通过联想并对比未来几步所带来的好处而决定下一步是什么。

目前机器学习以监督学习为主。

深度学习属于机器学习下面的一条分支。它能够通过多层神经网络以及使用以上四种方法，不断对自身模型进行自我优化，从而发现出更多优质的数据以及联系。

目前的AlphaGo正是采用了深度学习算法击败了人类世界冠军，更重要的是，深度学习促进了人工智能其他领域如自然语言和机器视觉的发展。目前的人工智能的发展依赖深度学习，这句话没有任何问题。

人工智能基础能力

在了解人工智能基础能力前，我们先聊聊更底层的东西——数据。计算机数据分为两种，结构化数据和非结构化数据。结构化数据是指具有预定义的数据模型的数据，它的本质是将所有数据标签化、结构化，后续只要确定标签，数据就能读取出来，这种方式容易被计算机理解。非结构化数据是指数据结构不规则或者不完整，没有预定义的数据模型的数据。非结构化数据格式多样化，包括了图片、音频、视频、文本、网页等等，它比结构化信息更难标准化和理解。

音频、图片、文本、视频这四种载体可以承载着来自世界万物的信息，人类在理解这些内容时毫不费劲；对于只懂结构化数据的计算机来说，理解这些非结构化内容比登天还难，这也就是为什么人与计算机交流时非常费劲。

全世界有80%的数据都是非结构化数据，人工智能想要达到看懂、听懂的状态，必须要把非结构化数据这块硬骨头啃下来。学者在深度学习的帮助下在这领域取得了突破性成就，这成就为人工智能其他各种能力奠定了基础。

如果将人工智能比作一个人，那么人工智能应该具有记忆思考能力，输入能力如视觉、听觉、嗅觉、味觉以及触觉，以及输出能力如语言交流、躯体活动。以上能力对相应的术语为：深度学习、知识图谱、迁移学习、自然语言处理、机器视觉、语音识别、语音合成（触觉、嗅觉、味觉在技术研究上暂无商业成果，躯体活动更多属于机器人领域，不在文章中过多介绍）

简单点说，知识图谱就是一张地图。它从不同来源收集信息并加以整理，每个信息都是一个节点，当信息之间有关系时，相关节点会建立起联系，众多信息节点逐渐形成了图。知识图谱有助于信息存储，更重要的是提高了搜索信息的速度和质量。

迁移学习把已学训练好的模型参数迁移到新的模型来帮助新模型训练数据集。由于大部分领域都没有足够的数据量进行模型训练，迁移学习可以将大数据的模型迁移到小数据上，实现个性化迁移，如同人类思考时使用的类比推理。迁移学习有助于人工智能掌握更多知识。

自然语言处理是一门融语言学、计算机科学、数学于一体的学科，它是人工智能的耳朵-语音识别和嘴巴-语音合成的基础。计算机能否理解人类的思想，首先要理解自然语言，其次拥有广泛的知识，以及运用这些知识的能力。自然语言处理的主要范畴非常广，包括了语音合成、语音识别、语句分词、词性标注、语法分析、语句分析、机器翻译、自动摘要等等、问答系统等等。

机器视觉通过摄影机和计算机代替人的眼睛对目标进行识别、跟踪和测量，并进一步对图像进行处理。这是一门研究如何使机器“看懂”的技术，是人工智能最重要的输入方式之一。如何通过摄像头就能做到实时、准确识别外界状况，这是人工智能的瓶颈之一，深度学习在这方面帮了大忙。现在热门的人脸识别、无人驾驶等技术都依赖于机器视觉技术。

语音识别的目的是将人类的语音内容转换为相应的文字。机器能否与人类自然交流的前提是机器能听懂人类讲什么，语音识别也是人工智能的最重要输入方式之一。由于不同地区有着不同方言和口音，这对于语音识别来说都是巨大的挑战。目前百度、科大讯飞等公司的语音识别技术在普通话上的准确率已达到97%，但方言准确率还有待提高。

目前大部分的语音合成技术是利用在数据库内的许多已录好的语音连接起来，但由于缺乏对上下文的理解以及情感的表达，朗读效果很差。现在百度和科大讯飞等公司在语音合成上有新的成果：16年3月百度语音合成了张国荣声音与粉丝互动；17年3月本邦科技利用科大讯飞的语音合成技术，成功帮助小米手机实现了一款内含“黑科技”的营销活动H5。它们的主要技术是通过对张国荣、马东的语音资料进行语音识别，提取该人的声纹和说话特征，再通过自然语言处理对讲述的内容进行情绪识别，合成出来的语音就像本人在和你对话。新的语音合成技术不再被数据库内的录音所限制语言和情感的表达。

经过多年的人工智能研究，人工智能的主要发展方向分为：计算智能、感知智能、认知智能，这一观点也得到业界的广泛认可。

计算智能是以生物进化的观点认识和模拟智能。有学者认为，智能是在生物的遗传、变异、生长以及外部环境的自然选择中产生的。在用进废退、优胜劣汰的过程中，适应度高的（头脑）结构被保存下来，智能水平也随之提高。机器借助大自然规律的启示设计出具有结构演化能力和自适应学习能力的智能。计算智能算法主要包括神经计算、模糊计算和进化计算三大部分，神经网络和遗传算法的出现，使得机器的运算能力大幅度提升，能够更高效、快速处理海量的数据。计算智能是人工智能的基础，AlphaGo是计算智能的代表。

感知智能是以视觉、听觉、触觉等感知能力辅助机器，让机器能听懂我们的语言、看懂世界万物。相比起人类的感知能力，机器可以通过传感器获取更多信息，例如温度传感器、湿度传感器、红外雷达、激光雷达等等。感知智能也是人工智能的基础，机器人、自动驾驶汽车是感知智能的代表。

认知智能是指机器具有主动思考和理解的能力，不用人类事先编程就可以实现自我学习，有目的推理并与人类自然交互。人类有语言，才有概念、推理，所以概念、意识、观念等都是人类认知智能的表现，机器实现以上能力还有漫长的路需要探索。

在认知智能的帮助下，人工智能通过发现世界和历史上海量的有用信息，并洞察信息间的关系，不断优化自己的决策能力，从而拥有专家级别的实力，辅助人类做出决策。认知智能将加强人和人工智能之间的互动，这种互动是以每个人的偏好为基础的。认知智能通过搜集到的数据，例如地理位置、浏览历史、可穿戴设备数据和医疗记录等等，为不同个体创造不同的场景。认知系统也会根据当前场景以及人和机器的关系，采取不同的语气和情感进行交流。

假如能像设想的一样实现认知智能，那么底层平台必须足够宽广和灵活，以便在各领域甚至跨领域得到应用。因此研发人员需要从全局性出发，打造这个健壮的底层平台，它应该包括机器学习、自然语言处理、语音和图像识别、人机交互等技术，便于上层应用开发者的开发和使用。

下一篇文章会从设计底层平台的角度来阐述个人的思考。