解析AI人工智能:浪潮、技术、应用发展
所谓人工智能(Artificial Intelligence;缩写:AI),是指以人工方式来实现人类所具有之智慧的技术。只不过,目前能实现与人类智能同等的技术还不存在,世界上绝大多数的人工智能还是只能解决某个特定问题。本篇文章是在我阅读了几本AI的相关书籍后,所概略统整出的架构,希望让初次接触AI的读者,能透过333口诀,快速理解AI到底是什么。
一、AI的三次浪潮
第一次AI浪潮
第一次AI浪潮起于1950~1960年,止于1980年代。由于出现在网络之前,因此又被称为“古典人工智能”。这时期出现的“符号主义”与“联结主义”,分别是日后“专家系统”与“深度学习”的雏形。只不过,虽然当时的成果已能解开拼图或简单的游戏,却几乎无法解决实用的问题。
第二次AI浪潮
第二次AI热潮伴随着计算机的普及,出现在1980年代。这时期所进行的研究,是以灌输「专家知识」作为规则,来协助解决特定问题的“专家系统”(Expert system)为主。然而,纵使当时有商业应用的实例,应用范畴却很有限,热潮也因此逐渐消退。
第三次AI浪潮
第三次AI浪潮则出现于2010年代,伴随着高性能计算机、因特网、大数据、传感器的普及,以及计算成本的下降,“机器学习”随之兴起。所谓机器学习(Machine leaning),是指让计算机大量学习数据,使它可以像人类一样辨识声音及影像,或是针对问题做出合适的判断。
二、AI的三大技术
快速了解了AI的发展史后,我们来看看当代人工智能的三大代表性模型:遗传算法、专家系统、类神经网络。
1、遗传算法
遗传算法(Genetic algorithm;GA),又称为演化式算法(Evolutionary algorithm),是受达尔文演化论所启发的人工智能。它透过「适者生存」的规则,将“优秀的个体”想象成“好的答案”,透过演化的方式来找出最佳解。
2、专家系统
专家系统(Expert system),则是针对预设的问题,事先准备好大量的对应方式。它应用在很多地方,尤其是疾病诊断。只不过,专家系统只能针对专家预先考虑过的状况来准备对策,它并没有自行学习的能力,因此还是有其局限性。
3、类神经网络
从第三次AI浪潮所兴起的机器学习(Machine learning)有许多种手法,其中最受瞩目的,莫过于深度学习(Deep learning)了。所谓深度学习,是透过模仿人脑的“类神经网络”(Neural network)来学习大量数据的手法。
类神经网络的由来
若你去观察脑的内部,会发现有大量称为“神经元”的神经细胞彼此相连。一个神经元从其他神经元那里接收的电气信号量达某一定值以上,就会兴奋(神经冲动);在某一定值以下,就不会兴奋。
兴奋起来的神经元,会将电器信号传送给下一个相连的神经元。下一个神经元同样会因此兴奋或不兴奋。简单来说,彼此相连的神经元,会形成联合传递行为。我们透过将这种相连的结构来数学模型化,便形成了类神经网络。
类神经网络:深度学习
我们可以发现,经模型化的的类神经网络,是由“输入层”(Input layer)、“隐藏层”(Hidden layer)及“输出层”(Output layer)等三层所构成。另外,学习数据则是由输入数据以及相对应的正确解答来组成。
以影像辨识为例,为了让AI学习类神经网络的模型,首先必须先将影像学习数据分割成像素数据,然后将各像素值输进输入层。
接受了数据的输入层,将像素值乘上“权重”后,便传送给后方隐藏层的神经元。隐藏层的各个神经元会累加前一层所接收到的值,并将其结果再乘上“权重”后,传送给后方的神经元。最后,经由输出层的神经元的输出,便可得到影像辨识的预测结果。
为了让输出层的值跟各个输入数据所对应的正解数据相等,会对各个神经元的输入计算出适当的“权重”值。
这个权重的计算,一般是使用“误差倒传递算法”(Error Back Propagation),使用与正解数据之间的误差,从输出层逆推回去。透过各「权重」的调整,来缩小输出层的值与正解数据的值之间的误差,以建立出完成学习的模型。
由于过去类神经网络之间进行传递的权重值难以优化,因此曾有多数研究者对类神经网络的研究持否定态度。直到2006年,辛顿(Geoffrey Hinton)开发出自动编码器(Autoencoder)的手法,才突破了这项瓶颈。
自动编码器是指,在类神经网络的输入层和输出层使用相同数据,并将隐藏层设置于二者之间,藉此用来调整类神经网络之间的权重参数的一种手法。利用以自动编码器所获得的类神经网络权重参数值进行初始化后,便能应用「误差倒传递算法」,提高多层类神经网络的学习准确度。
透过类神经网络,深度学习便成为了“只要将数据输入类神经网络,它就能自行抽出特征”的人工智能,而这又称为“特征学习”(feature learning)。
深度学习最擅长的,是它能辨识图像数据或波形数据这类无法符号化的数据。自2010年代以来,如Google、Microsoft及Facebook等美国知名IT企业,都开始着手深度学习的研究。例如,苹果「Siri」的语音识别,Microsoft搜索引擎「Bing」所具备的影像搜寻等等,而Google的深度学习项目也已超过1,500项。
至于深度学习如此飞跃的成长,要归功于硬设备的提升。图形处理器(GPU)大厂辉达(NVIDIA)利用该公司的图形适配器来提升深度学习的性能,提供链接库(Library)和框架(framework)产品,并积极开设研讨课程。另外,Google也公开了框架「TensorFlow」,可以将深度学习应用于数据分析。
三、AI的三大应用
AI应用领域主要可分为语音识别、影像辨识以及自然语言处理等三部分。
1、语音识别
语音识别部分,透过多年来语音识别竞赛CHiME的研究,已经有了等同人类的辨识度(CHiME,是针对实际生活环境下的语音识别,所进行评测的国际语音识别竞赛)。此外,Apple、Google、Amazon也相继提出可应用于日常生活的服务,因此其成熟度已达到实用等级。
2、影像辨识
影像辨识部分,虽然一般图片的辨识已有同等于人类的辨识率,但动态影像的辨识准确度却仍比不上人类,目前还在进行各种算法的测试。其中,影像辨识目前最火热的应用场域非自动驾驶莫属了。
整个汽车、信息通讯产业都正朝着自驾车的方向努力,例如Google持续进行自动驾驶的研究,TOYOTA也在美国设立丰田研究所,可以知道现阶段的开发已十分接近实用化。因此,我们可判断目前影像辨识的成熟度是介在研究和实用等级之间。
3、自然语言处理
自然语言处理(Natural language processing;NLP),是试着让人工智能能理解人类所写的文字和所说的话语。NLP首先会分解词性,称之“语素分析”(morphemic analysis),在分解出最小的字义单位后,接着会进行“语法分析”(syntactic analysis),最后再透过“语意分析”(semantic analysis)来了解含意。
输出部分,自然语言处理也与生成文法(generative grammar)密切相关。生成文法理论认为,只要遵循规则即可生成文句。这也代表着,只要把规则组合在一起,便可能生成文章。
在自然语言处理中,最具代表性的应用就是“聊天机器人”(Chatbot)了,它是一种如真人般,可透过文字讯息与人对话的程序。2016年,脸书推出了“Facebook Messenger Platform”,而Line也推出了“Messaging API”,因而促使这种搭载NLP技术的聊天机器人成为瞩目的焦点。
另外,由IBM所开发的华生(IBM Watson),也是应用NLP的人工智能而成。华生可以从维基百科等语料库中抽取知识,学习词汇与词汇之间的相关性。现在,就连软件银行(SoftBank)机器人Pepper也是搭载华生系统。
只不过,由于在日常对话中,我们很常省略词句,也不一定会提及时空背景,因此当前的Chatbot尚无法与人类进行天花乱坠的对话。所以说,现行多数的Chatbot厂商,还是会限定对话的环境与应用领域。