大家好，又见面了，我是你们的朋友全栈君。

宽度学习系统：一种不需要深度结构的高效增量学习系统

本文是对陈俊龙教授团队“Broad Learning System: An Eﬀective and Eﬃcient Incremental Learning System Without the Need for Deep Architecture”的中文综述，原文将在IEEE Transactions on Neural Networks and Learning Systems, Vol. 29, Issue 1, 2018 发表。

论文链接：http://ieeexplore.ieee.org/document/7987745

文章代码下载地址：http://www.broadlearning.ai

　　深层结构神经网络和学习已经在许多领域得到应用，并在大规模数据处理上取得了突破性的成功。目前，最受欢迎的深度网络是深度信任网络（Deep Belief Networks，DBN），深度玻尔兹曼机器（Deep Boltzmann Machines，DBM）和卷积神经网络（Convolutional neural Networks，CNN）等。虽然深度结构网络非常强大，但大多数网络都被极度耗时的训练过程所困扰。其中最主要的原因是，上述深度网络都结构复杂并且涉及到大量的超参数。另外，这种复杂性使得在理论上分析深层结构变得极其困难。另一方面，为了在应用中获得更高的精度，深度模型不得不持续地增加网络层数或者调整参数个数。因此近年来，一系列以提高训练速度为目的的深度网络以及相应的结合方法逐渐引起人们关注。其中，宽度学习系统提供了一种深度学习网络的替代方法，同时，如果网络需要扩展，模型可以通过增量学习高效重建。

　　单层前馈神经网络（Single layer feedforward neural networks，SLFN）已被广泛应用于分类和回归等问题，因为它们可以全局地逼近给定的目标函数。一般来说，基于梯度下降的SLFN的泛化性能对某些参数设置，例如学习率，非常敏感。更重要的是，他们通常在训练时收敛到局部最小值。为此，由Yoh-Han Pao教授在1990年代提出的随机向量函数链接神经网络（random vector functional link neural network，RVFLNN）提供了不同的学习方法。

　　RVFLNN有效地消除了训练过程过长的缺点，同时也保证了函数逼近的泛化能力。因此，RVFLNN已经被用来解决不同领域的问题，包括函数建模和控制等。虽然RVFLNN显著提高了感知器的性能，但是在处理以大容量和时间多变性为本质特性的大数据时，这种网络并不能胜任。为了对中等大小数据进行建模，C. L. Philip Chen (陈俊龙) 在1990年代末也提出了一种动态逐步更新算法(增量学习），用于更新RVFLNN中新增加输入数据和新添加的增强节点的输出权重。这项工作为调整遇到新的输入数据的系统铺平了道路。

　　另一方面，近年来除了数据量的增长之外，数据的维度也大大增加。假如将原始的“大”数据直接输入神经网络，系统往往无法再保持其有效性。如何处理高维数据最近成为迫在眉睫的问题。克服这个难题的两个常见做法是降维和特征提取。其中，特征提取目的是寻求从输入数据到特征向量的最佳函数变换。易于实现和效率突出的特征提取常用方法包括，变量排序（variable ranking ），特征子集选择（feature subset selection ），惩罚最小二乘法（penalized least squares），随机特征提取方法，包括非自适应随机投影（non-adaptive random projections）和随机森林（random forest）以及基于卷积的输入映射等等。

　　因此，对于特征提取，可以采用“映射特征”作为RVFLNN的输入。本发明中提出的宽度学习系统（Broad Learning System，BLS）是基于将映射特征作为RVFLNN输入的思想设计的。此外，BLS可以在新加入的数据以有效和高效的方式更新系统（输入的增量学习）。BLS的设计思路为：首先，利用输入数据映射的特征作为网络的“特征节点”。其次，映射的特征被增强为随机生成权重的“增强节点”。最后，所有映射的特征和增强节点直接连接到输出端，对应的输出系数可以通过快递的Pseudo伪逆得出。为了在宽度上扩展特征节点和增强节点，论文中额外设计了对应的宽度学习算法。同时，如果网络结构需要扩展，论文同时提出了无需完整网络再训练的快速增量学习算法。

　　论文的其余结构如下。首先介绍RVFLNN，如图1-3所示。其次，给出了所提出的宽度学习算法的细节。第三，在MNIST分类和NORB分类中实验宽度学习系统，同时与其他各种深度神经网络进行比较。最后，给出关于宽度学习系统的结论和讨论。

20180103

　　如图4所示，假设我们提供输入数据X并利用函数ϕ_i(XW_ei+β_ei)映射产生第i组映射特征Z_i。其中，W_ei是具有适当维度的随机权重系数。给定记号Zⁱ≡[Z₁, … , Z_i]表示前i组所有映射特征。同样的，第j组增强节点ξ_j(ZⁱW_hj+β_hj )被记为H_j，同时前j组所有增强节点被记为H^j≡ [H₁,… , H_j]。实际上，根据建模任务的复杂性，可以选择不同的i和j。此外，当i≠k 时，ϕ_i 和ϕ_k 可以是不同函数。同样，当j≠r，ξ_j 与ξ_r也可以不同。在不失一般性的情况下，本文省略了随机映射ϕ_i和ξ_j 的下标。图4表征了论文提出的宽度学习网络的结构。