特征工程

1.特征工程

举例梯度下降实例说明归一化的重要性，若两个特征的取值范围不一样，则在学习速率相同的情况下，范围小的特征更新速度会大于取值范围大的特征，需要较多的迭代才能找到最优解。若将两个特征归一化到相同的数值区间，两特征的更新速度变得更为一致，容易更快地通过梯度下降找到最优解。

实际运用中，通过梯度下降法求解的模型通常需要归一化，包括线性回归、逻辑回归、支持向量机、神经网络等。但对决策树不适用。
2.类别型特征

问题：在对数据进行预处理时，应该怎样处理类别型特征？
知识点：

序号编码：用于处理类别间具有大小关系的数据。高3，中2，低1
独热编码：用于处理类别间不具有大小关系的特征。
对于类别取值较多的情况下使用独热编码需要注意：
（1）使用稀疏向量来节省空间。
（2）配合特征选择来降低维度。高维度特征会带来的问题：一：在K近邻算法中，高维空间下两点之间的距离很难得到有效衡量；二逻辑回归中，参数的数量会随着维度的增高而增加，容易引起过拟合；三通常只有部分维度对分类、预测有帮助。
二进制编码：先给每个类别赋予一个类别ID，然后将类别ID对应的二进制编码作为结果。

3 高维组合特征的处理
问题：什么是组合特征？如何处理高维组合特征？

为了提高复杂关系的拟合能力，在特征工程中疆场会把一阶离散特征两两组合，构成高阶组合特征。
将组合的特征分别用k维的低维向量表示。

4 组合特征
问题：怎样有效找到组合特征？
基于决策树的特征组合寻找方法。
给定原始输入该如何有效地构造决策树？可采用梯度提升树，该方法的思想是每次都在之前构建的决策树的残差上构建下一颗决策树。

5 文本表示模型
问题：有哪些文本表示模型？它们各有什么优缺点？

词袋模型和N-gram模型
最基础的文本表示模型是词袋模型。就是将每篇文章看成一袋子词，并忽略每个词出现的顺序。用TF-IDF计算每个词的权重，如果一个单词在很多的文章里出现，那么它可能是一个比较通用的词汇，对于区分某篇文章特殊语义的贡献较小，因此对权重做一定惩罚。
将连续出现的n个词组成的词组也作为一个单独的特征放到向量表示中去，构成N-gram。
主体模型
用于从文本库中发现有代表性的主题，并且能够计算出每篇文章的主题分布。
词嵌入与深度学习模型
词嵌入是一类将词向量化的模型的统称，核心思想是将每个词都映射成低维空间上的一个稠密向量。

深度学习模型提供了一种自动地进行特征工程的方式，模型中的每个隐层都可以认为对应着不同抽象层次的特征。
与全连接的网络结构相比，卷积神经网络和循环神经网络一方面很好地抓住了文本的特性，另一方面也减少了网络中待学习的参数，提高了训练速度，并且减低了过拟合的风险。

6 Word2Vec
Word2Vec是目前最常用的词嵌入模型之一，实际是一种浅层的神经网络模型，有两种网络结构：CBOW，Skip-gram

知识点：Word2Vec，因狄利克雷模型LDA，CBOW，Skip-gram

问题：Word2Vec是如何工作的？它和LDA有什么区别和联系？
CBOW的目标是根据上下文出现的词语来预测当前词的生成概率；
Skip-gram是根据当前词来预测上下文中各词的生成概率。

区别和联系：

LDA是利用文档中单词的共现关系来对单词按主题聚类，也可以理解为对“文档-单词”矩阵进行分解，得到“文档-主题”和“主题-单词”两个概率分布。
Word2Vec是对“上下文-单词”矩阵进行学习，其中上下文由周围的几个单词组成，由此得到的词向量表示更多地融入了上下文共现的特征。也就是说，如果两个单词所对应的Word2Vec向量相似度较高，那么他们很可能经常在同样的上下文中出现。

主题模型和词嵌入两方法的差异：
主题模型和词嵌入两类方法最大的不同在于模型本身