NLP基础知知识-努力扫盲入门的我

也许今后有机会在NLP深入探索了，说实在的，对NLP唯一的接触还是大三做hadoop/spark的时候为了结合爬虫和词云，了解一些中文分词，像是结巴分词印象就还蛮深刻的。反正，先尝试了解了解吧，干就完了！

习惯了CV的东西，一下转到看NLP，不知道是不是心理因素，还是真的思路和focus的东西不一样，感觉好容易忘哦，还是写下blog简单记录下一些小知识点，免得看了就忘的蠢事

文本表示模型

词袋模型

文本是一种非结构化数据，所以我们首先需要找到合适的方法表示文本数据，最基础的文本表示模型就是词袋模型，将每篇文章都看做是一袋子词，不care词在哪里出现、出现的顺序

具体而言，就是将整段文字以词为单位切开，从而每篇文章都能表示成一个长向量，向量的每个维度都代表一个单词，而该维的权重是这个词在文章中的重要程度，常用TF-IDF来计算：

TF-IDF(t,d)=TF(t,d) × IDF(t)

真中T F(t,d）为单词t 在艾档d 中出现的频率， ID F( t）是逆文挡频率，
用来衡量单词t 对表达语义所起的重要性，表示为

IDF(t) = log ( 文章总数 / (出现单词t的文章总数+1) )

直观的解释是如果一个单词在很多文章里都出现过，那么可能是一个比较通用的词汇，比如the a an 这种冠词吧，对于区分某篇文章特殊语义的贡献较小。因此，对权重做一定惩罚。

N-gram

如果单纯看单词的出现，肯定还是很粗糙的，毕竟语言是流动的文字而非定格的塑像，所以可以在词袋模型的基础上，将连续出现的n个词组成的词组(N-gram)也作为一个单独的特征放到向量空间中，构成N-gram模型。

另外，同一个词可能有多种词性变化却具有相似的含义。在实际应用中，一般会对单词进行词干抽取（ Word Stemming ）处理，即将不同词性的单词统一成为同一词干的形式。

主题模型

pLSA、LDA 一文详解LDA主题模型

浅谈话题模型：LSA、PLSA、LDA

LDA 就是 PLSA 的贝叶斯化版本。下面两张图片很好的体现了两者的区别：

preview

词嵌入和深度学习模型

词嵌入是将词向量化的一种模型，核心思想：把每个词都映射到低维空间中（通常K=50~300），生成对应的K维稠密向量，而其中的每个维度可以看做是一个隐含的主题，只不过并不像主题模型中的主题那样直观。

每个词为K维向量，那么N个词的文章就是NxK的矩阵，而可以继续借助深度学习提取各个层次特征的能力，从这个矩阵中提取出更work的特征，这一点和CNN用于CV一样的，从简单的线条信息到组成具有意义的物体，深度学习也可以再NLP中通过CNN、LSTM抓取文本的特性，同时比起传统的全连接而言，参数跟少。

采样方法

一种采样是知道分布的类型，需要估计分布的参数，比如GMM，EM求解最大似然法。此类简单的问题，可以通bootstrap和刀切法去多次采样，然后再对多次采样的结果求解

另一种是采样得到的样本集可以作为非参数模型，就是用比较少的、离散的样本点来近似总体分布，并刻画总体分布中的不确定性。从这个角度来说采样其实也是一种信息降维，可以起到简化问题的作用

拒绝采样

拒绝采样(reject sampling)原理详解

重要性采样

很多时候，采样的最终目的并不是为了得到样本，而是为了进行一些后续任务，如预测变量取值，这通常表现为一个求函数期望的形式。重要生采样就是用于计算函数fx）在目标分布p(x)上的积分（函数期望），即

E[f] = ∫ f(x) · p(x) dx

首先，找一个比较容易抽样的参考分布q(x），并令w(x) ＝ p(x) / q(x)

则有

E[f] = ∫ f(x)·w(x)·q(x) dx

这里w(x)可以看做是x的重要性权重，由此，可以从参考分布q(x)中抽取出N个样本{x}，然后利用下列公式来估计E[f]:

如果不需要计算函数积分，只想从目标分布p(x)中采样出若干样本，则可以用重要性重采样（ Sampling-Importance Re-sampling , SIR ），先在参考分布q(x)中抽取N个样本{xi}，然后按照他们对应的重要性权重{w(xi)}对这些样本进行重新采样（这是个简单的针对有限离散分布的采样），最终得到的样本服从目标分布p(x）

在实际应用中，如果是高维空间的随机向量，拒绝采样和重要性重采样经常难以寻找合适的参考分布，采样效率低下（样本的接受慨率小或重要性权重低），此时可以考虑马尔可夫蒙特卡洛采样法，常见的有MH采样法和Gibbs采样法。