词向量

简述四大类文本分析中的“词向量”

Submitted by huzhenda on Sat, 07/14/2018 - 14:24

词向量类型:

一个词一列向量:Hash算法,word2vec。hash把词打散成(01010101110)的数值,word2vec则打散同时定义成了向量,参考文献中验证了将词向量加起来的确是一个有效的方法;延伸:word2vec考虑了上下语义,doc2vec还考虑了上下语句顺序,用在段落中较好。

一个词一个值:bow算法+词权重,LDA主题-词语矩阵。两者有递进关系,bow进化到LDA,当然LDA超级耗时,所以业界不喜欢用。

由词向量到句向量:

如果是一词一列向量一般用简单相加(相加被证明是最科学)来求得;

一个词一值的就是用词权重组合成向量的方式;

谷歌的句向量sen2vec可以直接将句子变为一列向量。

词向量的额外效果

消除歧义:LDA的主题-词语向量;

结合上下文语境:word2vec;

文档与文档之间的关系:bow+TFIDF(TFIDF能够较好区分文档差别的指标,而互信息较为有利于文档中核心词的提取)

Tags