word2vec有什么应用?(word2vec文本分类)
word2vec有什么应用?,word2vec文本分类。这个问题金纳莱为您提供更多相关信息让你了解。
因为词语是自然语言处理中最细粒度的表达单位,因此用词向量表示词语的方式应用很广泛,它既可以执行词语层面的任务,也可以作为很多其他模型的输入,执行更高层次的计算,比如句子、文档层面的任务。以下简单说几种应用word2vec文本分类:
1) 计算相似度:寻找相似词、信息检索
这里说一个有趣的背景应用:淘宝检测盗版商品。
淘宝里有一些小商家,专卖大品牌的原单货,也有很多人打着原单的名义卖的是高仿,样子差不多,但是价钱相比于品牌能便宜非常多。这些小商家不敢在淘宝商品详情里写品牌名,他们发明了很多品牌名的变种,比如日本知名女装品牌“mossy”会写成“猫ssy”、“sly”会写成“s赖”,Levi\’s会变写成李家、L家等等来躲避打击。面对这种情况就可以利用word2vec对商品详情文本进行模型训练、可以把这些盗版品牌找出来。
2) 社交网络的推荐系统
应用背景举例:
比如我们在使用微博的时候,在关注了一些博主之后,微博会向你推荐一些类别很相似的其他博主。这里就可以利用word2vec来实现,令每一个博主是一个词向量,将用户关注博主的顺序定义一篇文档,训练模型,计算知名博主之间特征的相似度,便可以完成推荐。
3) 作为 SVM/LSTM 等模型的输入:中文分词、命名体识别
还可以将word2vec与其他的模型结合使用,比如利用训练好的词向量做SVM模型的输入,达到更好的聚类效果。
4) 机器翻译中的应用
词向量在机器翻译领域中比较著名的一个应用就是词向量的提出者Tomas Mikolov 团队在谷歌工作时开发的一种词典和术语生成技术。介绍算法时举了的一个例子:分别训练英语和西班牙对应的词向量空间E和S,取出来英语中的数字1-5: one,two,three,four,five 和西班牙语中的数字1-5 uno,dos,tres,cuatro,cinco 的词向量。为了方便作图,用PCA进行主成分将降维,得到下图结果。从图中我们也可以看出:这五个词在各自的向量空间的位置分布相似,进一步说明了在词向量空间中利用距离刻画词语词含义之间相似性的合理性。
以上就是金纳莱网»word2vec文本分类,word2vec有什么应用?的相关内容了,更多精彩请关注金纳莱号公众号。
本文内容由互联网用户自发贡献,该文观点仅代表作者本人。如发现本站有涉嫌抄袭侵权/违法违规的内容,请发送邮件至 203304862@qq.com
本文链接:https://jinnalai.com/yunying/43064.html