vec词向量模型

vec词向量模型词向量模型—Word2Vec*前言计算机老外来访被请吃饭。落座后，一中国人说：“我先去方便一下。”老外不解，被告知“方便”是“上厕所”之意。席间主宾大悦。道别时，另一中国人对老外发出邀请：“我想在你方便的时候也请你吃饭。”老外愣了，那人接着说：“如果你最近不方便的话，咱找个你我都方便的时候一起吃。人类VS下一张目录*123基本概念模型与方法实际应用目录词向量自然语言中的词语在机器学习中的表示符号...

词向量模型—Word2Vec*前言计算机老外来访被请吃饭。落座后，一中国人说：“我先去方便一下。”老外不解，被告知“方便”是“上厕所”之意。席间主宾大悦。道别时，另一中国人对老外发出邀请：“我想在你方便的时候也请你吃饭。”老外愣了，那人接着说：“如果你最近不方便的话，咱找个你我都方便的时候一起吃。人类VS下一张目录*123基本概念模型与方法实际应用目录词向量自然语言中的词语在机器学习中的表示符号 One-HotRepresentation例如：“话筒”表示为：[0,0,0,1,0,0,0,0,0,0,0,0,0,…]“麦克”表示为：[0,0,0,0,0,0,0,0,0,1,0,0,0,…]实现时可以用0,1,2,3等对词语进行计算，这样的“话筒”可以用4表示，麦克可以用10表示问题：维度很大，当词汇较多时，可能会达到百万维，造成维度灾难词汇鸿沟：任意两个词之间都是孤立的，不能体现词与词之间的关系。*词向量 DistributionalRepresentation将词表示为[0.793,-0.177,-0.107,0.109,0.542,…]的矩阵，通常该类矩阵设置为50维或100维通过计算向量之间的距离，来体现词与词之间的相似性，解决词汇鸿沟的问题实现时可以用0,1,2,3等对词语进行计算，这样的“话筒”可以用4表示，麦克可以用10表示如何训练：没有直接的模型可以训练得到可以在训练语言模型的同时，得到词向量。*语言模型判断一句话是不是正常人说出来的给定一个字符串”w1,w2,w3,w4,…,wt”,计算它是自然语言的概率、P(w1,w2,…,wt)=P(w1)×P(w2|w1)×P(w3|w1,w2)×…×P(wt|w1,w2,…,wt−1)P(大家，喜欢，吃，苹果)=p(大家)p(喜欢|大家)p(吃|大家,喜欢)p(苹果|大家,喜欢,吃)p(大家)表示“大家”这个词在语料库里面出现的概率；p(喜欢|大家)表示“喜欢”这个词出现在“大家”后面的概率;p(吃|大家，喜欢)表示“吃”这个词出现在“大家喜欢”后面的概率；p(苹果|大家,喜欢,吃)表示“苹果”这个词出现在“大家喜欢吃”后面的概率。把这些概率连乘起来，得到的就是这句话平时出现的概率。如果这个概率特别低，说明这句话不常出现，那么就不算是一句自然语言，因为在语料库里面很少出现。如果出现的概率高，就说明是一句自然语言。常用的语言模型都是在近似地求 P(wt|w1,w2,…,wt−1)。比如n-gram模型就是用 P(wt|wt−n+1,…,wt−1) 近似表示前者。N-pos先对词进行了词性分类*123模型与方法基本概念实际应用目录Word2VecGoogle的Mikolov在2013年推出了一款计算词向量的工具word2vec作为神经概率语言模型的输入，其本身其实是神经概率模型的副产品，是为了通过神经网络学习某个语言模型而产生的中间结果。具体来说，“某个语言模型”指的是“CBOW”和“Skip-Gram”。具体学习过程会用到两个降低复杂度的近似方法——HierarchicalSoftmax或NegativeSampling。CBOW：ContinuousBag-of-WordsSkip-Gram：ContinuousSkip-GramModelHierarchicalSoftmaxNegativeSampling两个语言模型两种优化方法*CBOWandSkip-Gram初始化值是零向量，叶节点对应的单词的词向量是随机初始化的。CBOW的目标是根据上下文来预测当前词语的概率Skip-Gram恰好相反，它是根据当前词语来预测上下文的概率。这两种方法都利用人工神经网络作为它们的分类算法。起初，每个单词都是一个随机N维向量，经过训练之后，利用CBOW或者Skip-Gram方法获得每个单词的最优向量。*CBOW模型结构输入层是上下文的词语的词向量，是CBOW模型的一个参数。训练开始的时候，词向量是个随机值，随着训练的进行不断被更新。当模型训练完成之后可以获得较为准确的词向量。O(|V|)时间复杂度：O(log2(|V|))*CBOW模型结构——霍夫曼树在训练阶段，当给定一个上下文，要预测词(Wn)的时候，实际上知道要的是哪个词(Wn)，而Wn是肯定存在于二叉树的叶子节点的，因此它必然有一个二进制编号，如“010011”，那么接下来我们就从二叉树的根节点一个个地去遍历，而这里的目标就是预测这个词的二进制编号的每一位.即对于给定的上下文，我们的目标是使得预测词的二进制编码概率最大。形象地说，我们希望在根节点，词向量和与根节点相连经过logistic计算得到的概率尽量接近0（即预测目标是bit=1）；在第二层，希望其bit是1，即概率尽量接近1……这么一直下去，我们把一路上计算得到的概率相乘，即得到目标词Wn在当前网络下的概率(P(Wn))，那么对于当前这个sample的残差就是1-P(Wn)。于是就可以SGD优化各种权值了。*Skip-Gram模型结构cd吃ba小明喜欢吃甜甜的苹果*123实际应用基本概念模型与方法目录*词相似度训练数据集：经过分词后的新闻数据，大小184MB查看"中国"，"钓鱼岛"，"旅游"，"苹果"几个词语的相似词语如下所示*向量加减法向量加减法"中国+北京-日本"，"中国+北京-法国"*机器翻译机器翻译语言词语的关系集合被表征为向量集合向量空间内，不同语言享有许多共性实现一个向量空间到另一个向量空间的映射和转换图为英语和西班语的五个词在向量空间中的位置（已经过降维）对英语和西班语之间的翻译准确率高达90%*推荐应用Item2Vec论文：Item2vec:NeuralItemEmbeddingforCollaborativeFiltering应用到推荐场景的i2i相似度计算中，但实际效果看还有有提升的。主要做法是把item视为word，用户的行为序列视为一个集合，item间的共现为正样本，并按照item的频率分布进行负样本采样*谢谢观看**下一张目录***************

                    本文档为【vec词向量模型】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

vec词向量模型

你可能还喜欢