02、PMI点互信息 & PPMI(Positive PMI) |
您所在的位置:网站首页 › positive的 › 02、PMI点互信息 & PPMI(Positive PMI) |
在词的向量化表示中,简单的One-Hot会遇到数据稀疏和无法计算词之间距离的问题;分布式频次表示会遇到高频词误导计算结果的问题。基于点互信息的词向量表示方式恰好可以解决上述问题。 PMI点互信息 1. 概念和公式点互信息(Pointwise Mutual Information,PMI)是信息轮中用来衡量两个事物之间的相关性的一个指标。例如对于词A和词B的点互信息为: 其中, 我 喜欢 游泳。 我 爱 游泳。 共现矩阵相同词计为0,所有词一共出现6次数。 我喜欢爱游泳我0112喜欢1001爱1001游泳2110 PMI计算设(公式无法输入中文,汗):w1表示“我”,w2表示“喜欢”,w3表示“爱”,w4表示“游泳” 将共现矩阵中所以值替换为对应的PMI值便可以得到使用PMI方法表示的词向量了——每一行对应该词的词向量。 PPMI(Positive PMI)当词A和词B的共现次数过低时,对于的PMI值很可能为负数(理论可到负无穷),这通常会造成PMI的不稳定。为了解决这个问题,可以采用对负PMI转换为0的方式解决——PPMI(Positive PMI): |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |