如何比较三个预先训练好的模型之间的余弦相似性?

问题描述我有两个语料库--一个是所有女性领导人的演讲,另一个是男性领导人的演讲。我想测试一个语料库中两个词之间的余弦相似度与另一个语料库中相同两个词之间的余弦相似度显著不同的假设。这样的t检验(或等价的)合乎逻辑且可行吗?此外,如果两个语料库的余弦相似度不同,我如何检查第三个语料

发布:2022-10-16 标签:nlpword2vecgensimword-embeddingglove


Gensim列车不更新权重

问题描述我有一个特定于领域的语料库,我正在尝试为其训练嵌入。因为我想全面掌握词汇,所以我添加了glove.6B.50d.txt中的单词向量。从这里添加向量后,我正在使用我拥有的语料库训练模型。我正在尝试here中的解决方案,但单词嵌入似乎没有更新。这是我到目前为止拥有的解决方案。

发布:2022-10-16 标签:pythonstanford-nlpword2vecgensimword-embedding


训练我自己的手套模型时出现编码问题

问题描述我正在使用自己的语料库训练手套模型,但在以utf-8格式保存/加载它时遇到问题。以下是我尝试的内容:fromgloveimportCorpus,Glove#datalines=[['woman','umbrella','silhouetted'],['person','b

发布:2022-10-16 标签:pythonencodingnlpword-embeddingglove


手套和word2vec的主要区别是什么?

问题描述word2vec和手套有什么区别?训练单词的两种方法都是嵌入的吗?如果是,那么我们如何才能同时使用两者?推荐答案是,它们都是训练单词嵌入的方法。它们都提供相同的核心输出:每个单词一个向量,这些向量以有用的方式排列。也就是说,向量的相对距离/方向大致符合人类对整体词汇关联性

发布:2022-10-16 标签:nlpmachine-learningword2vecword-embeddingglove


词汇量和嵌入维度之间的首选比例是多少?

问题描述使用例如gensim、word2vec或类似方法训练嵌入向量时,我想知道什么是好的比率,或者嵌入维度与词汇表大小之间是否有更好的比率?另外,随着更多数据的出现,这种情况会发生怎样的变化?由于我仍在讨论如何在训练嵌入向量时选择合适的窗口大小?我之所以问这个问题,是因为我没有

发布:2022-10-16 标签:machine-learningkerasnltkword-embeddingnltk-trainer


PyTorch:将词向量加载到 Field 词汇表与嵌入层

问题描述我从Keras来到PyTorch.我想创建一个PyTorch嵌入层(大小为VxD的矩阵,其中V在词汇索引和D是嵌入向量维度)与GloVe向量,但对所需步骤感到困惑.I'mcomingfromKerastoPyTorch.IwouldliketocreateaPyTorch

发布:2022-10-16 标签:pythonmachine-learningpytorchword-embedding


是否可以在 pytorch 的嵌入层中仅冻结某些嵌入权重?

问题描述在NLP任务中使用GloVe嵌入时,数据集中的某些词可能不存在于GloVe中.因此,我们为这些未知词实例化随机权重.WhenusingGloVeembeddinginNLPtasks,somewordsfromthedatasetmightnotexistinGloVe.

发布:2022-10-16 标签:pythonnlppytorchword-embeddingglove


嵌入pytorch

问题描述我在Stackoverflow上查看了PyTorch教程和与此类似的问题.IhavecheckedthePyTorchtutorialandquestionssimilartothisoneonStackoverflow.我很困惑;pytorch中的嵌入(Embeddin

发布:2022-10-16 标签:pythonpytorchword-embedding


如何计算 Word2Vec 训练模型中的词频?

问题描述我需要统计word2vec的训练模型中每个词的出现频率.我希望输出如下所示:Ineedtocountthefrequencyofeachwordinword2vec'strainingmodel.Iwanttohaveoutputthatlookslikethis:ter

发布:2022-10-16 标签:pythonword-frequencyword2vecnatural-language-processingword-embedding


没有名为“gensim"的模块,但已经安装了它

问题描述我遇到了这个错误问题,我在基本(root)环境的jupyternotebook中运行了这个脚本,日志说已经安装了gensim库,我已经运行了命令!pipinstallgensim在我导入它之前,但它仍然无法导入,错误说ModuleNotFoundError:Nomodul

发布:2022-10-16 标签:pythonmachine-learningjupyter-notebookgensimword-embedding