在使用nltk的meteor_core模块评估模型时,如何实现流星评分?

问题描述我目前有两个文件,ference.txt和mod.txt。这两个文本文件包含原始字幕和训练后生成的字幕。我是否可以简单地执行以下操作来获得流星分数:score=nltk.translate.meteor_score.meteor_score(reference,model

发布:2023-01-03 标签:pythonnlpmetricsnltk


数据帧作为TorchText中的数据源

问题描述我有一个数据框,它有两列(评论和观点)。我正在使用pytorch和torchtext库来对数据进行预处理。是否可以使用DataFrame作为源来读取TorchText中的数据?我正在寻找类似于的东西,但不是data.TabularDataset.splits(path='

发布:2022-10-16 标签:nlpdataframepytorchtorchtext


词汇空间大小模型'en_core_web_sm'

问题描述我试着在SpacySmall模型中查看词汇量:model_name="en_core_web_sm"nlpp=spacy.load(model_name)len(list(nlpp.vocab.strings))它只给了我1185个单词。我还在同事的机器上试了试,得到了不

发布:2022-10-16 标签:nlpmachine-learningspacydata-science


如何找出句子中是否提到了这个话题?-NLP

问题描述我是NLP的新手,我正在为我的问题寻找最合适的解决方案。为了简化起见,我想从标题创建一个标记列表。标记是预定义的,我可以轻松地标记用于培训的示例。简单示例:格式化示范句子&&-示范标记列表&世界上最大的大象&&[动物]我喜欢芒果和大猩猩-[动物,水果]我有3只猫和4只狗&

发布:2022-10-16 标签:pythonnlpspacy


如何比较三个预先训练好的模型之间的余弦相似性?

问题描述我有两个语料库--一个是所有女性领导人的演讲,另一个是男性领导人的演讲。我想测试一个语料库中两个词之间的余弦相似度与另一个语料库中相同两个词之间的余弦相似度显著不同的假设。这样的t检验(或等价的)合乎逻辑且可行吗?此外,如果两个语料库的余弦相似度不同,我如何检查第三个语料

发布:2022-10-16 标签:nlpword2vecgensimword-embeddingglove


自定义命名实体提取

问题描述我正在尝试使用StanfordNLP实现NER(命名实体提取)。最终目标是将自由文本转换为查询格式。我创建了一个定制词典,能够提取实体并构建查询peoplewhoarefromnewyork我将构建查询select*frompeoplewhereregion='newyo

发布:2022-10-16 标签:nlpnamed-entity-extractionstanford-nlpopennlp


我是不是应该既执行列姆化,又执行词干删除?

问题描述我正在用Python语言编写一个文本分类系统。以下是我为规范每个令牌所做的工作:lem,stem=WordNetLemmatizer(),PorterStemmer()fordocincorpus:forwordindoc:lemma=stem.stem(lem.lemm

发布:2022-10-16 标签:pythonnlpmachine-learningnltkstemming


如何提取数字(以及比较形容词或范围)

问题描述我正在处理两个使用Python语言的NLP项目,它们的任务都类似于从语句中提取数值和比较运算符,如下所示:"...greaterthan$10...","...weightnotmorethan200lbs...","...heightin5-7feets...","..

发布:2022-10-16 标签:regexpythonnlpspacynltk


如何更新nltk包,使其不会将电子邮件分解为3个不同的令牌?

问题描述当我键入以下代码时:tokens=word_tokenize("a@b.com")它分为以下3个标记:‘a’、‘@’、‘b.com’我想做的是将其保留为单个令牌‘a@b.com’。推荐答案免责声明:有很多电子邮件正则表达式。我并没有尝试匹配此问题中的所有电子邮件格式,只是

发布:2022-10-16 标签:regexpythonnlpnltk


如何在不使用空格作为单词分隔符的语言(如中文)上执行PythonSplit()?

问题描述我要将一个句子拆分成单词列表。对于英语和欧洲语言,这很容易,只需使用Split()>>>"Thisisasentence.".split()['This','is','a','sentence.']但我还需要处理中文等不使用空格作为单词分隔符的句子。>>>u"这是一个句子

发布:2022-10-16 标签:stringpythonunicodenlpcjk