在Python中计算多个词典上的Jaccard相似度?

问题描述我有一本词典是这样的:my_dict={'CommunityA':['User1','User2','User3'],'CommunityB':['User1','User2'],'CommunityC':['User3','User4','User5'],'Commun

发布:2022-10-16 标签:pythondictionarysimilaritydata-science


空间相似函数

问题描述我正在尝试使用Spacy库进行句子相似性,我想了解它是如何工作的!?他们的文档不清楚:默认情况下,Spacy使用向量平均算法,使用预先训练的向量(如果可用)(例如en_core_web_lg模型)。如果不是,则使用doc.tensor属性,该属性由标记器、解析器和实体识别

发布:2022-10-16 标签:pythonsimilarityspacy


如何从一个有功能列表字符串的TSV变成一个Python中的CSR矩阵?

问题描述我一直在使用一些R包,它们从稀疏二进制矩阵计算(余弦)(稀疏)相似矩阵,例如proxyC。由于我现在也开始(并学习)使用python,而且有人告诉我它可能会更快,所以我想尝试在那里运行相同的计算。我发现了这个有趣的帖子:WhatsthefastestwayinPython

发布:2022-10-16 标签:pythonsimilaritysparse-matrix


如何计算给定2个字符串的距离相似性度量?

问题描述我需要计算2个字符串之间的相似度.那我到底是什么意思?让我用一个例子来解释:Ineedtocalculatethesimilaritybetween2strings.SowhatexactlydoImean?Letmeexplainwithanexample:真正的词:医

发布:2022-10-16 标签:.netc#similaritylevenshtein-distancemeasure


测量两个字符串之间相似性的有效方法是什么?(Levenshtein 距离使堆栈太深)

问题描述所以,我从这个开始:http://en.wikibooks.org/wiki/Algorithm_Implementation/Strings/Levenshtein_distance#Ruby这对于非常小的字符串非常有用.但是,我的字符串长度可能超过10,000个字符-

发布:2022-10-16 标签:stringruby-on-railscomparesimilaritylevenshtein-distance


Libpuzzle 索引数百万张图片?

问题描述关于php的libpuzzle库(http://libpuzzle.pureftpd.org/project/libpuzzle)来自弗兰克丹尼斯先生.我试图了解如何在我的mysql数据库中索引和存储数据.向量的生成是绝对没有问题的.例子:#计算两个图像的签名$cvec1

发布:2022-10-16 标签:phpimagemysqlcomparesimilarity


检查两个 NSString 是否相似

问题描述我提出了一个棘手的问题,我不确定如何解决.因此,我制定了一个包含字典的plist,其中包含两个对象:IpresentatrickyquestionthatIamnotsurehowtoapproach.So,Ihaveformulatedaplistcontainingd

发布:2022-10-16 标签:ioscomparesimilarityobjective-cnsstring


什么是匹配两个包含少于 10 个拉丁文单词的字符串的最佳算法

问题描述我正在比较歌曲标题,使用拉丁脚本(尽管并非总是如此),我的目标是一种算法,如果两首歌曲标题似乎是相同的标题,则给出高分,如果它们什么都没有,则给出非常低的分数共同点.I'mcomparingsongtitles,usingLatinscript(althoughnotal

发布:2022-10-16 标签:javasimilaritylucenestring-matching


在lucene中获取两个文档之间的余弦相似度

问题描述我已经在Lucene中建立了一个索引.我想不指定查询,只是为了获得索引中两个文档之间的分数(余弦相似度或其他距离?).ihavebuiltanindexinLucene.Iwantwithoutspecifyingaquery,justtogetascore(cosine

发布:2022-10-16 标签:similaritylucenetf-idftrigonometry


如何求两条曲线的相似度以及相似度的得分?

问题描述我有两个数据集(t,y1)和(t,y2).这些数据集在视觉上看起来相同,但它们有一些时间延迟或幅度偏移.我想找到两条曲线之间的相似性(为近似相似的曲线给出相似性分数1,为不相似的曲线给出0).由于数据的波动,一些曲线似乎有所不同.所以,我正在寻找找到曲线之间相似性的方法.

发布:2022-10-16 标签:similaritymatlabtime-seriescurves