SKLINE PCA-计算选择k时保留的方差百分比

问题描述我正在使用SCRKIT学习PCA,并尝试选择满足1-(SumI1ToKSii)/(SumJ1ToNSjj)<=0.01的最小分量数,其中S是SvD对角线矩阵,以便保留99%的方差。SCRICKITLEARN是否具有返回给定方差保留百分比阈值的最小分量的函数?有没有更

发布:2023-01-03 标签:scikit-learnmachine-learningpca


关于优化K-Means算法的更多问题

问题描述我想写一篇题为《K-Means聚类算法的优化版本》的论文。本文在此链接中:https://fedcsis.org/proceedings/2014/pliks/258.pdf。这篇论文并不明显。我在Stackoverflow中看到@VPPMan被问到一些关于这方面问题(O

发布:2022-12-11 标签:optimizationalgorithmmachine-learningk-means


使用TRAIN_TEST_SPLIT拆分数据时的精度与之后加载CSV文件时的精度不同

问题描述我已经构建了一个模型来预测客户是企业客户还是私人客户。在对模型进行训练后,我预测了我没有用于训练的1000个数据集的类别。此预测将保存在CSV文件中。现在我有两种不同的行为:在程序中拆分样本数据当我使用train,sample=train_test_split(train

发布:2022-10-16 标签:pythonmachine-learningtensorflowkerasclassification


如何通过测试生成器消除错误?

问题描述我的培训生成器和有效生成器工作正常,但当我尝试预测时,我得到了某种错误,我认为这是来自测试生成器。train_datagen=ImageDataGenerator(rotation_range=15,rescale=1./255,shear_range=0.1,zoom_

发布:2022-10-16 标签:pythonmachine-learningtensorflowkerasdata-science


使用PyTorch计算用于分类和回归的95%可信区间的正确方法是什么?

问题描述我想使用PyTorch报告我的数据的90、95、99等可信区间。但置信度间隔似乎太重要了,不能让我的实现未经测试或受到批评,所以我希望得到反馈-至少应该由一些专家进行检查。此外,我已经注意到,当我的值为负值时,我得到了NaN值,这让我认为我的代码只适用于分类(至少),但我

发布:2022-10-16 标签:pythonstatisticsmachine-learningpytorchpytorch-lightning


我想将所有这些行和列转换为像这样的2行

问题描述ABCDX123Y567Z111213我想像这样转换上面的数据框XAXBXCXDYA.....ZD1234514请帮我推荐答案使用:s=df.stack()new_df=s.to_frame().T.set_axis([f'{x}{y}'forx,yins.index],

发布:2022-10-16 标签:pythonmachine-learningpandasdataframenumpy-ndarray


如何在WEKA中用新的训练数据更新训练过的模型(weka.classifiers.functions.MultilayerPerceptron)?

问题描述我要加载我以前训练的模型,然后使用新的训练数据更新此模型。但我发现这项任务很难完成。我从WekaWiki了解到可以以增量方式训练实现weka.ategfiers.Updateable分类器接口的分类器。但是,我训练的回归模型使用的是weka.classifiers.fun

发布:2022-10-16 标签:neural-networkmachine-learningdata-miningregressionweka


用R编写自己的KMeans算法

问题描述我正在尝试用R编写我自己的第一个KMeans算法。我在这个领域是新手,所以请不要因为我看不到明显的东西而评判我。在当前状态下,该算法取两个向量x,y,计算每个数据点到簇中心的距离,并分配从其中心到数据点距离最小的簇。当分配没有变化,因此聚类中心没有变化时,算法停止。#Sa

发布:2022-10-16 标签:algorithmrmachine-learningdata-miningk-means


词汇空间大小模型'en_core_web_sm'

问题描述我试着在SpacySmall模型中查看词汇量:model_name="en_core_web_sm"nlpp=spacy.load(model_name)len(list(nlpp.vocab.strings))它只给了我1185个单词。我还在同事的机器上试了试,得到了不

发布:2022-10-16 标签:nlpmachine-learningspacydata-science


支持向量机-数据是否有可指示最佳参数的属性(例如,C、伽马)

问题描述使用交叉验证来确定最佳参数似乎相当标准。当然,这通常是一个耗时的过程。有什么捷径吗?有没有其他更快的探索性分析形式,可以提供关于哪些值将是最佳的提示?例如,以我目前对机器学习和支持向量机的理解,我可能会做一些事情,比如在C的指数为10的[10e-5,10e5]范围内执行初

发布:2022-10-16 标签:machine-learningsvmcross-validation