Spark MLib Word2Vec 错误:词汇量应大于等于0

问题描述我正在尝试使用Spark的MLLib实现词向量化.我正在按照此处给出的示例进行操作.>我有一堆句子想作为输入来训练模型.但我不确定这个模型是采用句子还是只是将所有单词作为字符串序列.我的输入如下:scala>v.take(5)res31:Array[Seq[String]

发布:2022-10-16 标签:scalamachine-learningapache-sparkapache-spark-mllibword2vec


在 Spark 中的 map 函数内运行 ML 算法

问题描述所以我几天来一直在尝试在Spark的映射函数中运行ML算法.我发布了一个更具体的问题但引用Spark的ML算法给了我以下错误:SoIhavebeentryingforsomedaysnowtorunMLalgorithmsinsideamapfunctioninSpark

发布:2022-10-16 标签:machine-learningpysparkapache-sparkapache-spark-mllibapache-spark-ml


为什么 Spark Mllib KMeans 算法非常慢?

问题描述我遇到了与此帖子相同的问题,但是我没有足够的积分在那里添加评论.我的数据集有100万行,100列.我也在使用MllibKMeans,它非常慢.事实上,这项工作永远不会完成,我必须杀死它.我在谷歌云(dataproc)上运行它.如果我要求较少数量的集群(k=1000),它就

发布:2022-10-16 标签:data-miningcluster-analysisapache-sparkapache-spark-mllibk-means


Spark 数据类型猜测器 UDAF

问题描述想要这样的东西https://github.com/fitzscott/AirQuality/blob/master/HiveDataTypeGuesser.java并创建一个HiveUDAF以创建一个返回数据类型猜测的聚合函数.Wantedtotakesomething

发布:2022-10-16 标签:machine-learningapache-sparkhiveapache-spark-mllibbigdata


处理 Spark MLlib 中的不平衡数据集

问题描述我正在研究具有高度不平衡数据集的特定二元分类问题,我想知道是否有人尝试实施特定技术来处理不平衡数据集(例如SMOTE)在使用Spark的MLlib的分类问题中.I'mworkingonaparticularbinaryclassificationproblemwithah

发布:2022-10-16 标签:machine-learningapache-sparkclassificationapache-spark-mllib


如何为 ALS 更新 Spark MatrixFactorizationModel

问题描述受https://databricks-training.s3.amazonaws.com/movie-recommendation-with-mllib.html.我也有像这里这样的显式训练的问题:ApacheSparkALS协同过滤结果.他们没有意义使用隐式训练(在显

发布:2022-10-16 标签:machine-learningapache-sparkapache-spark-mllibcollaborative-filtering


PySpark 中的 KMeans 聚类

问题描述我有一个包含许多列的spark数据框mydataframe".我试图仅在两列上运行kmeans:纬度和经度(纬度和经度),将它们用作简单值).我想仅基于那2列提取7个集群,然后我想将集群分配附加到我的原始数据帧.我试过了:Ihaveasparkdataframe'myda

发布:2022-10-16 标签:machine-learningpysparkapache-spark-mllibk-meansapache-spark-ml


Spark MlLib 线性回归(线性最小二乘法)给出随机结果

问题描述我是Spark和机器学习方面的新手.我已经成功地遵循了一些Mllib教程,但我无法让这个教程起作用:ImnewinsparkandMachinelearningingeneral.IhavefollowedwithsuccesssomeoftheMllibtutorial

发布:2022-10-16 标签:machine-learningapache-sparkapache-spark-mllib


Spark ALS predictAll 返回空

问题描述我有以下Python测试代码(ALS.train的参数在别处定义):IhavethefollowingPythontestcode(theargumentstoALS.trainaredefinedelsewhere):r1=(2,1)r2=(3,1)test=sc.pa

发布:2022-10-16 标签:machine-learningpysparkapache-sparkapache-spark-mllibrdd


如何提供 Spark MLlib 模型?

问题描述我正在评估用于基于ML的生产应用程序的工具,我们的选择之一是SparkMLlib,但我对如何在训练后提供模型有一些疑问?I'mevaluatingtoolsforproductionMLbasedapplicationsandoneofouroptionsisSparkM

发布:2022-10-16 标签:machine-learningapache-sparkapache-spark-mllib