如何将行添加/追加到DaskDataFrame中的特定分区?

问题描述我想将一行追加到DaskDataFrames中的特定分区。我试过很多方法,但没有一个是可行的。有人能帮我这个忙吗。提前感谢我试过-first_partition=df.partitions[0]new_dd=first_partiton.append(row)df.par

发布:2022-10-16 标签:pythondaskdask-distributeddask-dataframedask-delayed


如果已创建dask.Distributed客户端,则xarray.open_mfdatet()不起作用

问题描述我有一个奇怪的问题,我希望能提供一些意见。基本上,我在AWSPangeoCloud上运行一台笔记本,并使用xr.open_mfdataset在S3(带有s3f)上打开一些GOES-16卫星数据。如果我根本不使用DASK,这将非常有效,因为数据集在几分钟内就构建好了。但是,

发布:2022-10-16 标签:pythondaskdask-distributedjupyterpython-xarray


正在使用--preload初始化DaskWorker中的全局任务模块?

问题描述我试图实现类似于这些问题(Initializingstateondask-distributedworkers,SettingupDaskworkerwithvariable)的内容,其中我有一个(相对)大的模型,我希望在接受需要该模型的任务的工作线程子集上预初始化该模型

发布:2022-10-16 标签:pythondaskdask-distributed


将数据分散到任务集群工作进程:未知地址方案'网关'

问题描述我正在遵循theacceptedanswertothisSOquestion上找到的代码(&q;块,然后是散布部分),但在尝试将pandas散布给工作人员时遇到奇怪的错误。DataFrame。如果重要的话,我正在使用jupyter笔记本电脑。我不确定此错误是什么意思,它非

发布:2022-10-16 标签:pythondaskjupyter-notebookdataframedask-distributed


DASK DataFrame Groupby导致一个分区内存问题

问题描述我正在将64个压缩的CSV文件(可能为70-80GB)读入到一个DASK数据帧中,然后使用聚合运行Groupby。作业从未完成,因为Groupby似乎创建了一个只有一个分区的数据框。Thispost和thispost已经解决了此问题,但重点关注计算图形,而不是在生成的数据

发布:2022-10-16 标签:group-bydaskdask-distributed


如何使自定义对象可用于传递给Daskdf.Apply的函数(无法序列化)

问题描述所有这些代码都可以在pandas中运行,但单线程运行速度很慢。我有一个创建速度很慢的对象(它是BloomFilter)。我的Dask代码类似于:defhas_match(row,my_filter):returnmy_filter.matches(a=row.a,b=ro

发布:2022-10-16 标签:daskdask-distributed


演员和蒙面工

问题描述client=Client('127.0.0.1:8786',direct_to_workers=True)future1=client.submit(Counter,workers='ninja',actor=True)counter1=future1.result()

发布:2022-10-16 标签:daskdask-distributed


DASK计算非常慢

问题描述我有一个由500万条记录组成的数据帧。我正在尝试使用下面的代码来处理它,方法是利用Python中的DaskDataFrameimportdask.dataframeasdddask_df=dd.read_csv(fullPath)............forindex,

发布:2022-10-16 标签:performancepythonpython-3.xdaskdask-distributed


如何将多个参数传递给dask.Distributed.Client().map?

问题描述importdask.distributeddeff(x,y):returnx,yclient=dask.distributed.Client()client.map(f,[(1,2),(2,3)])不起作用。[<Future:status:pending,key:f-1

发布:2022-10-16 标签:daskdask-distributed


任务坚持行为不一致

问题描述如果我注释掉此行,我发现DaskPersistent有奇怪的行为#client=Client(memory_limit='20GB',n_workers=1)#Connecttodistributedclusterandoverridedefault并执行dd_featu

发布:2022-10-16 标签:pythondaskdask-distributed