更新:如何从DaskDataFrame转换/解析字符串日期

问题描述更新:我能够执行转换。下一步是将其放回ddf。我按照书中的建议所做的是:日期已分析并存储为单独的变量。使用删除了原始日期列ddf2=ddf.drop('date',axis=1)使用Assign追加新的分析日期ddf3=ddf2.assign(date=parsed_da

发布:2022-10-16 标签:pythondatetimepandasdaskdask-dataframe


COMPUTE()在Dask中做什么?

问题描述我是新接触DASK的,我不了解COMPUTE()方法在DASK中到底做什么?它是在调用对象的地方打印对象的方法吗?我已经阅读了其网站上的文档,但不确定是否理解了术语"具体的价值"和"懒惰的任务"。您可以通过调用.Compute()方法或dask.Compute(...)将

发布:2022-10-16 标签:pythondask


如何将行添加/追加到DaskDataFrame中的特定分区?

问题描述我想将一行追加到DaskDataFrames中的特定分区。我试过很多方法,但没有一个是可行的。有人能帮我这个忙吗。提前感谢我试过-first_partition=df.partitions[0]new_dd=first_partiton.append(row)df.par

发布:2022-10-16 标签:pythondaskdask-distributeddask-dataframedask-delayed


任务,根据下一行添加新列

问题描述我有这个DASK数据框,最后一列是这个问题的重要信息:DaskDataFrameStructure:asks[0].amountasks[1].amountasks[2].amountasks[3].amountasks[4].amountasks[5].amountas

发布:2022-10-16 标签:pythonpandasdaskdask-dataframe


达斯克:真正懒惰地分类

问题描述如果我有一个具有未知分区的数据集,并且希望根据列对其进行排序并将其输出到Parquet,则在我看来,Dask至少会执行两次部分工作:importdaskimportdask.dataframeasdddefmy_identity(x):"""Doesnothing,but

发布:2022-10-16 标签:pythonsortingpandasdaskdask-dataframe


Daskmap_Partitions(pd.Cut、bins)实际上会对整个数据帧进行操作吗?

问题描述我需要在DaskDataFrame上使用pd.Cut。Thisanswer指示map_artitions将通过将pd.Cut作为函数传递来工作。似乎map_artitions一次只将一个分区传递给该函数。但是,pd.Cut需要访问我的df的整个列才能创建回收站。因此,我的

发布:2022-10-16 标签:pythondask


如何在合并1000多个文件时将CSV文件的名称作为值添加到一列中?

问题描述我正在尝试使用以下代码合并1000多个CSV文件:path=r'path_to_files/'all_files=glob.glob(path+"/*.csv")importshutilwithopen('updated_thirteen_jan.csv','wb')as

发布:2022-10-16 标签:pythoncsvpandasdaskshutil


DASK计算过去n天的分组滚动平均值,并分配给原始数据帧

问题描述我正试图通过在DASK中滚动均值逻辑来复制下面的pandas群体。但停留在1)如何指定时间段(以天为单位)和2)如何将其分配回原始帧?df['avg3d']=df.groupby('g')['v'].transform(lambdax:x.rolling('3D').me

发布:2022-10-16 标签:pythondask


DASK FROM_ARRAY将类型转换为对象

问题描述我有以下代码,可以从一个数组创建一个DaskDataFrame。问题是所有类型都被转换为Object。我试图指定元数据,但找不到方法。如何在FROM_ARRAY中指定META?b=np.array([(1.5,2,3,datetime(2000,1,1)),(4,5,6,

发布:2022-10-16 标签:pythonpandasdasknumpy


如果已创建dask.Distributed客户端,则xarray.open_mfdatet()不起作用

问题描述我有一个奇怪的问题,我希望能提供一些意见。基本上,我在AWSPangeoCloud上运行一台笔记本,并使用xr.open_mfdataset在S3(带有s3f)上打开一些GOES-16卫星数据。如果我根本不使用DASK,这将非常有效,因为数据集在几分钟内就构建好了。但是,

发布:2022-10-16 标签:pythondaskdask-distributedjupyterpython-xarray