粘合ETL:如何使用AWS管理控制台将配置文件引用为额外文件?

问题描述我正在尝试使用GlueETL作为我的Python脚本的作业计划程序,该脚本还引用JSON配置文件。根据https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-glue-arguments.ht

发布:2022-10-16 标签:amazon-web-servicesconfigamazon-s3pythonaws-glue


粘合作业失败,出现`JohnSnowLabs Spark-NLP依赖项未找到‘随机错误

问题描述我正在使用AWSGlue运行一些pysparkpython代码,它有时成功,但有时失败,出现依赖错误:ResourceSetupError:Exceptioninthread"main"java.lang.RuntimeException:[unresolveddepen

发布:2022-10-16 标签:amazon-web-servicesjavaapache-sparkaws-gluejohnsnowlabs-spark-nlp


在AWS Glue中,如何对DynamicFrame中的数组中的结构元素应用解决方案选择?

问题描述如何对DynamicFrame内数组中的结构元素应用ResolveChoice?供参考的DynamicFrame架构|--ColumnA:string|--ColumnB:array||--element:struct|||--ColumnC:string|||--Col

发布:2022-10-16 标签:amazon-web-servicesaws-glue


Py4j.protocol.Py4JJava错误:调用o133.pyWriteDynamicFrame时出错

问题描述errorlogs在AWSGLU中运行自动创建的脚本时出错。因为数据为结构格式,并且存储/更改的表与之前创建的表相同。Py4j.protocol.Py4JJava错误:调用o133.pyWriteDynamicFrame时出错。:com.amazonaws.service

发布:2022-10-16 标签:aws-glue


AWS下推谓词在读取配置单元分区时不起作用

问题描述尝试测试某些粘合功能和下推谓词在S3中的Avro文件上不起作用,这些文件已分区以供在配置单元中使用。我们的分区如下:YYYY-MM-DD。importsysfromawsglue.transformsimport*fromawsglue.utilsimportgetRes

发布:2022-10-16 标签:amazon-web-servicesaws-glue


AWS Glue 3.0容器不适用于Jupyter笔记本电脑的本地开发

问题描述我正在AWS中使用Glue,并尝试在本地开发环境中进行测试和调试。我按照这里的说明https://aws.amazon.com/blogs/big-data/developing-aws-glue-etl-jobs-locally-using-a-container/在本

发布:2022-10-16 标签:amazon-web-servicesjupyter-notebookaws-glue


在PySpark中更新数据帧的某些行或创建新的数据帧

问题描述我是新手,我的目标是在AWSGlue中使用PySpark脚本:从Glue=>中的输入文件读取数据帧完成更改满足条件=>面临问题的某些行的列将同一架构上更新的数据帧写入S3=>Done任务似乎很简单,但我找不到完成它的方法,并且仍然面临着更改代码的不同问题

发布:2022-10-16 标签:pysparkdataframeaws-glue


如何在AWS-Glue脚本中编写用户定义函数?

问题描述如何在动态帧或数据帧上使用PySpark(Python)在AWS-Glue脚本中编写用户定义函数?推荐答案DynamicFrame不完全以DataframeAPI支持的方式支持UDF。您将得到的最好结果是MAP.Apply。

发布:2022-10-16 标签:pythonpysparkaws-glue


AWS Glue无法对我的数据进行分类

问题描述我有一个html文件,其结构如下:<!doctypehtmlpublic"-//w3c//dtdhtml4.0transitional//en"><html><head><metahttp-equiv="Content-Type"content="text/html;ch

发布:2022-10-16 标签:amazon-web-servicesaws-gluelogstash-grok


AWS GLue中的AWS区域

问题描述如何获取执行当前胶水作业的区域?当粘合作业开始执行时,我看到输出Detectedregioneu-central-1。在AWSLambda中,我可以使用以下行来获取当前区域:importosregion=os.environ['AWS_REGION']但是,AWS_REG

发布:2022-10-16 标签:amazon-web-servicespythonaws-glue