S3上的Spark Text文件流

问题描述文件名是否应该包含一个编号,以供teFileStream拾取?只有当文件名包含数字时,我的程序才会拾取新文件。忽略所有其他文件,即使它们是新文件。需要更改什么设置才能拾取所有文件吗?请帮帮忙推荐答案花了几个小时分析堆栈跟踪后,我发现问题出在S3地址。我提供的是"s3://

发布:2022-10-16 标签:spark-streaming


将可迭代转换为RDD

问题描述我想从火花流到几个弹性搜索索引。我创建了成对的<key(index),value>,当我执行groupByKey时,结果是<key(index),Iterable<value>>的元组,但为了使用ElasticSearch-Spark插件保存到ElasticSearch,

发布:2022-10-16 标签:javaelasticsearchapache-sparkspark-streamingelasticsearch-plugin


为什么当我发送两个输入流时,Spark Streaming停止工作?

问题描述我正在开发一个Spark流应用程序,其中我需要使用来自两个服务器的输入流,每个服务器每秒向Spark上下文发送一条JSON消息。我的问题是,如果我只在一个流上执行操作,一切都运行得很好。但如果我有来自不同服务器的两个流,那么Spark在可以打印任何东西之前冻结,并且只有在

发布:2022-10-16 标签:javasocketsapache-sparkspark-streaming


Build.sbt:如何添加Spark依赖项

问题描述您好,我正在尝试下载以下Build.sbt文件中的spark-core、spark-streaming、twitter4j和spark-streaming-twitter:name:="hello"version:="1.0"scalaVersion:="2.11.8"l

发布:2022-10-16 标签:scalaapache-sparkspark-streamingsbt


使用Spark在Python中运行独立应用程序示例时出错

问题描述我刚刚开始使用Spark,并在AmazonEC2实例上以独立模式运行它。我正在尝试文档中提到的示例,在查看这个名为SimpleApp的示例时,我不断收到以下错误:NameError:未定义名称‘Numas’frompysparkimportSparkContextlogF

发布:2022-10-16 标签:pythonapache-sparkspark-streaming


分析异常:流式数据帧/数据集不支持非基于时间的窗口;;尽管存在基于时间的窗口

问题描述我正在对电光结构化流进行窗口排序:valfilterWindow:WindowSpec=Window.partitionBy("key").orderBy($"time")controlDataFrame=controlDataFrame.withColumn("Make

发布:2022-10-16 标签:scalaapache-sparkspark-streaming


在Scalas中使用来自Rabbitmq的消息时清空RDD

问题描述下面是消费RabbitMQ消息的电光流媒体代码。importjava.io.{BufferedReader,InputStreamReader}importjava.net.Socketimportjava.nio.charset.StandardCharsetsimpo

发布:2022-10-16 标签:scalarabbitmqapache-sparkspark-streaming


如何在转换为DF时将Kafka中的时间戳添加到Spark Streaming

问题描述我在做卡夫卡的火花直播。我想把我的RDD从卡夫卡转换成数据帧。我正在使用以下方法。ValSSC=newStreamingContext("local[*]","KafkaExample",Second(4))valkafkaParams=Map[String,Object

发布:2022-10-16 标签:spark-streaming


SparkConext.text文件可以与自定义接收器一起使用吗?

问题描述我正在尝试实现一个使用自定义接收器从SQS读取消息的流作业。每封邮件都包含对S3文件的单个引用,然后我希望读取、解析该文件并将其存储为ORC。以下是我到目前为止拥有的代码:valsc=newSparkContext(conf)valstreamContext=newStr

发布:2022-10-16 标签:scalaapache-sparkspark-streaming


电光独立版:传输请求处理程序:调用RpcHandler时出错-在不同计算机/VM上启动工作程序时

问题描述我在这方面完全是新手,如果有明显的错误,请原谅。精确错误:《在奴隶》:InfoTransportClientFactory:69毫秒后成功创建到/10.2.10.128:7077的连接(0毫秒用于引导)警告工作进程:无法连接到主10.2.10.128:7077在Maste

发布:2022-10-16 标签:apache-sparkspark-streaming