分布式计算/Hadoop－开发者之家

问题描述我有HDSF问题。我无法复制任何文件，但是DataNodes中有足够的空间？也许我有一些不好的配置？Ican'tcopyanyfilesintoit,butIhaveamplespaceinDataNodes?MaybeIhavesomebadconfiguration?

发布：2022-09-21 标签：hadoop hdfs

问题描述所以我建立了一个hadoop2.6.0群集，我想运行一个基准来测试读写吞吐量。我一直在阅读可以使用TestDFSIO执行此操作的地方，但我无法找到在Hadoop2.6.0版上运行此程序的方法。有人知道如何运行这个测试，或者是另一种方法吗？解决方案HiBench有一个DFS

发布：2022-09-21 标签：benchmarking hadoop

问题描述创建日期ID1姓名1年龄1性别1姓名2ID2年龄2性别2ID3姓名3年龄3性别3...2014-02-011ABC21MMNP222F3XYZ25M2015-06-0611LMP31FPLL1242M13UIP37F此表可能有任何编号。重复设置4列对。这4列的顺序也不是固

发布：2022-09-21 标签：hadoop hive hiveql

问题描述假设在任何关系数据库中都有一个名为T1的表，其中包含100列以上的表。我将sqoop作为CSV导入到HDFS中。现在，表格T1中增加了10列。如果我将这些数据导入到HDFS中，新数据将会有比以前多10个列。问题：sqoop如何排序正在导入的列，以便旧数据和新数据（至少在T

发布：2022-09-21 标签：import hadoop sqoop

问题描述我试图对csv文件格式的示例数据集进行聚类。但是，当我给出下面的命令时，user@ubuntu：/usr/local/mahout/trunk$bin/mahoutkmeans-i/root/Mahout/temp/parsedtext-seqdir-sparse-kme

问题描述我的Hive版本是0.13。我有两个表，table_1和table_2table_1包含：customer_id|物品|价格|updated_date------------+-------+-------+-------------10|观看|1000|20170626

发布：2022-09-21 标签：hadoop hive

问题描述我有一个简单的文件，大小为7GB，其中包含由|.I分隔的两列的每行都创建了此文件的RDD，但是当我在此RDD上使用映射或过滤器转换时，我得到的太多字节异常。/b>下面是我的文件中的示例数据。116010100000000007|3344811601010000000001

发布：2022-09-21 标签：scala hadoop apache-spark hdfs

问题描述我试图在加入时使用表B中的一个关键字和日期以及>相应的来自表A的前一个最近日期记录加入HIVE中的2个表。例如：以下是2个输入表<----------TABLEA-------------><------------表B------------>A_idA_datecha

发布：2022-09-21 标签：join hadoop hive

问题描述我有一些MapReduce作业，我想在Java代码中进一步使用Reducer的输出文件。如何从这样的文件中读取数据，因为它位于分布式文件系统上？谢谢解决方案由于您想在简单的java代码中进一步使用Reducer的输出文件，因此您可以使用以下代码：-$/$>$b$`try{

发布：2022-09-21 标签：hadoop mapreduce hdfs

问题描述我有一台Windows732位笔记本电脑，我想在Ubuntu64位上练习Hadoop。我尝试了很多方法，但无法安装/运行Hadoop，因为它需要64位Ubuntu操作系统。如何在Windows32位笔记本电脑上安装它？解决方案美好的一天，最后，我成功地在我的Windows

发布：2022-09-21 标签：hadoop bigdata