大数据测试需要准备的测试数据跟普通数据测试主要区别是数据量的大小,靠手工写 1G、10G、100G 等体量的数据的难度很大,所以大家都想到用脚本来写一个造数的工具,本文主要介绍基于 hadoop 自带的造数工具来实现自己造数的需求。
造数的核心代码是 map 阶段:
```java demo
public static class SortDemoMapper extends Mapper {
private Text key = new Text();
private Text value = new Text();文章源自玩技e族-https://www.playezu.com/183748.html
public SortDemoMapper() {
}文章源自玩技e族-https://www.playezu.com/183748.html
public void map(LongWritable row, NullWritable ignored, Mapper.Context context) throws IOException, InterruptedException {文章源自玩技e族-https://www.playezu.com/183748.html
this.key.set("name:");//数据可以改成自己需要的格式
this.value.set("wangyi,age:15,sex:1rn");//数据可以改成自己需要的格式,输出结果可以是 Text,Text,还可以改成 Text,NullWritable 等其他格式,
context.write(this.key, this.value);文章源自玩技e族-https://www.playezu.com/183748.html
}
}文章源自玩技e族-https://www.playezu.com/183748.html
对应的文件的输入也需要进行变化,当然也可以直接使用GenSort自带的InputFormatClass、OutputFormatClass,在图1电脑配置情况下本地运行造数工具,造数 64,424,509,448 字节,运行时间23分钟左右如图2,打成jar包在hadoop集群上的运行时间后期再补充 。
![](/uploads/photo/2022/cdfb512c-c88a-4181-be7a-5782ff11dfe5.png!large)
![](/uploads/photo/2022/9b8a2be2-7a20-440b-9807-1ed0f1123938.png!large)
整体代码上传git再同步
软件功能测试文档文章源自玩技e族-https://www.playezu.com/183748.html 文章源自玩技e族-https://www.playezu.com/183748.html
未知地区 1F
设备信息如图 1,造数时间如图 2