hadoop 学习笔记——MapReduce

map函数用来按照自定义的规则在一堆数据中获取需要的数据,并以key/value的形式输出
map 到reduce 之间有个排序的过程书上用用sort表示
reduce函数用来按照 map 函数输出的按照用户的自定义规则 计算获取目标信息
hadoop 将输入的数据分为多个等长的数据(默认用哈希算法,64M),简称”分片“.
INPUT HDFS 里面的数据 -> map ->排序->存储在本地硬盘->传输(完成后会把结果自动删除)-> reduce->output HDFS
可以有多个map混洗到多个reduce
combiner:map得出结果一会可以自行计算,将各自得到的结果再传给reduce,以减少带宽和reduce的压力,但combiner并不是万能,计算平均数就不行
利用hadoop的streaming可以使用php脚本编写map reduce

发表评论