2014.11.08

Hadoop note

hadoop笔记

###mapper reducer的由来。计算文本单词出现的个数，分开计算，分开合成。

###组件

###基础主从分布模式！数据以key-value为基础，存在hdfs的文件系统上。保持冗余，数据分散存储！

###map reduce

mapper。reducer。两步！

###具体实现： ####文件系统 hdfs文件系统！和普通文件系统使用起来很像！ ####hadoop数据类型。 value是writable，key是writableComparable。都必须支持序列化！

####主要的类

mapper。实现map方法！
reducer。实现reduce方法！
partitioner。将key映射！
combiner。优化合并。
inputformat。inputsplit与recordreader：提供文件分片（inputformat），将文件分片映射成键值对（recordreader）。
outputformat。

####对数据流的理解输入、中间结果、输出的键值对对k1,v1;k2,v2;k3,v3.

####其它