分类存档: Hadoop

hadoop 学习笔记——HADOOP I/O[压缩,序列化]

//HDFS数据完整性
线管中最后一个datanode 负责检验校验和
客户端从datanode读取数据时也会校验
每个datanode也会在后台线程定期运行一个DataBlockScanner用来校验
继续阅读 »

Hadoop命令手册(收集中)

启动/关闭

sh bin/start-all.sh

sh bin/stop-all.sh

继续阅读 »

为了学习 hadoop , 花了一个星期去恶补java基础

作为一个phper,不懂java很正常~~作为一个phper,搞hadoop却很不正常。哈哈 不过我喜欢研究集群的知识。只要还有激情,没有任何困难可以停止我的脚步。

花了一个多星期去刷了500页的java基础的pdf,因为有php的基础,学起来挺快的,不过java更加贴近处理cpu,管道,进程之类的,有点吃力。 继续阅读 »

hadoop与java相关的几个基础问题

第一个问题是:

当启动hadoop时,会报如下错误:

starting namenode, logging to /home/june/hadoop-0.21.0/bin/../logs/hadoop-root-namenode-june-bjtu.out

localhost: Error: JAVA_HOME is not set.

localhost: Error: JAVA_HOME is not set. 继续阅读 »

hadoop 与 java 的环境变量设置

hadoop权威指南第三章3.5.1的URL读取例子

首先必须编译源文件,编译前确保要导入系统类

编辑/etc/profile

export JAVA_HOME=/usr/lib/jvm/jre-1.6.0-openjdk

export HADOOP_HOME=/usr/local/hadoop 继续阅读 »

hadoop 学习笔记——HDFS文件系统

特点:一次写入,多次读取

不适合的领域:

1.低时间延迟的数据访问

2.大量小文件

3.多用户写入,任意修改文件 继续阅读 »

php 编写 mapreduce 入门[转]

用PHP写hadoop的mapreduce程序

Hadoop本身是Java写的,所以,给hadoop写mapreduce,人们会自然地想到java

但hadoop里面有个contrib叫做hadoop streaming,这是一个小工具,为hadoop提供streaming支持,使得任何支持标准IO (stdin, stdout)的可执行程序都能成为hadoop的mapper 或者 reducer

例如:hadoop jar hadoop-streaming.jar -input SOME_INPUT_DIR_OR_FILE -output SOME_OUTPUT_DIR -mapper /bin/cat -reducer /usr/bin/wc 继续阅读 »

hadoop 学习笔记——MapReduce

map函数用来按照自定义的规则在一堆数据中获取需要的数据,并以key/value的形式输出

map 到reduce 之间有个排序的过程书上用用sort表示

reduce函数用来按照 map 函数输出的按照用户的自定义规则 计算获取目标信息

hadoop 将输入的数据分为多个等长的数据(默认用哈希算法,64M),简称”分片“. 继续阅读 »