Hadoop

hadoop 学习笔记——HADOOP I/O[压缩，序列化]

2012年10月7日2012年10月7日 gax 评论

//HDFS数据完整性
线管中最后一个datanode 负责检验校验和
客户端从datanode读取数据时也会校验
每个datanode也会在后台线程定期运行一个DataBlockScanner用来校验
继续阅读

Hadoop命令手册（收集中）

2012年10月4日2012年10月4日 gax 评论

启动/关闭
sh bin/start-all.sh
sh bin/stop-all.sh
继续阅读

为了学习 hadoop ，花了一个星期去恶补java基础

2012年10月4日2012年10月4日 gax 评论

作为一个phper，不懂java很正常~~作为一个phper，搞hadoop却很不正常。哈哈不过我喜欢研究集群的知识。只要还有激情，没有任何困难可以停止我的脚步。
花了一个多星期去刷了500页的java基础的pdf，因为有php的基础，学起来挺快的，不过java更加贴近处理cpu，管道，进程之类的，有点吃力。继续阅读

hadoop 与 java 的环境变量设置

2012年10月4日2012年10月4日 gax 评论

hadoop权威指南第三章3.5.1的URL读取例子
首先必须编译源文件,编译前确保要导入系统类
编辑/etc/profile
export JAVA_HOME=/usr/lib/jvm/jre-1.6.0-openjdk
export HADOOP_HOME=/usr/local/hadoop 继续阅读

用PHP写hadoop的mapreduce程序
Hadoop本身是Java写的，所以，给hadoop写mapreduce，人们会自然地想到java
但hadoop里面有个contrib叫做hadoop streaming，这是一个小工具，为hadoop提供streaming支持，使得任何支持标准IO (stdin, stdout)的可执行程序都能成为hadoop的mapper 或者 reducer
例如：hadoop jar hadoop-streaming.jar -input SOME_INPUT_DIR_OR_FILE -output SOME_OUTPUT_DIR -mapper /bin/cat -reducer /usr/bin/wc 继续阅读

hadoop 学习笔记——MapReduce

2012年9月28日2012年9月28日 gax 评论

map函数用来按照自定义的规则在一堆数据中获取需要的数据，并以key/value的形式输出
map 到reduce 之间有个排序的过程书上用用sort表示
reduce函数用来按照 map 函数输出的按照用户的自定义规则计算获取目标信息
hadoop 将输入的数据分为多个等长的数据（默认用哈希算法,64M），简称”分片“. 继续阅读

CentOS下Hadoop安装配置教程

2012年9月23日2012年9月23日 gax 评论

1、安装JDK
（1）下载安装JDK：确保计算机联网之后命令行输入下面命令安装JDK
sudo apt-get install sun-java6-jdk
（2）配置计算机Java环境：打开/etc/profile，在文件最后输入下面内容
export JAVA_HOME = （Java安装目录）
export CLASSPATH = “.:$JAVA_HOME/lib:$CLASSPATH”
export PATH = “$JAVA_HOME/:PATH”
（3）验证Java是否安装成功
输入 java -version ，输出Java版本信息即为安装成功。继续阅读

标签：Hadoop

hadoop 学习笔记——HADOOP I/O[压缩，序列化]

Hadoop命令手册（收集中）

为了学习 hadoop ，花了一个星期去恶补java基础

hadoop 与 java 的环境变量设置

php 编写 mapreduce 入门[转]

hadoop 学习笔记——MapReduce

CentOS下Hadoop安装配置教程