分类: 数据库开发技术
2012-11-28 14:50:18
在Main函数里使用System.out标准输出和System.err标准错误输出,输出定向到执行程序节点的终端上。即在完全分布的Hadoop部署中,输出会定向到启动程序的节点的终端上。
Mapper针对每个split,会实例化一个Mapper对象作为一个task,在Hadoop集群中的某个机器中的某个Map槽上执行。Mapper对象中的map函数和configure函数会被主程序以RPC方式调用。因此,在Mapper对象中System.out和System.err输出的结果并不会定向到执行程序节点的终端上。这样的话,查看Mapper中的输出只有以下两种方法:
在jobtracker的Web页面查看,默认绑定到50030端口。然后根据jobid进入job详情页面,然后进入map详情的页面,可以看到本次job执行的map task的列表。进入任意一个然后查看Task Logs可以看到对应的map task的stdout logs和stderr logs,分别就是System.out和System.err输出的内容。
进入执行某个map任务的节点,在
Reducer的情况和Mapper差不多,参照Mapper的方法查看。
Eclipse在使用eclipse和本地搭建的伪分布环境中调试程序,System.out和System.err输出都会定向到eclipse的终端中。但在本地伪分布环境中直接jar执行时只显示main的输出。可能eclipse的hadoop插件使用了某种方法,尚未分析。
2. 计数器对于大型分布式作业而言,使用计数器更为方便,因为:
计数器由其关联任务维护,并定期传到tasktracker,再由tasktracker传给jobtracker。因此,计数器能够被全局地聚集。一个task的局部计数器值每次都是完整的汇报,而不是在上次汇报的基础上再汇报当前的增量,这样以避免由于消息丢失而引发的错误。并且,当task失败时,全局计数器就会减去失败task的局部计数器的值。近当一个task执行成功后,其局部计数器的值才是完整可靠的。
Hadoop本身为每个job维护若干个内置计数器,以描述该作业的各项指标。
用户定义计数器用户可编写程序定义自己的计数器,计数器的值可在mapper和reducer中增加。一组计数器可由枚举类型定义,枚举类型的名称即为组的名称。组内的若干个计数器可由枚举类型的字段定义,字段名就是计数器的名称。
如下在全局定义一组计数器Temperature,组内有两个计数器MISSING和MALFORMED:
enum Temperature { MISSING, MALFORMED }然后在mapper或MALFORMED中可以使用Reporter的
public void incrCounter(String group, String counter, long amount)方法增加计数器的值:reporter.incrCounter(Temperature.MISSING, 1); reporter.incrCounter(Temperature.MALFROMED, 1); 动态计数器动态计数器不必使用枚举类型预先定义计数器,而只要在执行的时候动态的创建计数器。这只需使用Reporter的
public void incrCounter(String group, String counter, long amount)方法即可。计数器值的获取在Hadoop作业执行时,mapper和reducer可使用Reporter的以下两个方法获取当前计数器。
public Counter getCounter(Enum> name); public Counter getCounter(String group, String name);在Hadoop作业执行完毕后,终端中会返回程序的各个计数器的值。此外,还有两种方法获取到计数器的值:
在jobtracker的Web页面中查看每个job和job中的每个task的计数器值。
使用命令获取计数器的值:
hadoop job -counter [-counter ]在Map和Reduce中可使用reporter.setStatus("Error")设置每个task状态,这在jobtracker Web中可以查看。
4. 使用输出文件输出调试信息还有一种方法,就是利用Reducer的输出,利用中的key来区分正常输出和调试输出,把调试信息输出到文件里。详见参考3.
参考