全部博文(2759)
发布时间:2013-01-15 11:56:45
文本内容:140203196407011616140203000108058140203198809161616140203000108058要求结果如下:140203196407011616,140203000108058140203198809161616,140203000108058首先看下sed代码,sed中的N操作可以追加下一行到模式空间:[root@station1 桌面]# cat data 14020319640701161614020300.........【阅读全文】
发布时间:2013-01-15 11:55:24
很无奈,在VMWare上安了一个CentOS,文件传递的方式还在采用U盘。很菜吧!哈哈 我在网上查找有没有快捷的方式。有一个学友的文章值得借鉴:《VMWare CentOS中安装设置共享文件夹》 http://zhidao.baidu.com/question/399296846.html 只是我要安装.........【阅读全文】
发布时间:2013-01-15 02:23:48
在Gnome的文件管理器(nautilus)里,双击一个文件的时候,系统会自动调用相应 的程序去打开这个文件。在Nautilus里通过右键菜单固然可以修改默认的打开方式,但是缺乏灵活性和可操作性,比如,不能删除一些候选的打开方式,不 能批量增加一些打开方式等等。 GNMOE的打开方式的配置方式涉及到以下几个目录和文件: /usr/share/applications~/.local/share/applications/usr/share/applications/mimeinfo.cache~/.local/share/applications/mimeinfo.cache ......【阅读全文】
发布时间:2013-01-15 02:21:52
linux 下,strace是很好的调试工具。strace常用来跟踪进程执行时的系统调用和所接收的信号.跟踪进程:strace -p 进程号。结合gdb 等可很好的分析程序core dump......【阅读全文】
发布时间:2013-01-15 02:21:37
hadoop的使用中,一般只关注运行结果。对于mapper和reducer之间的处理逻辑往往不care。比如key-value对到达reducer的先后顺序等目前接触到的运用场景有:1.根据用户操作时间来整理事件链,在网站分析里比较常用。需要按时间先后顺序来处理,如果过亿的访问操作全在reducer里来排序,对计算能力和内存都是一个挑战。2.海量数据处理中,求去重distinct这种操作,往往需要先缓存很大的数据集,对单个reducer的内存要求很高,特别是上亿的数据时,很容易就撑爆内存。这里如果在reducer进入前就排好序,后续处理就简单的多。二次排序相当于把一个reducer的负载推给了......【阅读全文】