分别使用sed和awk处理文本的双行模式

尘世中一个迷途小书童riverhwp.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

Larpenteur

博客访问： 6274498
博文数量： 2759
博客积分： 1021
博客等级：中士
技术积分： 4091
用户组：普通用户
注册时间： 2012-03-11 14:14

文章分类

全部博文（2759）

Todo（1）
Advice（151）
Linux-未分类（223）
Ubuntu（47）
Database（145）
算法&DS（77）
Android（47）
Web（214）
Geek（237）
CPPC（296）
Java（113）
Python（99）
Matlab（19）
Git（19）
SVN（11）
Gnuplot（5）
面试（0）
机器-挖掘-AI（6）
开源项目（1）
Happy Drawe（9）
Programming（144）

Tools（23）

Shell（66）

Makefile（11）

GDB（26）

vim（18）
System（628）

Author（110）

Common（4）

Memory（66）

File system（82）

Driver（19）

IO（66）

Storage（45）

General（38）

Architecture（19）

Command（64）

Kernel（115）
Virtualization（39）
Cloud（33）
Hadoop（71）
Big Data（24）
未分配的博文（100）

文章存档

2019年（1）

2017年（84）

2016年（196）

2015年（204）

2014年（636）

2013年（1176）

2012年（463）

我的朋友

最近访客

推荐博文

分别使用sed和awk处理文本的双行模式

发布时间：2013-01-15 11:56:45

文本内容：140203196407011616140203000108058140203198809161616140203000108058要求结果如下：140203196407011616,140203000108058140203198809161616,140203000108058首先看下sed代码，sed中的N操作可以追加下一行到模式空间：[root@station1 桌面]# cat data 14020319640701161614020300.........【阅读全文】

阅读(681) | 评论(0) | 转发(0)

Window7与VMWare上的CentOS文件传输

发布时间：2013-01-15 11:55:24

很无奈，在VMWare上安了一个CentOS，文件传递的方式还在采用U盘。很菜吧！哈哈我在网上查找有没有快捷的方式。有一个学友的文章值得借鉴：《VMWare CentOS中安装设置共享文件夹》 http://zhidao.baidu.com/question/399296846.html 只是我要安装.........【阅读全文】

阅读(715) | 评论(0) | 转发(0)

linux下更改文件的默认打开方式

发布时间：2013-01-15 02:23:48

在Gnome的文件管理器(nautilus)里，双击一个文件的时候，系统会自动调用相应的程序去打开这个文件。在Nautilus里通过右键菜单固然可以修改默认的打开方式，但是缺乏灵活性和可操作性，比如，不能删除一些候选的打开方式，不能批量增加一些打开方式等等。 GNMOE的打开方式的配置方式涉及到以下几个目录和文件： /usr/share/applications~/.local/share/applications/usr/share/applications/mimeinfo.cache~/.local/share/applications/mimeinfo.cache ......【阅读全文】

阅读(638) | 评论(0) | 转发(0)

用strace跟踪进程

发布时间：2013-01-15 02:21:52

linux 下，strace是很好的调试工具。strace常用来跟踪进程执行时的系统调用和所接收的信号.跟踪进程：strace -p 进程号。结合gdb 等可很好的分析程序core dump......【阅读全文】

阅读(425) | 评论(0) | 转发(0)

Hadoop的二次排序

发布时间：2013-01-15 02:21:37

hadoop的使用中，一般只关注运行结果。对于mapper和reducer之间的处理逻辑往往不care。比如key-value对到达reducer的先后顺序等目前接触到的运用场景有：1.根据用户操作时间来整理事件链，在网站分析里比较常用。需要按时间先后顺序来处理，如果过亿的访问操作全在reducer里来排序，对计算能力和内存都是一个挑战。2.海量数据处理中，求去重distinct这种操作，往往需要先缓存很大的数据集，对单个reducer的内存要求很高，特别是上亿的数据时，很容易就撑爆内存。这里如果在reducer进入前就排好序，后续处理就简单的多。二次排序相当于把一个reducer的负载推给了......【阅读全文】

阅读(414) | 评论(0) | 转发(0)

给主人留下些什么吧！~~

留言热议

请登录后留言。

登录注册

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6