Chinaunix首页 | 论坛 | 博客
  • 博客访问: 101902
  • 博文数量: 20
  • 博客积分: 648
  • 博客等级: 上士
  • 技术积分: 222
  • 用 户 组: 普通用户
  • 注册时间: 2010-10-02 11:43
文章分类

全部博文(20)

文章存档

2013年(3)

2012年(8)

2011年(7)

2010年(2)

我的朋友

发布时间:2013-09-07 18:12:37

simhash 文本相似......【阅读全文】

阅读(2175) | 评论(0) | 转发(0)

发布时间:2013-03-25 00:19:30

介绍hive的用户自定义聚合函数(UDAF)是一个很好的功能,集成了先进的数据处理。hive有两种UDAF:简单和通用。顾名思义,简单的UDAF,写的相当简单的,但因为使用Java反射导致性能损失,而且有些特性不能使用,如可变长度参数列表。通用UDAF可以使用所有功能,但是UDAF就写的比较复杂,不直观。本文只介绍通用UD.........【阅读全文】

阅读(2118) | 评论(0) | 转发(0)

发布时间:2013-02-18 12:11:21

最近研究Mahout比较多,特别是里面协同过滤算法;于是把协同过滤算法的这个实现思路与数据流程,总结了一下,以便以后对系统做优化时,有个清晰的思路,这样才能知道该如何优化且优化后数据亦能正确。      推荐中的协同过滤算法简单说明下:      首先,通过分析用户的.........【阅读全文】

阅读(1428) | 评论(0) | 转发(0)

发布时间:2012-12-23 00:09:49

本代码采用关键字匹配的方法,过滤出国内主流的浏览器以及对应的内核、操作系统以及硬件类型(主要针对Android手机)说明:由于好多浏览器试图去兼容其他类型的浏览器,所以会在UA中写血多其他兼容的浏览器信息,所以本代码中对这种类型的浏览器做了一下判断,选择了最外层的浏览器:比如QQBrowser使用IE内核;而Maxthon兼容Chrome,Chrome兼容safari;内核也是如此。 点击(此处)折叠或打开class UAParse:        def __init__(self):  &......【阅读全文】

阅读(5474) | 评论(0) | 转发(0)

发布时间:2012-12-16 17:16:17

1,确保创建索引$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/lib/hadoop-lzo-0.4.10.jar  com.hadoop.compression.lzo.DistributedLzoIndexer /user/hive/warehouse/flog2 如果在hive中新建外部表的语句为CREATE EXTERNAL TABLE foo ( columnA string, columnB string ) PARTITIONED BY (date string)......【阅读全文】

阅读(3427) | 评论(0) | 转发(0)
给主人留下些什么吧!~~
留言热议
请登录后留言。

登录 注册