Chinaunix首页 | 论坛 | 博客
  • 博客访问: 183957
  • 博文数量: 29
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 601
  • 用 户 组: 普通用户
  • 注册时间: 2013-07-03 18:51
个人简介

大数据算法,分布式技术,spark技术爱好者

文章分类

全部博文(29)

文章存档

2015年(4)

2014年(3)

2013年(22)

发布时间:2014-12-15 08:47:46

作为scala这种比较冷门的而语言,在公司里联合开发项目的时候会遇到很大的问题。如果能把java,python,scala三种模快结合在一起,并且可以调用彼此的函数,并支持原生对象的跨语言使用,那将大大的提高开发效率。我是spark的强烈爱好者,当然更是有这样的需求。最近在工程实践中搞定了这个问题,发文大家共享:scala和.........【阅读全文】

阅读(6562) | 评论(0) | 转发(0)

发布时间:2014-04-02 17:41:14

机器学习的基本分类模型:KNN,决策树,naive bayes,逻辑回归,SVM,adaboostKNN:一种直接的学习方法,通过相似的近邻投票分类。模型不确定性有三:距离度量(相似性度量),特征权重分配,投票权重。不确定性因素很多,非常依赖训练和经验,容易发生过拟合,因为参数太多。但简单直接的方法,有时候是有奇效。在某个.........【阅读全文】

阅读(5009) | 评论(0) | 转发(0)

发布时间:2013-10-21 12:48:43

数学是外部世界的抽象,只有把数学的方法和真实世界联系在一起才可以真正理解背后的思想:数学本身是算法的心脏,数学建立起了外部真实世界和抽象模型的对应。数学又是我们对自然界理解的总结升华。我们对自然界的理解却又是“抽样”!所以,数学的所有模型都是通过对自然界数据的抽样,猜想,匹配到有限的几类模型中。.........【阅读全文】

阅读(2367) | 评论(0) | 转发(2)

发布时间:2013-10-09 17:37:43

最近项目需要,研究了很久的jsoup。做个小小的总结:首先说一下jsoup是非常强大的。最常用的select(xxx[xxx~=regx])可以选择内容是某种格式的属性的某种标签。这里可以用正则表达式的。还有一个用的很少的,而且说明文档不清楚的::eq(n),:lt(n),:gt(n)这三个伪命令。n为位置序号,当前ele的下属的第一个位置的序号是0,.........【阅读全文】

阅读(2508) | 评论(0) | 转发(0)

发布时间:2013-10-09 17:17:31

regx = "#|(//s*)"这个正则表达式匹配的是所有满足#或者 任意长度空白的子字符串。但是下面这个:regx= "(//s*)|#"匹配的却是所有空白子字符串。解析的时候并不会解析|#,原因是//s*是贪婪匹配,是无限种匹配方式,如果是用有限自动机来理解,就是这个匹配要达到的状态在自循环时只有达到字符串结尾才终止。所以不会匹配.........【阅读全文】

阅读(1974) | 评论(0) | 转发(0)
给主人留下些什么吧!~~
留言热议
请登录后留言。

登录 注册