何谓算法-broadviewbj-ChinaUnix博客

broadviewbroadview.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

broadviewbj

博客访问： 1557938
博文数量： 465
博客积分： 8915
博客等级：中将
技术积分： 6365
用户组：普通用户
注册时间： 2010-07-30 15:05

文章分类

全部博文（465）

Mesos（2）
node.js（1）
司南阁（0）
TensorFlow（1）
运维（1）
JavaScript（2）
python（1）
Docker（1）
游戏（3）
Linux（1）
大数据（5）
互联网（1）
硬件安全（1）
iOS（2）
编程（1）
WebSocket（1）
编程（1）
架构（3）
Appium（1）
Spark（1）
Android（2）
Web前端（1）
IT图书（25）
操作系统（0）
操作系统（0）
网站数据分析（2）
大数据（9）
云计算（4）
编程技术（19）
开源技术（10）
非技术（5）
网络安全（8）
硬件（1）
未分配的博文（349）

文章存档

2017年（33）

2016年（2）

2015年（4）

2014年（29）

2013年（71）

2012年（148）

2011年（178）

我的朋友

最近访客

推荐博文

何谓算法

分类： IT业界

2011-08-17 17:24:31

何谓算法

之前反复说过，要处理的数据越大，算法和数据结构的选择对速度的影响也就越大。首先看个简单的例子。假设要从数据中使用线性查找（Linear Search），从头开始依次查找所需数据，那么如果有1000条数据，那就需要反复查找数据直至找到为止，这个算法最多要进行1000次查找。对于n条数据要进行n次搜索，因此称为O(n)算法。

而“二分查找”（binary search）算法能在log n次之内查找n条数据，是O(log n)算法。使用二分查找，1000条数据最多只需10次就能查找完。

这个“最大查找次数”可以大致判断计算次数，称为复杂度。一般来说，复杂度越低，算法就越快。

n=1000时，O(n)的最大查找次数为1000，而O(log n)为10，计算次数差距为990。n再大些会怎样呢？若是100万条数据，O(n)需要100万次，而O(log n)只需20次。即使是1000万条，O(log n)也只需24次。很明显，与O(n)相比，O(log n)更能承受数据量的增加。

请以大规模数据为前提思考一下。数据量较小时，即使使用O(n)这种简单算法，计算量也不会太大，因此没什么太大问题。但随着数据量的增加，算法选择的差异就越来越大。在数据搜索处理中，使用线性查找的话，数据量增大到1000条、100万条、1000万条时……显然会成为瓶颈。而解决该瓶颈的方法就是选择复杂度更低的查找算法，这也是不言而喻的。

讲述Hatena的服务之前，首先了解一下算法的基本思路吧。

“算法”是什么？重新来考虑一下。根据《アルゴリズムイントロダクション改訂2版第1巻数学的基礎とデータ構造》^{^[1]}（近代科学社、2007年），算法（algorithm）就是明确定义的（well-defined）、以某个值或值的集合为输入（input）、以某个值或值的集合为输出（output）的计算步骤。

——引用自《アルゴリズムイントロダクション改訂２版第１巻数学的基礎とデータ構造》（Thomas H.Cormen/Charles E.Leiserson/Ronald L. Rivest/Clifford Stein著、浅野哲夫/岩野和生/梅尾博司/山下雅史/和田幸一译，近代科学社，2007年）第5页