发博文
在信息技术的路途上

http://blog.chinaunix.net/space.php?uid=20535506

互联网流量分析与挖掘   
个人资料
  • 博客访问:213636
  • 博文数量:74
  • 博客积分:3091
  • 博客等级:中校
  • 注册时间:2007-03-11 15:40:24
订阅我的博客
  • 订阅
  • 订阅到鲜果
  • 订阅到抓虾
  • 订阅到Google
字体大小: 博文

流量处理面临的性能和数据量要求非常高,除常规的SQL数据库、数据文件外,还有下面几种类型的“数据存储机制”也值得注意:
  1.  MySQL等的内存表方式、Memcached缓存
  2.    内存数据库:开源FastDB、商业的ExtremeDB
  3.  嵌入式数据库:Bekely DB、SQL Lite
  4.  RRD数据,GreeNet准备在RRDTools的FlatFile上改为C/S型的数据库服务
  5.  NetFlow数据服务,NetFlow分析一般基于FlatFile,GreeNet也准备实现NetFlowd数据库服务器
  6.  实时数据库:FI(主要用于工业控制领域)
     

数据库性能优化,除了内部调校、表模式优化外,无非是下面三种手段及其组合:

  • 分散:将海量数据表分割成多个表,如按IP地址散列,按时间切割,实例有一些大型数据库具有分区视图功能(Oracle,MySQL 5...),很多大论坛也用这个技术存储帖子;
  • 分层(级):多级存储访问,如内存文件系统、内存数据库、memcache缓存等
  • 分布:多台机器的分布式存储,如Google

亲,您还没有登录,请[登录][注册]后再进行评论