Chinaunix首页 | 论坛 | 博客
  • 博客访问: 103582
  • 博文数量: 35
  • 博客积分: 1845
  • 博客等级: 上尉
  • 技术积分: 394
  • 用 户 组: 普通用户
  • 注册时间: 2007-09-17 17:06
文章分类

全部博文(35)

文章存档

2013年(2)

2012年(2)

2011年(24)

2010年(3)

2009年(4)

我的朋友

分类: Java

2011-08-02 11:44:36

1 介绍:嵌入式机器学习,在自己的算法中调用Weka实现文本分类,是一个小的数据挖掘程序,虽然实用价值不是很大,但对于Weka的理解和使用是有帮助的。本例子来自《数据挖掘:实用机器学习技术》第2版。大家可以到本站(http://huangbo929.blog.edu.cn[/url])下载该书察看对算法的详细解释。算法中作了详细的注释,虽然是英文的,但还是比较简单。下面对例子的使用作了浅显的介绍,有兴趣的朋友可以研究。

2 功能:使用weka中的j48分类器实现了文本分类的一个小程序。文本文件通过weka的过滤器StringToWordVector预处理。
3 注意:把weka.jar加入你的classpath中,才可以通过编译。
wjtaTO&n|[ 
4 使用方法:  
命令行参数:
-t 文本文件路径
-m 你的模型文件路径 
-c 可选,类别(hit 或 miss)
如果提供了-c则用于训练,否则被模型分类,输出该文本的类型(hit或miss)
模型是动态建立的,第一次使用命令行必须指定-c参数,才可以建立模型。
1) 建立模型  
>java MessageClassifier -t data/1.bmp -m myModel -c hit
可以看到myModel建立了。然后继续训练一下这个模型。使用的文本实例越多,模型的分类性能越好 q)f ^OuC 
>java MessageClassifier -t data/2.bmp -m myModel -c hit
>java MessageClassifier -t data/1.gif -m myModel -c miss
 
2) 使用模型分类
有了模型,就可以使用它为文本文件分类了,如
>java MessageClassifier -t data/2.gif -m myModel
3) 可以使用提供-c参数的命令继续完善模型

原文地址:http://www.5iai.com/blog/blog.php?do=showone&uid=3&type=blog&cid=&itemid=200


 

阅读(406) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~