Chinaunix首页 | 论坛 | 博客
  • 博客访问: 5375930
  • 博文数量: 1144
  • 博客积分: 11974
  • 博客等级: 上将
  • 技术积分: 12312
  • 用 户 组: 普通用户
  • 注册时间: 2005-04-13 20:06
文章存档

2017年(2)

2016年(14)

2015年(10)

2014年(28)

2013年(23)

2012年(29)

2011年(53)

2010年(86)

2009年(83)

2008年(43)

2007年(153)

2006年(575)

2005年(45)

分类: Mysql/postgreSQL

2011-10-09 07:26:01

#!/usr/bin/perl

use strict;
use warnings;

use Encode;
use Encode::JP;

use FindBin;
use lib "$FindBin::Bin/../lib";

use MecabTrainer::Config;
use MecabTrainer::Utils qw(:all);
use MecabTrainer::NormalizeText;

use MongoDB;
use MongoDB::OID;

use Text::MeCab;

#init normalizer
my $conf = MecabTrainer::Config->new;

my $normalizer = MecabTrainer::NormalizeText->new(
$conf->{default_normalize_opts}
);

#init mongodb
my $conn = MongoDB::Connection->new;
my $db = $conn->twitter;
my $tweets = $db->tweets;

#init mecab
my $mecab = new Text::MeCab;


my $all_tweets = $tweets->find();
while(my $tweet = $all_tweets->next){
my $normalized_text = $normalizer->normalize($tweet->{text});
my $node = $mecab->parse($normalized_text);
my @features;
while($node){
push @features, $node->feature;
$node = $node->next;
}
pop @features; #BOS/EOSを消す
$tweets->update(
{"_id" => $tweet->{_id}},
{'$set' => {
"features" => \@features,
"text" => $normalized_text
}
}
);
}
阅读(823) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~