Chinaunix首页 | 论坛 | 博客
  • 博客访问: 4049878
  • 博文数量: 272
  • 博客积分: 7846
  • 博客等级: 少将
  • 技术积分: 6476
  • 用 户 组: 普通用户
  • 注册时间: 2009-08-25 16:27
文章分类

全部博文(272)

分类:

2010-04-07 07:29:08

http://blog.csdn.net/twosecond/archive/2009/06/22/4289052.aspx

    function inDB($words,$year){
        $mysql_server_name="localhost"; //数据库服务器名称
        $mysql_username="root"; // 连接数据库用户名
        $mysql_password=""; // 连接数据库密码
        $mysql_database="ljj"; // 数据库的名字
        // 连接到数据库
        $conn=mysql_connect($mysql_server_name, $mysql_username,$mysql_password);
        // 执行sql查询
        foreach($words as $word){
            // 从表中提取信息的sql语句
            $strsql = "INSERT INTO `ljj`.`tongji` ( `id` , `word` , `year` ) VALUES ( NULL , '".$word[$i]."', '".$year."' )";
            $result = mysql_db_query($mysql_database, $strsql, $conn);
        }
        
    }

    echo "starttime is".date("Y-m-d H:i:s").'
';
    $url_o[] = '';
//    $i = 1;
//    while($i <= 2884){
    //    $url[] = $url_o."$i";
    //}
    foreach($url_o as $link){
        $flag = 0;
        while( ( $contents = file($link)) == FALSE ){
            $flag++;echo "flag=$flag
";
            if($flag > 3) return 0;
        }
        foreach($contents as $string){
            if(($tmp = trim(strip_tags($string))) == '')continue;
            $result[] = $tmp;
        }
    }
        //提取关键词
        $start = array_search("【中文关键词】",$result);
        $end = array_search("【英文关键词】",$result)-1;
       
        while($start++ < $end ){
            $keywords[] = substr($result[$start],0,strlen($result[$start])-1).'
';
        }

        //提取年份
        $start = array_search("【文献出处】",$result);
        $end = array_search("【中文关键词】",$result)-1;
        $paperyear = substr($result[$end],0,4).'
';
       
        if(count($keywords) == 0 || $paperyear <= 2000) {echo '数据有误,跳过此文章
';}
        else{
            inDB($keywords,$paperyear);
            echo '保存成功
';
         }
    echo "endtime is".date("Y-m-d H:i:s");
?>
 
阅读(1095) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~