发博文
wxlinux

http://blog.chinaunix.net/space.php?uid=20509366

linux第二人生   
个人资料
  • 博客访问:22892
  • 博文数量:26
  • 博客积分:2010
  • 博客等级:大尉
  • 注册时间:2007-07-27 22:41:41
订阅我的博客
  • 订阅
  • 订阅到鲜果
  • 订阅到抓虾
  • 订阅到Google
字体大小: 博文
分类: php

<?
 $my_book_url='http://book.yunxiaoge.com/files/article/html/4/4550/index.html';
 ereg("http://book.yunxiaoge.com/files/article/html/[0-9]+/[0-9]+/",$my_book_url,$myBook);
 $my_book_txt=$myBook[0];
 $file_handle = fopen($my_book_url, "r");//读取文件
 unlink("test.txt");
 while (!feof($file_handle)) { //循环到文件结束
    $line = fgets($file_handle); //读取一行文件
    $line1=ereg("href=\"[0-9]+.html",$line,$reg); //分析文件内部书的文章页面
       $handle = fopen("test.txt", 'a');
   if ($line1) {
     $my_book_txt_url=$reg[0]; //另外赋值,给抓取分析做准备  
   $my_book_txt_url=str_replace("href=\"","",$my_book_txt_url);
      $my_book_txt_over_url="$my_book_txt$my_book_txt_url"; //转换为抓取地址
      echo "$my_book_txt_over_url</p>";  //显示工作状态
      $file_handle_txt = fopen($my_book_txt_over_url, "r");  //读取转换后的抓取地址
      while (!feof($file_handle_txt)) {
       $line_txt = fgets($file_handle_txt);
       $line1=ereg("^&nbsp.+",$line_txt,$reg); //根据抓取内容标示抓取
       $my_over_txt=$reg[0];
       $my_over_txt=str_replace("&nbsp;&nbsp;&nbsp;&nbsp;","    ",$my_over_txt); //过滤字符
       $my_over_txt=str_replace("<br />","",$my_over_txt);
       $my_over_txt=str_replace("<script language=\"javascript\">","",$my_over_txt);
       $my_over_txt=str_replace("&quot;","",$my_over_txt);
       if ($line1) {
         $handle1=fwrite($handle,"$my_over_txt\n"); //写入文件
       }  
      }
    }
 }
 fclose($file_handle_txt);
 fclose($handle);
 fclose($file_handle); //关闭文件
 echo "完成</p>";
?>

[发评论] 评论 重要提示:警惕虚假中奖信息!
  • chinaunix网友 2009-06-19 18:08
    php教程 http://www.sknys.cn
亲,您还没有登录,请[登录][注册]后再进行评论