Chinaunix首页 | 论坛 | 博客
  • 博客访问: 386031
  • 博文数量: 284
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 1707
  • 用 户 组: 普通用户
  • 注册时间: 2014-05-14 16:38
文章分类

全部博文(284)

文章存档

2015年(6)

2014年(278)

我的朋友

分类: Java

2014-10-10 14:35:57

import java.io.*;
import org.pdfbox.pdmodel.PDDocument;
import org.pdfbox.pdfparser.PDFParser;
import org.pdfbox.util.PDFTextStripper;


public class PDFReader {
 
 public static String file_path = "F:/pdf/网易技术部的MySQL中文资料.pdf";
 // 获取PDF内纯文本信息
 public String GetTextFromPdf(String filename) throws Exception
 {
  FileInputStream instream = new FileInputStream(filename);    // 根据指定文件创建输入流
  PDFParser parser = new PDFParser( instream );                // 创建PDF解析器
  parser.parse();                                              // 执行PDF解析过程
  
  PDDocument pdfdocument = parser.getPDDocument();             // 获取解析器的PDF文档对象
  PDFTextStripper pdfstripper = new PDFTextStripper();         // 生成PDF文档内容剥离器
  String contenttxt = pdfstripper.getText(pdfdocument);        // 利用剥离器获取文档
  
  System.out.println("文件长度 : "+ contenttxt.length() +"\n");
  return contenttxt;
  
 }
 
 public static void main(String args[])
 {
  PDFReader pdfbox=new PDFReader();                        // 生成PDFBoxHello对象
  try{
                                                            // 获取文档纯文本内容
   String doctext = pdfbox.GetTextFromPdf(file_path);
   System.out.println("文件内容 : ");   
   System.out.println(doctext);
   System.out.println("文件结束 . ");   
  } catch(Exception e){
   e.printStackTrace();
  }
 }
}

1. [图片] pdf.png    


阅读(1134) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~