Lấy dữ liệu của 1 file PDF vào java

Mình muốn lấy 1 dữ liệu trong file PDF vào java để tìm số câu và số từ.Vì vậy bạn nào biết cho mình xin với.

Đây bạn nhé PDFBox , có các clip và tut hướng dẫn đó ^^~

http://pdfbox.apache.org/

một đoạn code ví dụ

try{
PDDocument document = null;
document = PDDocument.load(new File(“test.pdf”));
document.getClass();
if( !document.isEncrypted() ){
PDFTextStripperByArea stripper = new PDFTextStripperByArea();
stripper.setSortByPosition( true );
PDFTextStripper Tstripper = new PDFTextStripper();
String st = Tstripper.getText(document);
System.out.println(“Text:”+st);
}
}catch(Exception e){
e.printStackTrace();
}

hoặc bạn cũng có thể dùng iText , cái này đôi khi có phiên bản nó xung đột với Apache POI , còn nếu bạn chạy bình thường thì Ok ^^~ , iText được dùng khá phổ biến đó .

2 Likes
83% thành viên diễn đàn không hỏi bài tập, còn bạn thì sao?