Tôi có thóiquen dịch sách từ các file PDF. Điều khó nhiều công cụhỗ trợ dịch như OmegaT lại không hỗ trợ file có đuôilà PDF. Điều đó, gây mất thời gian và bất tiện vìthế tôi cố gắng tra cứu trên mạng cách chuyển file PDFsang *.doc hoặc *.txt nhưng không hiệu quả. Kết quảgoogle trả về thường là phần mềm Online hoặc phần mềmWindows. Cuối cùng, cũng có cách để giải quyết trênLinux. Có hai cách để thực hiện:Cách1: Tách tất cả các chữ từ file PDFs (bao gồm cả chữtrong hình)
Đâylà hướng dẫn sẽ giải thích cách để tách tất cảcác chữ từ file PDF bằng cách sử dụng phối hợpGhostscript và công cụ mã lệnh OCR gọi làtesseract-ocr. Đầu tiền cần chuyển PDF sang file hìnhảnh riêng lẻ (TIFF ) sau đó chúng ta có thể dùng OCR-quét chúng trở lại. Chúng ta cần Ghostscript để làmđiều này. Trước tiên, bạn cần chắc chắn đã cài nólên hệ thống.
Mã:
sudo apt-get install ghostscript
Khi đó, chúng ta có thể dùng Ghostscript để thực sự chuyển PDF hãy sử dụng ps
Mã:
gs -dNOPAUSE -sDEVICE=tiffg4 -r600x600 -dBATCH -sPAPERSIZE=a4 -sOutputFile=Output_File_Name.tif Name_of_PDF.pdf
Chúng ta cần đổi ở đây là tên của file PDF và tên file đầu ra tương ứng với "Name_of_PDF.pdf" và "Output_File_Name.tif" ở dòng lệnh trên.
Khi kết thúc ra có 1 file TIFF có kích thước lớn cái mà sẽ dùng OCR (Optical Character Recognition )để quét. Chúng ta sử dụng "tesseract-ocr". Nhưng đầu tiên chúng ta cần cài.
Mã:
sudo apt-get install tesseract-ocr tesseract-ocr-eng
Gói "tesseract-ocr-eng" để hỗ trợ ghi nhận ngôn ngữ tiếng anh và yêu cầu cần có để tesseract-ocr có thể làm việc. Để làm việc với ngôn ngũ khác bạn có thể thay thế ví dụ "tesseract-ocr-deu" hỗ trợ tiếng Đức. Kết thúc, là chuyển file TIFF sang file TXT bao gồm tất cả các chữ, thông thường cả hình ảnh trong file gốc PDF
Mã:
tesseract Output_File_Name.tif Name_of_TXT -l eng
Ởđây, "Output_File_Name.tif" là tên file gốc mà bạnđặt ở trên và Name_of_TXTlà tên đầu ra của file có đuôi là *.txt. Nếu PDF khôngphải là tiếng nah, thì đặt giá trị “-l eng” bằnggiá trị khác tương ứng với ngôn ngữ chuẩn trong filepdf được chương trình hỗ trợ.
Chúý: Chất lượng của chữ được tác ra từ hình ảnhtrong PDF được tốt hay không phụ thuộc vào nguồn gốccủa hình ảnh trong PDF.
Cách 2: Chiết dữliệu từ file PDF
Nhược điểm củacách trên là cả chữ trong file PDF cũng được tách ra.Bạn có thể dùng công cụ dưới đây để tách riêngchúng. Đầutiên là cài đặt công cụ
Trong Ubuntu
Mã:
sudo apt-get install poppler-utils
Trong Fedora:
Mã:
sudo yum install poppler-utils
Vớinhững bản phân phối khác, có thể tìm công cụpoppler-utils trong kho phần mềm tương ứng.
Từ dònglệnh, để tách tất cả hình ảnh từ file "pdffile.pdf"và đặt nó vào đường dẫn /home/<username>/pdfimages/thìdùng dòng lệnh:
Mã:
pdfimages -j pdffile.pdf ~/pdfimages/
FileJPEG sẽ được lưu trữ cùng phần mở rộng PPM trừ phibạn dùng thông số đặc biệt “-j”
Đểtách tất cả các chữ thực sự và đặt vào file có têngiống với tên của file PDF bạn có thể dùng dòng lệnhdưới đây:
Mã:
pdftotext pdffile.pdf
Bạn có thể tải hướng về để lưu trữ trên máy tính tại đây:
http://www.mediafire.com/view/?3uzsztd64a8f5l6http://www.mediafire.com/view/?hdwhj6q3evvq0q2blog cá nhân
http://hlson.wordpress.com/2012/06/22/convert-pdf2txt/