it-swarm-ko.tech

PDF to text -converter?

명령 줄에서 대량으로 검색 할 수 있도록 PDF 파일을 텍스트로 변환해야합니다. Ubuntu, OBSD 또는 유사한 배포판 용 변환기가 있습니까?

아마도 관련 게시물, 우분투를 사용한 OCR 여기 .

21
otto

당신은 많은 옵션이 있습니다!

pdftotext from poppler 이미 언급되었습니다.

잘 작동하는 pdf2line 라는 Haskell 프로그램이 있습니다.

calibreebook-convert 명령 줄 프로그램 (또는 구경 자체)은 또 다른 옵션입니다. PDF 일반 텍스트 또는 기타 전자 책 형식 (RTF, ePub)으로 변환 할 수 있습니다. 제 생각에는 상당히 느리지 만 pdftotext보다 더 나은 결과를 생성합니다.

ebook-convert file.pdf file.txt

AbiWord 는 명령 줄에서 알고있는 모든 형식간에 변환 할 수 있으며 최소한 선택적으로 PDF 가져 오기 플러그인이 있습니다.

abiword --to=txt file.pdf

또 다른 옵션은 podofo PDF 도구 라이브러리)의 podofotextextract입니다. 실제로 시도하지 않았습니다.

두 개의 Ghostscript 도구 인 pdf2psps2ascii를 결합하면 또 다른 옵션이 있습니다.

실제로 몇 가지 방법을 더 생각할 수 있지만 지금은 그대로 두겠습니다. ;)

22
frabjous

명령 줄에서 pdftotext (Ubuntu : poppler-utils ; OpenBSD : xpdf-utils 패키지).

Recoll (Ubuntu : recoll ; OpenBSD : 포트 없음,하지만 FreeBSD .)를 사용하여 다양한 형식의 텍스트 문서 유형을 검색 할 수 있습니다. , PDF 포함. GUI가 있으며 자동으로 색인을 작성합니다. pdftotext을 사용하여 PDF를 텍스트로 변환합니다.

Acrobat Reader (Linux에서 버전 9 이상)에는 제한된 다중 파일 검색 기능이 있습니다 (디렉토리의 모든 파일에서 검색 가능).

pdftotext는 당신이 찾고있는 것일 수 있습니다 : http://en.wikipedia.org/wiki/Pdftotext 추출하려는 텍스트가 실제로 pdf와는 다른 그래픽 형식 아래 있지 않는 한 서류.

4
jlliagre