이 노트에 대하여
PDF를 EPUB이나 DOCX 등 다른 형식으로 바꾸는 여러 방법과 툴을 정리한다. 이미지형 PDF의 한계와 pandoc 바깥 도구의 필요성을 짚는 전자책 변환 노트다.
히스토리
- 문서 업데이트 필요하다.
- Translate from pdf-epub with pandoc and marker
관련노트
관련메타
- …
2026 삽질은 끝났어 이거봐라
2023 pdf에서 변환하는 방법
pandoc 에서 pdf 파일은 입력으로 못받는다. 다른 툴이 있다. 먼저 파일 사이즈가 큰 경우는 이미지로 변환된 파일일 것이다. 그건 안된다.
pdf2docs — pdf to docx 변환
한방에 잘 되면 나이스이다.
pip install pdf2docx
pdf2docx convert test.pdf test.docxxpdf — PDF 도구 모음
- xpdf: PDF 뷰어
pdftotext: PDF 를 텍스트로 변환
pdftops: PDF 를 포스트스크립트(PostScript)로 변환
pdftoppm: PDF 페이지들을 netpbm(PPM/PGM/PBM) 이미지 파일들로 변환
pdftopng: PDF 페이지들을 PNG 이미지 파일들로 변환
pdftohtml: PDF 를 HTML 로 변환
pdfinfo: PDF 메타데이터를 추출
pdfimages: PDF 파일들로부터 원시 이미지(raw image)들을 추출
pdffonts: PDF 파일에 사용된 폰트 목록을 나열
pdfdetach: PDF 파일에 첨부된 파일들을 추출
$ pdftotext Olsen_2018_Getting_Clojure.pdfcalibre : pdf to epub
https://softhints.com/how-to-convert-pdf-to-epub-with-linux/
- Step 1: Install calibre
sudo -v && wget -nv -O- https://download.calibre-ebook.com/linux-installer.sh | sudo sh /dev/stdin install_dir=/opt ;; sudo apt install calibre
- Step 2: Convert PDF file to ePUB
In this section, we’ll see how to convert PDF file to ePUB with command - ebook-convert. For better results we will use parameter - —enable-heuristics:
ebook-convert book.pdf book.epub --enable-heuristicsThe command will convert the PDF file to ePUB page by page. Note - command needs to be executed in the folder where the PDF files are located.
-
Heuristic Processing With flag —enable-heuristics we can control the strcuture and different options. There are different flags like:
—disable-dehyphenate —disable-delete-blank-paragraphs —disable-fix-indents —disable-format-scene-breaks —disable-italicize-common-cases —disable-markup-chapter-headings —disable-renumber-headings —disable-unwrap-lines —html-unwrap-factor —replace-scene-breaks
More information about command ebook-convert is available on this link: Calibre - ebook-convert
-
Step 3: Convert mulitple PDF to ePUB Finally, let’s convert multiple PDF files to ePUB with single command:
find ./ -iname "*pdf" -type f | while read f; do echo -e "\e[1mConverting file $f \e[0m" ; ebook-convert "$f" "${f%.pdf}.epub" --enable-heuristics ; doneHow the command works?
it search for PDF files in the current folder it prints out the file name Converting file ./book1.pdf start conversion with option —enable-heuristics
calibre epub to pdf ? no
반대로 하면 된다.
ebook-convert book.pdf book.epub --enable-heuristicshtml 로 변환하고 거기서 pdf 저장하는게 좋겠다.
Comments