이 노트에 대하여

PDF를 EPUB이나 DOCX 등 다른 형식으로 바꾸는 여러 방법과 툴을 정리한다. 이미지형 PDF의 한계와 pandoc 바깥 도구의 필요성을 짚는 전자책 변환 노트다.

히스토리

  • [2026-06-06 Sat 12:45] 문서 업데이트 필요하다.
  • [2025-04-05 Sat 16:46] Translate from pdf-epub with pandoc and marker

관련노트

관련메타

2026 삽질은 끝났어 이거봐라

[2026-06-06 Sat 13:17]

2023 pdf에서 변환하는 방법

[2023-09-08 Fri 13:47]

pandoc 에서 pdf 파일은 입력으로 못받는다. 다른 툴이 있다. 먼저 파일 사이즈가 큰 경우는 이미지로 변환된 파일일 것이다. 그건 안된다.

pdf2docs — pdf to docx 변환

[2023-08-16 Wed 09:05] https://wikidocs.net/180830

한방에 잘 되면 나이스이다.

pip install pdf2docx
pdf2docx convert test.pdf test.docx

xpdf — PDF 도구 모음

[2023-08-16 Wed 09:10] https://wikidocs.net/154110

  • xpdf: PDF 뷰어

pdftotext: PDF 를 텍스트로 변환

pdftops: PDF 를 포스트스크립트(PostScript)로 변환

pdftoppm: PDF 페이지들을 netpbm(PPM/PGM/PBM) 이미지 파일들로 변환

pdftopng: PDF 페이지들을 PNG 이미지 파일들로 변환

pdftohtml: PDF 를 HTML 로 변환

pdfinfo: PDF 메타데이터를 추출

pdfimages: PDF 파일들로부터 원시 이미지(raw image)들을 추출

pdffonts: PDF 파일에 사용된 폰트 목록을 나열

pdfdetach: PDF 파일에 첨부된 파일들을 추출

$ pdftotext Olsen_2018_Getting_Clojure.pdf

calibre : pdf to epub

[2023-09-09 Sat 10:29] https://softhints.com/how-to-convert-pdf-to-epub-with-linux/

  • Step 1: Install calibre
    sudo -v && wget -nv -O- https://download.calibre-ebook.com/linux-installer.sh | sudo sh /dev/stdin install_dir=/opt
    ;;  sudo apt install calibre
  • Step 2: Convert PDF file to ePUB

In this section, we’ll see how to convert PDF file to ePUB with command - ebook-convert. For better results we will use parameter - —enable-heuristics:

ebook-convert book.pdf book.epub  --enable-heuristics

The command will convert the PDF file to ePUB page by page. Note - command needs to be executed in the folder where the PDF files are located.

  • Heuristic Processing With flag —enable-heuristics we can control the strcuture and different options. There are different flags like:

    —disable-dehyphenate —disable-delete-blank-paragraphs —disable-fix-indents —disable-format-scene-breaks —disable-italicize-common-cases —disable-markup-chapter-headings —disable-renumber-headings —disable-unwrap-lines —html-unwrap-factor —replace-scene-breaks

    More information about command ebook-convert is available on this link: Calibre - ebook-convert

  • Step 3: Convert mulitple PDF to ePUB Finally, let’s convert multiple PDF files to ePUB with single command:

find ./ -iname "*pdf" -type f | while read f; do echo -e "\e[1mConverting file $f \e[0m" ; ebook-convert "$f" "${f%.pdf}.epub" --enable-heuristics ; done

How the command works?

it search for PDF files in the current folder it prints out the file name Converting file ./book1.pdf start conversion with option —enable-heuristics

calibre epub to pdf ? no

[2023-11-03 Fri 13:46] 반대로 하면 된다.

ebook-convert book.pdf book.epub --enable-heuristics

html 로 변환하고 거기서 pdf 저장하는게 좋겠다.

PDF -> 이미지 -> 문서화 방법