PDF2MD 개발기 #1 - 왜 만들었나

데이터시트 문서화의 고통

펌웨어 개발하면서 IC 데이터시트를 자주 본다. 문제는 이걸 문서화해야 할 때다.

데이터시트 PDF에서 Figure나 Table을 뽑아서 마크다운 문서에 넣으려면:

이걸 Figure 하나당 반복한다. 100페이지짜리 데이터시트에서 Figure 30개 뽑으면? 손목이 나간다.

PDF를 마크다운으로 변환하는 도구는 많다. 근데 다 문제가 있다.

1. 온라인 변환기

2. Adobe Acrobat

3. 파이썬 라이브러리 (PyMuPDF, pdfplumber)

내가 원하는 건 단순했다:

없으니까 만들기로 했다.

서버 올리면 귀찮은 게 한두 개가 아니다:

브라우저에서 다 처리하면:

다행히 요즘 브라우저는 거의 뭐든 된다:

WASM 덕분에 무거운 연산도 브라우저에서 돌릴 수 있다.

프론트엔드: Vue 3 + Composition API
빌드: Vite
PDF 렌더링: PDF.js
OCR: Tesseract.js
로컬 저장: Dexie.js (IndexedDB)
ZIP 생성: JSZip

Vue 3를 선택한 이유:

React도 고려했는데, 이 정도 규모에서 Vue가 더 빠르게 개발할 수 있었다.

PDF.js로 브라우저에서 PDF를 렌더링하는 방법을 다룬다. 생각보다 삽질 포인트가 많다.