리눅스에서 PDF 파일을 텍스트 파일로 변환하는 방법이다. 데비안/우분투 기준으로 poppler-utils 패키지에 포함된 pdftotext를 이용하면 된다. 만약 해당 패키지가 없다면 설치해 주면 되겠다.
# S/W 저장소 정보 갱신
sudo apt-get update
# 패키지 설치
sudo apt-get install poppler-utils
이제 변환을 해 보자. 예를 들어 my_text.pdf 파일을 텍스트 파일로 변환하여 my_text.txt로 저장하고 싶다면 아래와 같이 하면 된다.
pdftotext my_text.pdf my_text.txt