ターミナルで、PDFファイルからテキストデータを取り出す方法｜UNIX Cafe

2026年3月6日

当サイトでは、コンテンツの一部に広告を掲載しています。

UNIX Cafe | 第８３回

ターミナルで整える、PDFテキストの下ごしらえ

PDFファイルに書かれている文章を、
テキストデータ（.txt）として取り出したい
と思ったことはありませんか？

たとえば、

PDFとHTMLの内容を見比べたい
誤字脱字をチェックしたい
表記を統一したい

こうした作業は、
PDFやWordのままでは、とてもやりにくいものです。

そこで役に立つのが、
ターミナルを使ってPDFをプレーンテキストに変換する方法です。

そもそも、PDFからテキストは取り出せるの？

結論から言うと、PDFの種類によります。

文字として作られたPDF　→ テキストを取り出せます
紙をスキャンしたPDF（画像）　→ そのままでは取り出せません

この記事で紹介する方法は、
文字として作られたPDFが対象です。

使うコマンド：pdftotext

PDFからテキストを取り出すときに使うのが、

pdftotext

pdftotext

というコマンドです。

特別な設定はほとんど必要なく、とてもシンプルに使えます。

pdftotext が使えるか確認する

まず、ターミナルを開いて次を入力します。

pdftotext -v

pdftotext -v

バージョン情報などが表示されれば、
すでに使える状態です。

PDFからテキストを取り出す（基本）

たとえば、sample.pdf というPDFファイルがある場合。

pdftotext sample.pdf

pdftotext sample.pdf

これだけで、同じフォルダに

sample.txt

sample.txt

というテキストファイルが作られます。

中身を確認してみましょう。

less sample.txt

less sample.txt

文章がそのまま、
文字として取り出されているのが分かるはずです。

出力ファイル名を指定する

テキストファイルの名前を変えたい場合は、
次のように書きます。

pdftotext sample.pdf output.txt

pdftotext sample.pdf output.txt

レイアウトをできるだけ保ちたい場合

PDFは「見た目」を重視した形式なので、
そのまま変換すると改行が崩れることがあります。

そんなときは、-layout を付けます。

pdftotext -layout sample.pdf

pdftotext -layout sample.pdf

表や段落の位置が、少し分かりやすくなります。

macOSで pdftotext が使えない場合

macOSで pdftotext が使えない場合は、
次のコマンドでインストールできます。

brew install poppler

brew install poppler

インストール後、もう一度 pdftotext を試してください。

よくある注意点

● スキャンPDFの場合

紙をスキャンして作られたPDFは、
中身が「画像」です。

そのため、

pdftotext

pdftotext

では文字を取り出せません。

この場合は、
OCR（文字認識） という別の処理が必要になります。

なぜ、テキストにすると便利なの？

PDFやWordは、見せるための形式です。

一方、プレーンテキストは、

誤字脱字を見つけやすい
表記の違いを比較できる
HTMLや別資料と照合できる

という特徴があります。

今回のように、

PDF → テキスト
テキストを整形
HTMLと内容を照合

といった作業は、
プレーンテキストにして初めて可能になります。

まとめ

ターミナルを使えば、PDFからテキストを取り出せる
基本はこの1行だけ

pdftotext sample.pdf

pdftotext sample.pdf

取り出したテキストは、

確認
修正
照合

すべての土台になる

おわりに

WordやPDFは、とても便利です。
でも一度、飾りを外して中身だけを見ると、
文章はぐっと扱いやすくなります。

ターミナルは難しい道具ではありません。
文章を正確に確認するための、
静かな作業机のような存在です。

次は、
取り出したテキストを整える方法へ進んでみましょう。

さらに学びたいあなたへ

📘 用途ごとに選ぶ Linux のおすすめ本

PCfan

レベル別・用途別で選ぶおすすめLinux本｜初心者〜中級者向け日本語版ガイド｜UNIX Cafe Linuxを学ぶ人のために、日本語版だけを厳選したおすすめ書籍をレベル別・用途別に紹介します。入門の基礎本から、シェルスクリプト・サーバー構築・セキュリティまで、UNI...

よかったらシェアしてね！

URLをコピーしました！

URLをコピーしました！

この記事を書いた人

のい UNIX Cafe マスター

Macintosh Color Classicから始まった旅は、長いWindows時代を経て、Windows10のサポート終了をきっかけにUNIXの世界へ戻ってきました。UNIX Cafeでは、UNIX・Linux・そしてMacな世界を、むずかしい言葉を使わず、物語のように書いています。プログラミングは、アイデアをコンピューターに伝えるための言葉です。簡単な単語と文法を覚えれば、誰でもコマンドを使えます。ぜひ一度、やさしいプログラミングの世界をのぞいてみてください。