PDF からテキストを抽出する方法(コピー、貼り付け、エクスポート)
編集、引用、翻訳のために PDF からテキストをコピー。通常の PDF とスキャン PDF の両方に対応。
なぜ PDF からテキストを抽出するのか?
PDF は「どこでも同じ見た目」を目的に設計されており、共有や印刷に最適です。しかし、その視覚的な忠実度の裏に問題があります:PDF 内のテキストは、多くの場合「本当のテキスト」ではないのです。文字「A」のように見えるベクター経路であって、コンピュータがコピーできる文字「A」を含んでいないこともあります。あるいは、ページ全体のフラットな画像で、スキャナは見たが機械は読めない、ということもあります。
コンテンツを本当に「使いたい」とき —— メールで引用する、翻訳ツールに貼り付ける、文書で編集する、200 ページの中から 1 段落を探す —— には、テキストの抽出が必要です。このガイドではその方法を説明します。
PDF からテキストを抽出する必要がある理由は、実際的でしかも頻繁です:
- 一節を引用する:研究論文の段落をメールにコピーし、打ち直さなくて済む。
- 文書を翻訳する:外国語の PDF を翻訳ツールに貼り付ける。翻訳エンジンはプレーンテキストが必要。
- 編集と書式変更:PDF から Word や Google Docs にテキストを移し、誤字を直したり表現を更新する。
- スキャン PDF の中身を検索:スキャンされた本は 300 ページの画像。OCR でテキスト抽出してようやく検索可能に。
- コンテンツの再利用:古い PDF から章を抜き出して新しいレポートに入れる。
- データ抽出:PDF レポートから表データを取り出してスプレッドシートへ。
課題は:PDF には 2 種類あり、別々のツールが必要だということです。
- テキストベース PDF(大半の現代 PDF):文字は本当の、ファイルにエンコードされたテキスト。抽出は高速でロスレス。
- スキャン PDF(ページの画像):文字はただのピクセル。OCR(光学文字認識)が必要。
方法 1:UtilBoxx の無料 PDF テキスト抽出ツール(推奨)
最も速く、安全で、プライベートな方法は UtilBoxx の PDF テキスト抽出ツール です。完全にブラウザ内で動作し、テキストベースとスキャンの両方の PDF に対応し、ファイルがサーバーへ送信されることはありません。
使い方は次のとおりです:
- utilboxx.com/ja/tools/pdf/extract-text を開く
- アップロード領域をクリックして PDF を選択(またはドラッグ&ドロップ)
- ツールが PDF に埋め込みテキストがあるか、スキャン画像かを自動検出
- テキスト PDF なら直接テキストをコピー。スキャン PDF ならブラウザ内で OCR を実行
- 結果をクリップボードへコピー、または .txt ファイルとしてダウンロード
この方法を推奨する理由:
- 100% 無料、アカウント不要、登録不要、メール認証不要
- プライバシー最優先:すべての処理がブラウザ内で完結。ファイルはサーバーへ送信されません
- 両方の PDF に対応:テキストベースとスキャン(OCR 付き)
- あらゆるデバイスで動作:Windows、Mac、Linux、ChromeOS、iOS、Android
- 透かしなし、利用回数制限なし
- 高速:テキスト抽出はほぼ一瞬。OCR も 1 ページ数秒で完了
たまに必要でも、一日中必要でも、インストール不要でテキストを取り出せる最も柔軟なツールです。
方法 2:Adobe Acrobat Pro(有料)
Adobe Acrobat Pro は PDF 界のヘビー級です。「PDF をエクスポート」機能では、PDF を Word、Excel、プレーンテキストなど多様な形式に変換できます。テキスト PDF ではきれいにエクスポートされ、スキャン PDF では数十言語を認識し、レイアウトもよく保つ高品質 OCR エンジンが走ります。
ただし価格が高めです。Acrobat Pro はサブスクリプションで月額約 $19.99(年額約 $240)。一度だけテキスト抽出する用途なら割に合いません。デスクトップインストールが必要なので、古いマシンには負担です。
既に編集・墨消し・電子署名・フォーム作成などのために Acrobat を利用しているなら価値があります。OCR は優れていますが、テキスト抽出だけが目的であれば、ブラウザツールで十分です。
方法 3:コマンドラインで pdftotext(Poppler)
ターミナルに慣れているなら、poppler-utils パッケージの pdftotext が最速の CLI オプションです。macOS(Homebrew)、Linux(apt/dnf/pacman)、Windows(Cygwin や WSL)で利用可能です。
`brew install poppler`(macOS)または `sudo apt install poppler-utils`(Debian/Ubuntu)でインストールしたら:
```bash # デフォルトのレイアウトでテキスト抽出 pdftotext input.pdf output.txt
# レイアウトをできる限り保持 pdftotext -layout input.pdf output.txt
# 特定のページ範囲(1〜5 ページ)から抽出 pdftotext -f 1 -l 5 input.pdf output.txt
# OCRmyPDF と組み合わせてスキャン PDF からテキスト抽出 ocrmypdf --skip-text input.pdf scanned-with-ocr.pdf pdftotext scanned-with-ocr.pdf output.txt ```
`pdftotext` はオープンソースの PDF テキスト抽出の定番です。高速でスクリプト向き、何千ファイルものバッチ処理に耐えます。スキャン PDF には OCRmyPDF が事実上の標準で、元のページ画像を変えずに検索可能なテキスト層を追加します。
よくある質問
スキャン PDF からテキストを抽出できますか?
できますが、OCR が必要です。UtilBoxx の PDF テキスト抽出ツール はブラウザ内で OCR を実行し、ファイルをどこにも送らずスキャン画像を検索可能テキストに変換します。Adobe Acrobat Pro もスキャン PDF に OCR を行います。CLI のワークフローは OCRmyPDF でテキスト層を追加し、pdftotext でテキストを取り出す、という形です。
テキスト抽出は書式を保ちますか?
通常は保たれません。PDF のテキスト抽出では単語と段落が得られますが、視覚的書式(太字、斜体、フォントサイズ、複数段組)は失われることが多いです。`pdftotext -layout` は段組の保持にそこそこ強く、Adobe の「Word にエクスポート」はツールはずっと重いですが視覚的構造を保ちます。ほとんどの用途 —— 引用、翻訳、検索 —— には、プレーンテキストで十分です。
パスワード保護された PDF からテキストを抽出できますか?
できます。ただしパスワードが必要です。パスワード保護された PDF はパスワードで開けば、その後は通常通りテキストを抽出できます。UtilBoxx を含むほとんどのツールは、必要に応じてパスワードを要求します。パスワードがない場合、テキストは仕様上アクセスできません —— これはバグではなくセキュリティ機能です。
どんな言語でも抽出できますか?
はい。テキストベース抽出は PDF に埋め込まれた任意の言語で動作します。OCR はそのエンジンが学習済みの任意の言語で動作します。UtilBoxx のブラウザ OCR はラテン・キリル・東アジアの幅広い文字をカバーします。Adobe Acrobat Pro はさらに多くの言語をサポートします。珍しい文字については、Tesseract のような CLI ツールが最も広い言語カバレッジを提供します。
オンラインのテキスト抽出ツールは安全ですか?
サービスによります。UtilBoxx はすべてブラウザ内で処理します —— アップロードなし、サーバーサイド処理なし、ログなし。他のツールでは、ファイルがリモートサーバーにアップロードされると仮定し、プライバシーポリシーをよく確認してください。個人情報、財務、医療、法的に機密性の高い情報を含む文書は、信頼できないテキスト抽出ツールにアップロードしないでください。
「テキストをコピー」と「テキストを抽出」の違いは何ですか?
多くのツールでは同じで、PDF のテキスト内容です。`pdftotext -layout` のようなツールはプレーンテキスト内で視覚的レイアウトの保持を試みます。Adobe の「Word にエクスポート」のようなツールは構造化文書を生成します。UtilBoxx はクリーンなプレーンテキストを返します —— どこにでも貼り付けられます。
まとめ
PDF からテキストを抽出することは頻繁に発生する小さな作業であり、有料サブスクリプションやソフトのインストールが必要な作業ではありません。ほとんどの人にとって、UtilBoxx の無料 PDF テキスト抽出ツール は明白な選択です:プライベートで、速くて、無料で、テキスト PDF とスキャン PDF の両方に対応、ブラウザで完結。
Adobe Acrobat を他用途で既に利用しているなら、「PDF をエクスポート」機能が優れています。バッチ処理をスクリプト化したいなら、ターミナルでの pdftotext + OCRmyPDF の組み合わせが最強です。
その他は、UtilBoxx の PDF ツール をチェックしてください。すべてブラウザ内で完結する、プライバシー最優先の PDF ツールキットが見つかります。