Text aus PDF extrahieren (Kopieren, Einfügen, Exportieren)
Kopieren Sie Text aus einem PDF zum Bearbeiten, Zitieren oder Übersetzen. Funktioniert bei normalen und gescannten PDFs.
Warum Text aus einem PDF extrahieren?
PDFs sind darauf ausgelegt, überall identisch auszusehen, was sie perfekt zum Teilen und Drucken macht. Doch diese visuelle Treue verbirgt ein Problem: Der Text in einem PDF ist oft kein echter Text. Es kann ein Vektorpfad sein, der wie der Buchstabe „A" aussieht, aber keinen Buchstaben „A" enthält, den der Computer kopieren könnte. Oder es kann ein flaches Bild einer Seite sein, das Text enthält, den ein Scanner gesehen hat, eine Maschine aber nicht lesen kann.
Wenn Sie mit dem Inhalt tatsächlich etwas tun möchten — ihn in einer E-Mail zitieren, in ein Übersetzungstool einfügen, in einem Dokument bearbeiten oder einen Absatz in 200 Seiten suchen — müssen Sie den Text extrahieren. Dieser Leitfaden zeigt Ihnen, wie es geht.
Die Gründe, warum Menschen Text aus einem PDF extrahieren müssen, sind praktisch und häufig:
- Eine Passage zitieren: Einen Absatz aus einem Forschungsbericht in eine E-Mail kopieren, ohne ihn neu zu tippen.
- Ein Dokument übersetzen: Ein fremdsprachiges PDF in ein Übersetzungstool einfügen. Übersetzungsmaschinen brauchen reinen Text.
- Bearbeiten und umformatieren: Text aus einem PDF nach Word oder Google Docs ziehen, um Tippfehler zu korrigieren oder Formulierungen zu aktualisieren.
- In gescannten PDFs suchen: Ein gescanntes Buch ist ein 300-seitiges Bild. Das Extrahieren des Textes per OCR macht es durchsuchbar.
- Inhalt wiederverwenden: Ein Kapitel aus einem alten PDF holen und in einen neuen Bericht einfügen.
- Datenextraktion: Tabellarische Daten aus einem PDF-Bericht in eine Tabelle ziehen.
Die Herausforderung: PDFs gibt es in zwei Varianten, und sie brauchen unterschiedliche Werkzeuge.
- PDFs mit Text (die meisten modernen PDFs): Der Text ist echter, in der Datei kodierter Text. Die Extraktion ist schnell und verlustfrei.
- Gescannte PDFs (Seitenbilder): Der Text sind nur Pixel. Sie brauchen OCR (Optical Character Recognition), um ihn zu lesen.
Methode 1: Den kostenlosen PDF-Textextraktor von UtilBoxx verwenden (Empfohlen)
Die schnellste, sicherste und privateste Methode ist das PDF-Textextraktionswerkzeug von UtilBoxx. Es läuft vollständig in Ihrem Browser, verarbeitet sowohl textbasierte als auch gescannte PDFs und sendet Ihre Datei nie an einen Server.
So verwenden Sie es:
- Gehen Sie zu utilboxx.com/de/tools/pdf/extract-text
- Klicken Sie auf den Upload-Bereich und wählen Sie Ihre PDF (oder ziehen Sie sie per Drag & Drop)
- Das Werkzeug erkennt, ob Ihr PDF eingebetteten Text enthält oder ein gescanntes Bild ist
- Bei Text-PDFs wird der Text direkt kopiert. Bei gescannten PDFs läuft OCR in Ihrem Browser.
- Kopieren Sie das Ergebnis in die Zwischenablage oder laden Sie es als .txt-Datei herunter
Warum wir diese Methode empfehlen:
- 100 % kostenlos, kein Konto, keine Registrierung, keine E-Mail-Bestätigung
- Privatsphäre zuerst: Alles wird lokal in Ihrem Browser verarbeitet. Die Datei erreicht nie einen Server.
- Verarbeitet beide PDF-Typen: textbasiert und gescannt (mit OCR)
- Funktioniert auf jedem Gerät: Windows, Mac, Linux, ChromeOS, iOS, Android
- Keine Wasserzeichen, kein Tageslimit
- Schnell: Die Textextraktion ist nahezu augenblicklich; OCR dauert wenige Sekunden pro Seite
Wenn Sie Text aus einem PDF holen müssen — gelegentlich oder den ganzen Tag — ist dies das flexibelste Werkzeug, das Sie ohne Installation nutzen können.
Methode 2: Adobe Acrobat Pro (Kostenpflichtig)
Adobe Acrobat Pro ist das Schwergewicht der PDF-Welt. Sein Werkzeug „PDF exportieren" erlaubt es, ein PDF in Word, Excel, reinen Text und viele andere Formate zu konvertieren. Bei Text-PDFs ist der Export sauber. Bei gescannten PDFs läuft Acrobats hochwertige OCR-Engine, die Dutzende Sprachen erkennt und das Layout einigermaßen beibehält.
Der Haken ist der Preis. Acrobat Pro kostet im Abonnement ungefähr 19,99 $ pro Monat (etwa 240 $ pro Jahr). Für eine gelegentliche Extraktion ein schlechtes Geschäft. Außerdem ist eine Desktop-Installation nötig, die auf älteren Maschinen schwer wiegen kann.
Acrobat lohnt sich nur, wenn Sie es bereits für Bearbeitung, Schwärzung, elektronische Signaturen oder Formularerstellung nutzen. Seine OCR ist ausgezeichnet, aber wenn Textextraktion alles ist, was Sie brauchen, erledigt ein Browser-Tool die Arbeit ohne die Rechnung.
Methode 3: Kommandozeile mit pdftotext (Poppler)
Wenn Sie sich im Terminal wohlfühlen, ist das Open-Source-Werkzeug pdftotext aus dem poppler-utils-Paket die schnellste CLI-Option. Es ist verfügbar auf macOS (über Homebrew), Linux (über apt/dnf/pacman) und Windows (über Cygwin oder WSL).
Installieren Sie es mit `brew install poppler` (macOS) oder `sudo apt install poppler-utils` (Debian/Ubuntu), dann:
```bash # Text mit Standardlayout extrahieren pdftotext input.pdf output.txt
# Layout so weit wie möglich erhalten pdftotext -layout input.pdf output.txt
# Text aus einem bestimmten Seitenbereich extrahieren (Seiten 1-5) pdftotext -f 1 -l 5 input.pdf output.txt
# Text aus einem gescannten PDF extrahieren, indem pdftotext mit OCRmyPDF kombiniert wird ocrmypdf --skip-text input.pdf scanned-with-ocr.pdf pdftotext scanned-with-ocr.pdf output.txt ```
`pdftotext` ist das Arbeitstier der PDF-Textextraktion in der Open-Source-Welt. Es ist schnell, skriptbar und verarbeitet Tausende von Dateien im Stapel. Für gescannte PDFs ist OCRmyPDF die De-facto-Wahl: Es fügt eine Textschicht zu gescannten PDFs hinzu, ohne die ursprünglichen Seitenbilder zu verändern.
Häufige Fragen
Kann ich Text aus einem gescannten PDF extrahieren?
Ja, aber Sie brauchen OCR. Das PDF-Textextraktionswerkzeug von UtilBoxx führt OCR in Ihrem Browser aus und wandelt das gescannte Bild in durchsuchbaren Text um, ohne Ihre Datei hochzuladen. Adobe Acrobat Pro führt ebenfalls OCR auf gescannten PDFs aus. Der CLI-Workflow ist OCRmyPDF zum Hinzufügen der Textschicht und anschließend pdftotext zum Ausgeben des Textes.
Bewahrt die Textextraktion die Formatierung?
In der Regel nicht. Die PDF-Textextraktion liefert Ihnen Wörter und Absätze, aber die visuelle Formatierung (Fett, Kursiv, Schriftgrößen, Spalten) geht oft verloren. `pdftotext -layout` leistet brauchbare Arbeit beim Erhalten des Spaltenlayouts, und Werkzeuge wie Adobes „Als Word exportieren" bewahren mehr visuelle Struktur, kosten aber deutlich mehr Rechenleistung. Für die meisten Zwecke — Zitieren, Übersetzen, Suchen — reicht reiner Text.
Kann ich Text aus einem passwortgeschützten PDF extrahieren?
Ja, aber Sie brauchen das Passwort. Passwortgeschützte PDFs können mit dem Passwort geöffnet und der Text dann normal extrahiert werden. Die meisten Werkzeuge, einschließlich UtilBoxx, fordern das Passwort bei Bedarf an. Wenn Sie das Passwort nicht haben, ist der Text absichtlich nicht zugänglich — das ist ein Sicherheitsmerkmal, kein Fehler.
Funktioniert die Extraktion in jeder Sprache?
Ja. Die textbasierte Extraktion funktioniert in jeder in das PDF eingebetteten Sprache. OCR funktioniert in jeder Sprache, auf die die Engine trainiert wurde. Die browserbasierte OCR von UtilBoxx unterstützt eine breite Palette lateinischer, kyrillischer und ostasiatischer Schriften. Adobe Acrobat Pro unterstützt viele weitere. Für ungewöhnliche Schriften bieten CLI-Werkzeuge wie Tesseract die breiteste Sprachabdeckung.
Ist die Nutzung eines Online-Textextraktors sicher?
Das hängt vom Dienst ab. UtilBoxx verarbeitet alles in Ihrem Browser – kein Upload, keine serverseitige Verarbeitung, keine Logs. Bei anderen Werkzeugen sollten Sie davon ausgehen, dass Ihre Datei auf einen entfernten Server hochgeladen wird, und die Datenschutzrichtlinie sorgfältig lesen. Vermeiden Sie das Hochladen von Dokumenten mit persönlichen, finanziellen, medizinischen oder rechtlich sensiblen Informationen zu einem Extraktor, dem Sie nicht vertrauen.
Was ist der Unterschied zwischen „Text kopieren" und „Text extrahieren"?
In den meisten Werkzeugen ist es dasselbe: der Textinhalt des PDFs. Manche (wie `pdftotext -layout") versuchen, das visuelle Layout in reinem Text zu erhalten. Andere (wie Adobes „Als Word exportieren") erzeugen ein strukturiertes Dokument. UtilBoxx liefert Ihnen sauberen reinen Text — perfekt zum Einfügen überall.
Fazit
Text aus einem PDF zu extrahieren ist eine kleine Aufgabe, die ständig anfällt und keine kostenpflichtige Subskription oder Software-Installation erfordern sollte. Für die meisten Menschen ist das kostenlose PDF-Textextraktionswerkzeug von UtilBoxx die offensichtliche Wahl: privat, schnell, kostenlos, verarbeitet sowohl Text- als auch Scan-PDFs und funktioniert im Browser.
Wenn Sie Adobe Acrobat bereits aus anderen Gründen bezahlen, ist seine Funktion „PDF exportieren" ausgezeichnet. Wenn Sie Stapelverarbeitung skripten, ist die Kombination aus pdftotext und OCRmyPDF im Terminal unschlagbar.
Für alles andere besuchen Sie die PDF-Werkzeuge von UtilBoxx: Dort finden Sie einen kompletten, auf Privatsphäre ausgelegten Werkzeugkasten für die Arbeit mit PDFs – alles im Browser.