Question 1

Warum ist der extrahierte Text bei meinem gescannten Dokument leer?

Accepted Answer

Weil eine gescannte PDF Bilder von Text enthält, keine Text-Zeichen. Im Inhaltsstrom gibt es nichts für PDF.js herauszuziehen; die "Seiten" sind nur große Bild-XObjects. Führe zunächst ocrmypdf auf der Datei aus, um eine unsichtbare, durchsuchbare Textschicht unter den Bildern hinzuzufügen, und extrahiere dann erneut. Dies ist eine Eigenschaft der Art, wie die Datei erstellt wurde, keine Einschränkung dieses Tools.

Question 2

Führt dieses Tool OCR durch?

Accepted Answer

Nein, und das ist eine bewusste Entscheidung. OCR im Browser erfordert entweder einen großen WebAssembly-Tesseract-Build oder einen Server-Roundtrip, beides mit realen Kompromissen. Die empfohlene Pipeline für gescannte Dokumente ist ocrmypdf auf deinem Rechner, das eine durchsuchbare PDF erstellt, die jeder Extraktor (einschliesslich dieses) dann korrekt verarbeitet. Wir trennen die Textschicht-Extraktion und den OCR-Schritt, um jedes Tool schnell und ehrlich bezüglich seiner Funktion zu halten.

Question 3

Bleibt die Formatierung bei der Extraktion erhalten?

Accepted Answer

Nur auf gröbster Ebene. Absatzumbrüche überleben grob, wenn die PDF vertikale Leeräume zwischen Blöcken verwendet; Spalten, Tabellen, Fett- und Kursivschrift sowie die Ueberschriftenhierarchie nicht. Die Ausgabe ist einfacher UTF-8-Text mit Seitenmarkierungen, die an jeder Seitengrenze eingefügt werden. Wenn du strukturierte Extraktion benötigst (Tabellen als Tabellen, Überschriften als Überschriften), verwende eine layout-bewusste Python-Bibliothek wie pdfplumber oder einen kommerziellen Extraktor wie ABBYY FineReader.

Question 4

Kann es nicht-lateinische Schriften wie Chinesisch, Arabisch oder Kyrillisch verarbeiten?

Accepted Answer

Ja, solange das Quelldokument ordentliche Unicode-Zuordnungen für seine Schriftarten einbettet. Moderne PDFs, die von Word, Google Docs, InDesign oder LaTeX generiert wurden, erzeugen sauberes Unicode für jede Schrift. Ältere Dokumente, die benutzerdefinierte Glyph-Indizes ohne eine ToUnicode-CMap verwenden, produzieren unlesbaren Output unabhängig von der Sprache. Rechts-nach-links-Schriften wie Arabisch und Hebräisch werden in logischer Zeichenreihenfolge extrahiert; die bidirektionale Formgebung ist eine Viewer-Angelegenheit, keine Extraktions-Angelegenheit.

Question 5

Warum kommt Text aus einer zweispaltigen PDF verschachtelt heraus?

Accepted Answer

PDF.js liest Textelemente in der Reihenfolge, in der sie im Inhaltsstrom erscheinen, was die Reihenfolge ist, in der der PDF-Ersteller sie zunächst geschrieben hat. Einige Ersteller schreiben Spalte eins von Anfang bis Ende, dann Spalte zwei; andere verschachteln Zeile für Zeile. Der Extraktor kann das Spaltenlayout nicht leicht erraten, ohne einen geometrischen Durchlauf, der das Tool für den häufigen einspaltigen Fall erheblich verlangsamen würde. Für kritische zweispaltige Extraktion verwende mutool draw -F txt oder pdfminer.six mit aktivierter Layout-Analyse.

Question 6

Wird die Datei auf irgendeinen Server hochgeladen?

Accepted Answer

Nein. pdfjs-dist wird in den Tab geladen und läuft vollständig auf dem Client gegen den ArrayBuffer deiner Datei. Es gibt keinen Fetch-Endpunkt, der Dateiinhalt empfängt, keinen Backend-Parser und kein Service-Worker- Abfangen. Du kannst es prüfen, indem du nach dem Laden der Seite die Verbindung zum Netzwerk trennst; die Extraktion funktioniert weiterhin. Das übliche Analytics-Skript auf der Website erfasst Seitenaufrufe, keine Datei-Bytes.

Question 7

Was bedeuten die "--- Seite N ---"-Markierungen in der Ausgabe?

Accepted Answer

Sie sind Seitentrennungs-Trennzeichen, die vom Extraktor eingefügt werden, damit du extrahierten Text der Quelle zuordnen kannst. Jede Seite wird unabhängig durch getTextContent verarbeitet, und der Text einer Seite endet dort, wo die Markierung für die nächste Seite beginnt. Wenn du die Ausgabe mit einem Skript nachbearbeitest, kannst du auf dem Regex /--- Seite \d+ ---/ aufteilen, um seitenweise zu iterieren.

Question 8

Kann ich Text aus passwortgeschützten PDFs extrahieren?

Accepted Answer

Nicht in dieser Benutzeroberfläche. PDF.js kann einen Passwort-Parameter an getDocument übergeben, aber diese Seite fordert keines an, sodass der Extraktor verschlüsselte Dateien beim Laden ablehnt. Entschlüssle zuerst mit dem PDF-Entsperren-Tool (sobald das Verschlüsselungsmodul verfügbar ist) oder mit qpdf --decrypt --password=DEINPASSWORT input.pdf output.pdf lokal, und führe dann die Extraktion auf der Klartextkopie durch.

Question 9

Warum erscheinen Ligaturen wie "fi" und "fl" als einzelnes Zeichen?

Accepted Answer

Wenn eine Schriftart die Ligatur als einzelne Glyphe mit einem einzelnen Glyph-Code einbettet und das Schriftartenwörterbuch diese Glyphe nicht auf die Zwei-Zeichen-Unicode-Sequenz zurückbildet, sieht der Extraktor, was die PDF tatsächlich speichert: ein Zeichen. Gut erstellte moderne PDFs enthalten eine ToUnicode-CMap, die "fi" auf "fi" ausdehnt, und diese werden korrekt extrahiert. Wenn deine Ausgabe voller Ligatur-Glyphen ist, führe sie durch einen Nachbearbeitungs-Prozess, der Unicode normalisiert (NFKC), um sie zu zerlegen.

Question 10

Wie schneidet das Tool im Vergleich zu pdftotext ab?

Accepted Answer

pdftotext vom Poppler-Projekt ist das bewährte CLI-Äquivalent und ist normalerweise etwas besser bei der Lesereihenfolge für komplexe Layouts, weil es einen geometrischen Sortier-Durchlauf durchführt, den PDF.js nicht vollständig repliziert. Es ist auch viel schneller bei der Stapelverarbeitung. Dieses Browser-Tool gewinnt bei der Einzeldatei-Nutzung ohne Installation und in Situationen, in denen die Datei den Rechner nicht verlassen darf. Für jede wiederkehrende oder programmgesteuerte Extraktion verwende pdftotext in einem Shell-Skript oder Python-Wrapper.

PDF zu Text

Wie man Text aus einer PDF extrahiert

Wie die Textschicht-Extraktion funktioniert

Wann Textextraktion das Richtige ist

Warum Extraktion manchmal fehlschlägt

Wie Text in einer PDF lebt

Alternativen zur browserseitigen Extraktion

Häufig gestellte Fragen

Verwandte Tools

Mehr PDF Tools

Image to PDF

PDF Compressor

PDF Merge (Server-Side)

PDF Merger

PDF Page Reorder

PDF Password Protect