Konvertierung und Optimierung

Konvertierung und Optimierung

Konvertierung und Optimierung

Aspose.PDF FOSS für .NET stellt Konverter zum Umwandeln von PDFs in HTML, Markdown, SVG und Nur-Text bereit. Das Optimierungssubsystem reduziert die Dateigröße und gewährleistet die PDF/A-Konformität durch PdfFormatConversionOptions.


PDF zu HTML

PdfToHtmlConverter exportiert PDF‑Seiten als HTML‑Dokumente.

var converter = new PdfToHtmlConverter();
converter.SaveAsHtml("input.pdf", "output.html");

// Or save each page separately
converter.SaveAllPagesAsHtml("input.pdf", "output_dir");

HtmlSaveOptions bietet Kontrolle über die Bildverarbeitung, das Einbetten von Schriftarten und die Layout‑Strategie.


PDF zu Markdown

PdfToMarkdownConverter exportiert PDF-Inhalt als Markdown-Text.

var converter = new PdfToMarkdownConverter("input.pdf");
converter.SaveAsMarkdown("output.md");

// Single page
converter.SavePageAsMarkdown(1, "page1.md");

PDF zu SVG

PdfToSvgConverter rendert jede Seite als skalierbare Vektorgrafik.

var converter = new PdfToSvgConverter();
converter.SaveAllPagesAsSvg("input.pdf", "output_dir");

PDF zu Text

PdfToTextConverter extrahiert reinen Text aus PDF‑Seiten.

var converter = new PdfToTextConverter();
converter.SaveAsText("input.pdf", "output.txt");

PDF/A‑Konformität

PdfFormatConversionOptions validiert und konvertiert Dokumente zu PDF/A Standards.

using var doc = Document.Open(pdfBytes);

var options = new PdfFormatConversionOptions(
    "log.xml",
    PdfFormat.PDF_A_1B,
    ConvertErrorAction.Delete);

doc.Convert(options);
doc.Save("pdfa.pdf");

Steuerung der Überschriftsebene

HeadingLevels konfiguriert, welche Überschriftsebenen während der HTML- oder Markdown-Konvertierung erkannt werden.

var levels = new HeadingLevels();
levels.AddLevels(1, 3);  // Recognize H1 through H3

Tipps und bewährte Verfahren

  • Verwenden Sie PdfToHtmlConverter für die Webveröffentlichung und PdfToMarkdownConverter für Dokumentations‑Workflows.
  • Die PDF/A‑Konvertierung kann Funktionen (JavaScript, Verschlüsselung) entfernen, die dem Standard widersprechen — verwenden Sie ConvertErrorAction.Delete oder ConvertErrorAction.None.
  • Bei großen Dokumenten konvertieren Sie seitenweise, um den Speicher zu verwalten.
  • HtmlSaveOptions steuert, ob Bilder eingebettet inline oder als externe Dateien gespeichert werden.
  • SVG‑Ausgabe ist ideal für die hochauflösende Anzeige einzelner Seiten.

Häufige Probleme

ProblemUrsacheLösung
HTML-Ausgabe ohne BilderBilder nicht eingebettet; externe Pfade inkorrektHtmlSaveOptions für eingebettete Bilder konfigurieren
PDF/A-Konvertierung entfernt AnmerkungenAnmerkungen im Ziel-PDF/A-Profil nicht erlaubtPDF/A-2 oder PDF/A-3 verwenden, die Anmerkungen zulassen
Textextraktion verliert FormatierungNur-Text-Ausgabe hat per Design keine FormatierungStattdessen HTML- oder Markdown-Konvertierung verwenden

FAQ

Welche PDF/A-Profile werden unterstützt?

PDF/A-1A, PDF/A-1B, PDF/A-2A, PDF/A-2B, PDF/A-3A und PDF/A-3B-Profile werden über die Aufzählungswerte PdfFormat unterstützt.

Kann ich eine einzelne Seite in HTML konvertieren?

Ja. Verwenden Sie PdfToHtmlConverter.SavePageAsHtml.

Behält die Markdown‑Konvertierung Tabellen bei?

Der Konverter versucht, Tabellenstrukturen als Markdown‑Tabellen darzustellen, aber komplexe Layouts können eine Nachbearbeitung erfordern.


API-Referenzübersicht

Class / MethodDescription
PdfToHtmlConverterPDF in HTML konvertieren
PdfToHtmlConverter.SaveAsHtmlGesamtes Dokument als HTML exportieren
PdfToMarkdownConverterPDF in Markdown konvertieren
PdfToSvgConverterPDF‑Seiten in SVG konvertieren
PdfToTextConverterKlartext aus PDF extrahieren
HtmlSaveOptionsOptionen für den HTML‑Export (Bilder, Schriftarten, Layout)
HeadingLevelsErkennen von Überschriftenebenen konfigurieren
PdfFormatConversionOptionsPDF/A‑Validierung und Konvertierungsoptionen

Siehe auch

 Deutsch