Konvertierung und Optimierung
Konvertierung und Optimierung
Aspose.PDF FOSS für .NET stellt Konverter zum Umwandeln von PDFs in HTML,
Markdown, SVG und Nur-Text bereit. Das Optimierungssubsystem reduziert die Dateigröße
und gewährleistet die PDF/A-Konformität durch PdfFormatConversionOptions.
PDF zu HTML
PdfToHtmlConverter exportiert PDF‑Seiten als HTML‑Dokumente.
var converter = new PdfToHtmlConverter();
converter.SaveAsHtml("input.pdf", "output.html");
// Or save each page separately
converter.SaveAllPagesAsHtml("input.pdf", "output_dir");HtmlSaveOptions bietet Kontrolle über die Bildverarbeitung, das Einbetten von Schriftarten und die Layout‑Strategie.
PDF zu Markdown
PdfToMarkdownConverter exportiert PDF-Inhalt als Markdown-Text.
var converter = new PdfToMarkdownConverter("input.pdf");
converter.SaveAsMarkdown("output.md");
// Single page
converter.SavePageAsMarkdown(1, "page1.md");PDF zu SVG
PdfToSvgConverter rendert jede Seite als skalierbare Vektorgrafik.
var converter = new PdfToSvgConverter();
converter.SaveAllPagesAsSvg("input.pdf", "output_dir");PDF zu Text
PdfToTextConverter extrahiert reinen Text aus PDF‑Seiten.
var converter = new PdfToTextConverter();
converter.SaveAsText("input.pdf", "output.txt");PDF/A‑Konformität
PdfFormatConversionOptions validiert und konvertiert Dokumente zu PDF/A
Standards.
using var doc = Document.Open(pdfBytes);
var options = new PdfFormatConversionOptions(
"log.xml",
PdfFormat.PDF_A_1B,
ConvertErrorAction.Delete);
doc.Convert(options);
doc.Save("pdfa.pdf");Steuerung der Überschriftsebene
HeadingLevels konfiguriert, welche Überschriftsebenen während der HTML- oder Markdown-Konvertierung erkannt werden.
var levels = new HeadingLevels();
levels.AddLevels(1, 3); // Recognize H1 through H3Tipps und bewährte Verfahren
- Verwenden Sie
PdfToHtmlConverterfür die Webveröffentlichung undPdfToMarkdownConverterfür Dokumentations‑Workflows. - Die PDF/A‑Konvertierung kann Funktionen (JavaScript, Verschlüsselung) entfernen, die dem Standard widersprechen — verwenden Sie
ConvertErrorAction.DeleteoderConvertErrorAction.None. - Bei großen Dokumenten konvertieren Sie seitenweise, um den Speicher zu verwalten.
HtmlSaveOptionssteuert, ob Bilder eingebettet inline oder als externe Dateien gespeichert werden.- SVG‑Ausgabe ist ideal für die hochauflösende Anzeige einzelner Seiten.
Häufige Probleme
| Problem | Ursache | Lösung |
|---|---|---|
| HTML-Ausgabe ohne Bilder | Bilder nicht eingebettet; externe Pfade inkorrekt | HtmlSaveOptions für eingebettete Bilder konfigurieren |
| PDF/A-Konvertierung entfernt Anmerkungen | Anmerkungen im Ziel-PDF/A-Profil nicht erlaubt | PDF/A-2 oder PDF/A-3 verwenden, die Anmerkungen zulassen |
| Textextraktion verliert Formatierung | Nur-Text-Ausgabe hat per Design keine Formatierung | Stattdessen HTML- oder Markdown-Konvertierung verwenden |
FAQ
Welche PDF/A-Profile werden unterstützt?
PDF/A-1A, PDF/A-1B, PDF/A-2A, PDF/A-2B, PDF/A-3A und PDF/A-3B-Profile werden über die Aufzählungswerte PdfFormat unterstützt.
Kann ich eine einzelne Seite in HTML konvertieren?
Ja. Verwenden Sie PdfToHtmlConverter.SavePageAsHtml.
Behält die Markdown‑Konvertierung Tabellen bei?
Der Konverter versucht, Tabellenstrukturen als Markdown‑Tabellen darzustellen, aber komplexe Layouts können eine Nachbearbeitung erfordern.
API-Referenzübersicht
| Class / Method | Description |
|---|---|
PdfToHtmlConverter | PDF in HTML konvertieren |
PdfToHtmlConverter.SaveAsHtml | Gesamtes Dokument als HTML exportieren |
PdfToMarkdownConverter | PDF in Markdown konvertieren |
PdfToSvgConverter | PDF‑Seiten in SVG konvertieren |
PdfToTextConverter | Klartext aus PDF extrahieren |
HtmlSaveOptions | Optionen für den HTML‑Export (Bilder, Schriftarten, Layout) |
HeadingLevels | Erkennen von Überschriftenebenen konfigurieren |
PdfFormatConversionOptions | PDF/A‑Validierung und Konvertierungsoptionen |