Konvertering och optimering
Konvertering och optimering
Aspose.PDF FOSS for .NET tillhandahåller konverterare för att omvandla PDF-filer till HTML,
Markdown, SVG och vanlig text. Optimeringsdelsystemet minskar filstorleken
och säkerställer PDF/A-efterlevnad genom PdfFormatConversionOptions.
PDF till HTML
PdfToHtmlConverter exporterar PDF‑sidor som HTML‑dokument.
var converter = new PdfToHtmlConverter();
converter.SaveAsHtml("input.pdf", "output.html");
// Or save each page separately
converter.SaveAllPagesAsHtml("input.pdf", "output_dir");HtmlSaveOptions ger kontroll över bildhantering, teckensnittsinbäddning och layoutstrategi.
PDF till Markdown
PdfToMarkdownConverter exporterar PDF-innehåll som Markdown-text.
var converter = new PdfToMarkdownConverter("input.pdf");
converter.SaveAsMarkdown("output.md");
// Single page
converter.SavePageAsMarkdown(1, "page1.md");PDF till SVG
PdfToSvgConverter renderar varje sida som en skalbar vektorgrafik.
var converter = new PdfToSvgConverter();
converter.SaveAllPagesAsSvg("input.pdf", "output_dir");PDF till text
PdfToTextConverter extraherar ren text från PDF-sidor.
var converter = new PdfToTextConverter();
converter.SaveAsText("input.pdf", "output.txt");PDF/A-efterlevnad
PdfFormatConversionOptions validerar och konverterar dokument till PDF/A-standarder.
using var doc = Document.Open(pdfBytes);
var options = new PdfFormatConversionOptions(
"log.xml",
PdfFormat.PDF_A_1B,
ConvertErrorAction.Delete);
doc.Convert(options);
doc.Save("pdfa.pdf");Rubriknivåkontroll
HeadingLevels konfigurerar vilka rubriknivåer som känns igen under HTML- eller Markdown‑konvertering.
var levels = new HeadingLevels();
levels.AddLevels(1, 3); // Recognize H1 through H3Tips och bästa praxis
- Använd
PdfToHtmlConverterför webbpublicering ochPdfToMarkdownConverterför dokumentationsarbetsflöden. - PDF/A‑konvertering kan ta bort funktioner (JavaScript, kryptering) som strider mot standarden — använd
ConvertErrorAction.DeleteellerConvertErrorAction.None. - För stora dokument, konvertera sida för sida för att hantera minnet.
HtmlSaveOptionsstyr om bilder bäddas in inline eller sparas som externa filer.- SVG‑utdata är idealisk för högupplöst visning av enskilda sidor.
Vanliga problem
| Problem | Orsak | Lösning |
|---|---|---|
| HTML-utdata saknar bilder | Bilder är inte inbäddade; externa sökvägar felaktiga | Konfigurera HtmlSaveOptions för inbäddade bilder |
| PDF/A-konvertering tar bort kommentarer | Kommentarer är inte tillåtna i mål-PDF/A-profilen | Använd PDF/A-2 eller PDF/A-3 som tillåter kommentarer |
| Textutdrag förlorar formatering | Vanlig textutdata har ingen formatering avsiktligt | Använd HTML- eller Markdown-konvertering istället |
Vanliga frågor
Vilka PDF/A-profiler stöds?
PDF/A-1A, PDF/A-1B, PDF/A-2A, PDF/A-2B, PDF/A-3A och PDF/A-3B-profiler stöds via PdfFormat uppräkningsvärden.
Kan jag konvertera en enskild sida till HTML?
Ja. Använd PdfToHtmlConverter.SavePageAsHtml.
Bevarar Markdown‑konvertering tabeller?
Konverteraren försöker rendera tabellstrukturer som Markdown‑tabeller, men komplexa layouter kan kräva efterbehandling.
API-referenssammanfattning
| Class / Method | Description |
|---|---|
PdfToHtmlConverter | Konvertera PDF till HTML |
PdfToHtmlConverter.SaveAsHtml | Exportera hela dokumentet som HTML |
PdfToMarkdownConverter | Konvertera PDF till Markdown |
PdfToSvgConverter | Konvertera PDF-sidor till SVG |
PdfToTextConverter | Extrahera vanlig text från PDF |
HtmlSaveOptions | Alternativ för HTML-export (bilder, teckensnitt, layout) |
HeadingLevels | Konfigurera igenkända rubriknivåer |
PdfFormatConversionOptions | PDF/A-validerings- och konverteringsalternativ |