Konvertering och optimering

Konvertering och optimering

Konvertering och optimering

Aspose.PDF FOSS for .NET tillhandahåller konverterare för att omvandla PDF-filer till HTML, Markdown, SVG och vanlig text. Optimeringsdelsystemet minskar filstorleken och säkerställer PDF/A-efterlevnad genom PdfFormatConversionOptions.


PDF till HTML

PdfToHtmlConverter exporterar PDF‑sidor som HTML‑dokument.

var converter = new PdfToHtmlConverter();
converter.SaveAsHtml("input.pdf", "output.html");

// Or save each page separately
converter.SaveAllPagesAsHtml("input.pdf", "output_dir");

HtmlSaveOptions ger kontroll över bildhantering, teckensnittsinbäddning och layoutstrategi.


PDF till Markdown

PdfToMarkdownConverter exporterar PDF-innehåll som Markdown-text.

var converter = new PdfToMarkdownConverter("input.pdf");
converter.SaveAsMarkdown("output.md");

// Single page
converter.SavePageAsMarkdown(1, "page1.md");

PDF till SVG

PdfToSvgConverter renderar varje sida som en skalbar vektorgrafik.

var converter = new PdfToSvgConverter();
converter.SaveAllPagesAsSvg("input.pdf", "output_dir");

PDF till text

PdfToTextConverter extraherar ren text från PDF-sidor.

var converter = new PdfToTextConverter();
converter.SaveAsText("input.pdf", "output.txt");

PDF/A-efterlevnad

PdfFormatConversionOptions validerar och konverterar dokument till PDF/A-standarder.

using var doc = Document.Open(pdfBytes);

var options = new PdfFormatConversionOptions(
    "log.xml",
    PdfFormat.PDF_A_1B,
    ConvertErrorAction.Delete);

doc.Convert(options);
doc.Save("pdfa.pdf");

Rubriknivåkontroll

HeadingLevels konfigurerar vilka rubriknivåer som känns igen under HTML- eller Markdown‑konvertering.

var levels = new HeadingLevels();
levels.AddLevels(1, 3);  // Recognize H1 through H3

Tips och bästa praxis

  • Använd PdfToHtmlConverter för webbpublicering och PdfToMarkdownConverter för dokumentationsarbetsflöden.
  • PDF/A‑konvertering kan ta bort funktioner (JavaScript, kryptering) som strider mot standarden — använd ConvertErrorAction.Delete eller ConvertErrorAction.None.
  • För stora dokument, konvertera sida för sida för att hantera minnet.
  • HtmlSaveOptions styr om bilder bäddas in inline eller sparas som externa filer.
  • SVG‑utdata är idealisk för högupplöst visning av enskilda sidor.

Vanliga problem

ProblemOrsakLösning
HTML-utdata saknar bilderBilder är inte inbäddade; externa sökvägar felaktigaKonfigurera HtmlSaveOptions för inbäddade bilder
PDF/A-konvertering tar bort kommentarerKommentarer är inte tillåtna i mål-PDF/A-profilenAnvänd PDF/A-2 eller PDF/A-3 som tillåter kommentarer
Textutdrag förlorar formateringVanlig textutdata har ingen formatering avsiktligtAnvänd HTML- eller Markdown-konvertering istället

Vanliga frågor

Vilka PDF/A-profiler stöds?

PDF/A-1A, PDF/A-1B, PDF/A-2A, PDF/A-2B, PDF/A-3A och PDF/A-3B-profiler stöds via PdfFormat uppräkningsvärden.

Kan jag konvertera en enskild sida till HTML?

Ja. Använd PdfToHtmlConverter.SavePageAsHtml.

Bevarar Markdown‑konvertering tabeller?

Konverteraren försöker rendera tabellstrukturer som Markdown‑tabeller, men komplexa layouter kan kräva efterbehandling.


API-referenssammanfattning

Class / MethodDescription
PdfToHtmlConverterKonvertera PDF till HTML
PdfToHtmlConverter.SaveAsHtmlExportera hela dokumentet som HTML
PdfToMarkdownConverterKonvertera PDF till Markdown
PdfToSvgConverterKonvertera PDF-sidor till SVG
PdfToTextConverterExtrahera vanlig text från PDF
HtmlSaveOptionsAlternativ för HTML-export (bilder, teckensnitt, layout)
HeadingLevelsKonfigurera igenkända rubriknivåer
PdfFormatConversionOptionsPDF/A-validerings- och konverteringsalternativ

Se även

 Svenska