Konvertering og optimalisering
Konvertering og optimalisering
Aspose.PDF FOSS for .NET tilbyr konverterere for å transformere PDF-er til HTML,
Markdown, SVG og ren tekst. Optimeringsunderdelen reduserer filstørrelsen
og sikrer PDF/A-samsvar gjennom PdfFormatConversionOptions.
PDF til HTML
PdfToHtmlConverter eksporterer PDF‑sider som HTML‑dokumenter.
var converter = new PdfToHtmlConverter();
converter.SaveAsHtml("input.pdf", "output.html");
// Or save each page separately
converter.SaveAllPagesAsHtml("input.pdf", "output_dir");HtmlSaveOptions gir kontroll over bildebehandling, font‑innbygging og layoutstrategi.
PDF til Markdown
PdfToMarkdownConverter eksporterer PDF‑innhold som Markdown‑tekst.
var converter = new PdfToMarkdownConverter("input.pdf");
converter.SaveAsMarkdown("output.md");
// Single page
converter.SavePageAsMarkdown(1, "page1.md");PDF til SVG
PdfToSvgConverter rendrer hver side som en skalerbar vektorgrafikk.
var converter = new PdfToSvgConverter();
converter.SaveAllPagesAsSvg("input.pdf", "output_dir");PDF til tekst
PdfToTextConverter ekstraherer ren tekst fra PDF‑sider.
var converter = new PdfToTextConverter();
converter.SaveAsText("input.pdf", "output.txt");PDF/A-etterlevelse
PdfFormatConversionOptions validerer og konverterer dokumenter til PDF/A-standarder.
using var doc = Document.Open(pdfBytes);
var options = new PdfFormatConversionOptions(
"log.xml",
PdfFormat.PDF_A_1B,
ConvertErrorAction.Delete);
doc.Convert(options);
doc.Save("pdfa.pdf");Overskriftsnivåkontroll
HeadingLevels konfigurerer hvilke overskriftsnivåer som gjenkjennes under HTML- eller Markdown-konvertering.
var levels = new HeadingLevels();
levels.AddLevels(1, 3); // Recognize H1 through H3Tips og beste praksis
- Bruk
PdfToHtmlConverterfor webpublisering ogPdfToMarkdownConverterfor dokumentasjonsarbeidsflyter. - PDF/A-konvertering kan fjerne funksjoner (JavaScript, kryptering) som bryter standarden — bruk
ConvertErrorAction.DeleteellerConvertErrorAction.None. - For store dokumenter, konverter side‑for‑side for å håndtere minnet.
HtmlSaveOptionsstyrer om bilder er innebygd inline eller lagret som eksterne filer.- SVG‑utdata er ideelt for høyoppløselig visning av individuelle sider.
Vanlige problemer
| Issue | Cause | Fix |
|---|---|---|
| HTML-utdata mangler bilder | Bilder er ikke innebygd; eksterne stier er feil | Konfigurer HtmlSaveOptions for innebygde bilder |
| PDF/A-konvertering fjerner merknader | Merknader er ikke tillatt i mål-PDF/A-profilen | Bruk PDF/A-2 eller PDF/A-3 som tillater merknader |
| Tekstekstraksjon mister formatering | Ren tekstutdata har ingen formatering som design | Bruk HTML- eller Markdown-konvertering i stedet |
FAQ
Hvilke PDF/A-profiler støttes?
PDF/A-1A, PDF/A-1B, PDF/A-2A, PDF/A-2B, PDF/A-3A og PDF/A-3B-profiler støttes via PdfFormat oppregningsverdier.
Kan jeg konvertere en enkelt side til HTML?
Ja. Bruk PdfToHtmlConverter.SavePageAsHtml.
Bevarer Markdown‑konvertering tabeller?
Konverteren prøver å gjengi tabellstrukturer som Markdown‑tabeller, men komplekse oppsett kan kreve etterbehandling.
API-referansesammendrag
| Class / Method | Description |
|---|---|
PdfToHtmlConverter | Konverter PDF til HTML |
PdfToHtmlConverter.SaveAsHtml | Eksporter hele dokumentet som HTML |
PdfToMarkdownConverter | Konverter PDF til Markdown |
PdfToSvgConverter | Konverter PDF-sider til SVG |
PdfToTextConverter | Hent ut ren tekst fra PDF |
HtmlSaveOptions | Alternativer for HTML-eksport (bilder, skrifttyper, layout) |
HeadingLevels | Konfigurer gjenkjente overskriftsnivåer |
PdfFormatConversionOptions | PDF/A-validerings- og konverteringsalternativer |