Konvertavimas ir optimizavimas
Konvertavimas ir optimizavimas
Aspose.PDF FOSS for .NET suteikia konverterius PDF transformavimui į HTML,
Markdown, SVG ir paprastą tekstą. Optimizavimo posistemė sumažina failo dydį
ir užtikrina PDF/A atitiktį per PdfFormatConversionOptions.
PDF į HTML
PdfToHtmlConverter eksportuoja PDF puslapius kaip HTML dokumentus.
var converter = new PdfToHtmlConverter();
converter.SaveAsHtml("input.pdf", "output.html");
// Or save each page separately
converter.SaveAllPagesAsHtml("input.pdf", "output_dir");HtmlSaveOptions suteikia valdymą vaizdų tvarkymui, šriftų įterpimui ir išdėstymo strategijai.
PDF į Markdown
PdfToMarkdownConverter eksportuoja PDF turinį kaip Markdown tekstą.
var converter = new PdfToMarkdownConverter("input.pdf");
converter.SaveAsMarkdown("output.md");
// Single page
converter.SavePageAsMarkdown(1, "page1.md");PDF į SVG
PdfToSvgConverter atvaizduoja kiekvieną puslapį kaip skalės vektorinę grafiką.
var converter = new PdfToSvgConverter();
converter.SaveAllPagesAsSvg("input.pdf", "output_dir");PDF į tekstą
PdfToTextConverter išgauna grynąjį tekstą iš PDF puslapių.
var converter = new PdfToTextConverter();
converter.SaveAsText("input.pdf", "output.txt");PDF/A atitiktis
PdfFormatConversionOptions tikrina ir konvertuoja dokumentus į PDF/A standartus
using var doc = Document.Open(pdfBytes);
var options = new PdfFormatConversionOptions(
"log.xml",
PdfFormat.PDF_A_1B,
ConvertErrorAction.Delete);
doc.Convert(options);
doc.Save("pdfa.pdf");Antraštės lygio valdiklis
HeadingLevels konfigūruoja, kurie antraštės lygiai yra atpažįstami konvertuojant į HTML arba Markdown.
var levels = new HeadingLevels();
levels.AddLevels(1, 3); // Recognize H1 through H3Patarimai ir geriausia praktika
- Naudokite
PdfToHtmlConverterinterneto publikavimui irPdfToMarkdownConverterdokumentacijos darbo srautams. - PDF/A konvertavimas gali pašalinti funkcijas (JavaScript, šifravimą), kurios pažeidžia standartą — naudokite
ConvertErrorAction.DeletearbaConvertErrorAction.None. - Dideliems dokumentams konvertuokite puslapį po puslapio, kad valdytumėte atmintį.
HtmlSaveOptionsvaldo, ar vaizdai įterpiami tiesiogiai, ar išsaugomi kaip išoriniai failai.- SVG išvestis yra idealus aukštos raiškos atvaizdavimui atskirių puslapių.
Bendros problemos
| Issue | Cause | Fix |
|---|---|---|
| HTML išvestyje trūksta vaizdų | Vaizdai neįterpti; išoriniai keliai neteisingi | Konfigūruokite HtmlSaveOptions įterptiems vaizdams |
| PDF/A konvertavimas pašalina anotacijas | Anotacijos neleidžiamos tiksliniame PDF/A profilyje | Naudokite PDF/A-2 arba PDF/A-3, kurie leidžia anotacijas |
| Teksto išskyrimas praranda formatavimą | Grynojo teksto išvestis neturi formatavimo pagal projektą | Vietoj to naudokite HTML arba Markdown konvertavimą |
DUK
Kokie PDF/A profiliai palaikomi?
PDF/A-1A, PDF/A-1B, PDF/A-2A, PDF/A-2B, PDF/A-3A ir PDF/A-3B profiliai palaikomi per PdfFormat išvardijimo reikšmes.
Ar galiu konvertuoti vieną puslapį į HTML?
Taip. Naudokite PdfToHtmlConverter.SavePageAsHtml.
Ar Markdown konvertavimas išsaugo lenteles?
Konverteris bando atvaizduoti lentelių struktūras kaip Markdown lenteles, tačiau sudėtingi išdėstymai gali pareikalauti papildomo apdorojimo.
API nuorodų santrauka
| Class / Method | Description |
|---|---|
PdfToHtmlConverter | Konvertuoti PDF į HTML |
PdfToHtmlConverter.SaveAsHtml | Eksportuoti visą dokumentą kaip HTML |
PdfToMarkdownConverter | Konvertuoti PDF į Markdown |
PdfToSvgConverter | Konvertuoti PDF puslapius į SVG |
PdfToTextConverter | Išgauti grynąjį tekstą iš PDF |
HtmlSaveOptions | HTML eksporto parinktys (vaizdai, šriftai, išdėstymas) |
HeadingLevels | Konfigūruoti atpažintus antraščių lygius |
PdfFormatConversionOptions | PDF/A tikrinimo ir konvertavimo parinktys |