Konvertavimas ir optimizavimas

Konvertavimas ir optimizavimas

Konvertavimas ir optimizavimas

Aspose.PDF FOSS for .NET suteikia konverterius PDF transformavimui į HTML, Markdown, SVG ir paprastą tekstą. Optimizavimo posistemė sumažina failo dydį ir užtikrina PDF/A atitiktį per PdfFormatConversionOptions.


PDF į HTML

PdfToHtmlConverter eksportuoja PDF puslapius kaip HTML dokumentus.

var converter = new PdfToHtmlConverter();
converter.SaveAsHtml("input.pdf", "output.html");

// Or save each page separately
converter.SaveAllPagesAsHtml("input.pdf", "output_dir");

HtmlSaveOptions suteikia valdymą vaizdų tvarkymui, šriftų įterpimui ir išdėstymo strategijai.


PDF į Markdown

PdfToMarkdownConverter eksportuoja PDF turinį kaip Markdown tekstą.

var converter = new PdfToMarkdownConverter("input.pdf");
converter.SaveAsMarkdown("output.md");

// Single page
converter.SavePageAsMarkdown(1, "page1.md");

PDF į SVG

PdfToSvgConverter atvaizduoja kiekvieną puslapį kaip skalės vektorinę grafiką.

var converter = new PdfToSvgConverter();
converter.SaveAllPagesAsSvg("input.pdf", "output_dir");

PDF į tekstą

PdfToTextConverter išgauna grynąjį tekstą iš PDF puslapių.

var converter = new PdfToTextConverter();
converter.SaveAsText("input.pdf", "output.txt");

PDF/A atitiktis

PdfFormatConversionOptions tikrina ir konvertuoja dokumentus į PDF/A standartus

using var doc = Document.Open(pdfBytes);

var options = new PdfFormatConversionOptions(
    "log.xml",
    PdfFormat.PDF_A_1B,
    ConvertErrorAction.Delete);

doc.Convert(options);
doc.Save("pdfa.pdf");

Antraštės lygio valdiklis

HeadingLevels konfigūruoja, kurie antraštės lygiai yra atpažįstami konvertuojant į HTML arba Markdown.

var levels = new HeadingLevels();
levels.AddLevels(1, 3);  // Recognize H1 through H3

Patarimai ir geriausia praktika

  • Naudokite PdfToHtmlConverter interneto publikavimui ir PdfToMarkdownConverter dokumentacijos darbo srautams.
  • PDF/A konvertavimas gali pašalinti funkcijas (JavaScript, šifravimą), kurios pažeidžia standartą — naudokite ConvertErrorAction.Delete arba ConvertErrorAction.None.
  • Dideliems dokumentams konvertuokite puslapį po puslapio, kad valdytumėte atmintį.
  • HtmlSaveOptions valdo, ar vaizdai įterpiami tiesiogiai, ar išsaugomi kaip išoriniai failai.
  • SVG išvestis yra idealus aukštos raiškos atvaizdavimui atskirių puslapių.

Bendros problemos

IssueCauseFix
HTML išvestyje trūksta vaizdųVaizdai neįterpti; išoriniai keliai neteisingiKonfigūruokite HtmlSaveOptions įterptiems vaizdams
PDF/A konvertavimas pašalina anotacijasAnotacijos neleidžiamos tiksliniame PDF/A profilyjeNaudokite PDF/A-2 arba PDF/A-3, kurie leidžia anotacijas
Teksto išskyrimas praranda formatavimąGrynojo teksto išvestis neturi formatavimo pagal projektąVietoj to naudokite HTML arba Markdown konvertavimą

DUK

Kokie PDF/A profiliai palaikomi?

PDF/A-1A, PDF/A-1B, PDF/A-2A, PDF/A-2B, PDF/A-3A ir PDF/A-3B profiliai palaikomi per PdfFormat išvardijimo reikšmes.

Ar galiu konvertuoti vieną puslapį į HTML?

Taip. Naudokite PdfToHtmlConverter.SavePageAsHtml.

Ar Markdown konvertavimas išsaugo lenteles?

Konverteris bando atvaizduoti lentelių struktūras kaip Markdown lenteles, tačiau sudėtingi išdėstymai gali pareikalauti papildomo apdorojimo.


API nuorodų santrauka

Class / MethodDescription
PdfToHtmlConverterKonvertuoti PDF į HTML
PdfToHtmlConverter.SaveAsHtmlEksportuoti visą dokumentą kaip HTML
PdfToMarkdownConverterKonvertuoti PDF į Markdown
PdfToSvgConverterKonvertuoti PDF puslapius į SVG
PdfToTextConverterIšgauti grynąjį tekstą iš PDF
HtmlSaveOptionsHTML eksporto parinktys (vaizdai, šriftai, išdėstymas)
HeadingLevelsKonfigūruoti atpažintus antraščių lygius
PdfFormatConversionOptionsPDF/A tikrinimo ir konvertavimo parinktys

Žr. taip pat

 Lietuvių