Conversie și optimizare

Conversie și optimizare

Conversie și optimizare

Aspose.PDF FOSS pentru .NET oferă convertoare pentru transformarea PDF-urilor în HTML, Markdown, SVG și text simplu. Subsystemul de optimizare reduce dimensiunea fișierului și asigură conformitatea PDF/A prin PdfFormatConversionOptions.


PDF în HTML

PdfToHtmlConverter exportă paginile PDF ca documente HTML.

var converter = new PdfToHtmlConverter();
converter.SaveAsHtml("input.pdf", "output.html");

// Or save each page separately
converter.SaveAllPagesAsHtml("input.pdf", "output_dir");

HtmlSaveOptions oferă control asupra gestionării imaginilor, încorporării fonturilor și strategiei de aspect.


PDF la Markdown

PdfToMarkdownConverter exportă conținut PDF ca text Markdown.

var converter = new PdfToMarkdownConverter("input.pdf");
converter.SaveAsMarkdown("output.md");

// Single page
converter.SavePageAsMarkdown(1, "page1.md");

PDF în SVG

PdfToSvgConverter redă fiecare pagină ca un grafic vectorial scalabil.

var converter = new PdfToSvgConverter();
converter.SaveAllPagesAsSvg("input.pdf", "output_dir");

PDF la text

PdfToTextConverter extrage text simplu din paginile PDF.

var converter = new PdfToTextConverter();
converter.SaveAsText("input.pdf", "output.txt");

Conformitate PDF/A

PdfFormatConversionOptions validează și convertește documente în standardele PDF/A.

using var doc = Document.Open(pdfBytes);

var options = new PdfFormatConversionOptions(
    "log.xml",
    PdfFormat.PDF_A_1B,
    ConvertErrorAction.Delete);

doc.Convert(options);
doc.Save("pdfa.pdf");

Controlul nivelului titlului

HeadingLevels configurează nivelurile de titlu recunoscute în timpul conversiei HTML sau Markdown.

var levels = new HeadingLevels();
levels.AddLevels(1, 3);  // Recognize H1 through H3

Sfaturi și cele mai bune practici

  • Utilizați PdfToHtmlConverter pentru publicarea pe web și PdfToMarkdownConverter pentru fluxurile de lucru de documentație.
  • Conversia PDF/A poate elimina funcționalități (JavaScript, criptare) care încalcă standardul — utilizați ConvertErrorAction.Delete sau ConvertErrorAction.None.
  • Pentru documente mari, convertiți pagină cu pagină pentru a gestiona memoria.
  • HtmlSaveOptions controlează dacă imaginile sunt încorporate în linie sau salvate ca fișiere externe.
  • Ieșirea SVG este ideală pentru afișarea la înaltă rezoluție a paginilor individuale.

Probleme comune

ProblemCauzăRemediere
Lipsă imagini în ieșirea HTMLImaginile nu sunt încorporate; căile externe incorecteConfigurați HtmlSaveOptions pentru imagini încorporate
Conversia PDF/A elimină adnotărileAdnotările nu sunt permise în profilul PDF/A țintăUtilizați PDF/A-2 sau PDF/A-3 care permit adnotări
Extracția de text pierde formatareaIeșirea în text simplu nu are formatare prin designUtilizați conversia în HTML sau Markdown în schimb

Întrebări frecvente

Ce profiluri PDF/A sunt acceptate?

Profilurile PDF/A-1A, PDF/A-1B, PDF/A-2A, PDF/A-2B, PDF/A-3A și PDF/A-3B sunt acceptate prin valorile enumerării PdfFormat.

Pot converti o singură pagină în HTML?

Da. Folosiți PdfToHtmlConverter.SavePageAsHtml.

Conversia Markdown păstrează tabelele?

Convertorul încearcă să redea structurile de tabel ca tabele Markdown, dar aranjamentele complexe pot necesita post‑procesare.


Rezumatul referinței API

Class / MethodDescription
PdfToHtmlConverterConvertește PDF în HTML
PdfToHtmlConverter.SaveAsHtmlExportă întregul document ca HTML
PdfToMarkdownConverterConvertește PDF în Markdown
PdfToSvgConverterConvertește paginile PDF în SVG
PdfToTextConverterExtrage text simplu din PDF
HtmlSaveOptionsOpțiuni pentru exportul HTML (imagini, fonturi, aspect)
HeadingLevelsConfigurează nivelurile de titluri recunoscute
PdfFormatConversionOptionsOpțiuni de validare și conversie PDF/A

Vezi și

 Română