Konverzia a optimalizácia

Konverzia a optimalizácia

Konverzia a optimalizácia

Aspose.PDF FOSS pre .NET poskytuje konvertory na transformáciu PDF do HTML, Markdown, SVG a obyčajného textu. Optimalizačný subsystém znižuje veľkosť súboru a zabezpečuje súlad s PDF/A prostredníctvom PdfFormatConversionOptions.


PDF do HTML

PdfToHtmlConverter exportuje stránky PDF ako HTML dokumenty.

var converter = new PdfToHtmlConverter();
converter.SaveAsHtml("input.pdf", "output.html");

// Or save each page separately
converter.SaveAllPagesAsHtml("input.pdf", "output_dir");

HtmlSaveOptions poskytuje kontrolu nad spracovaním obrázkov, vkladaním písiem a stratégiou rozloženia.


PDF do Markdownu

PdfToMarkdownConverter exportuje obsah PDF ako text v Markdown formáte.

var converter = new PdfToMarkdownConverter("input.pdf");
converter.SaveAsMarkdown("output.md");

// Single page
converter.SavePageAsMarkdown(1, "page1.md");

PDF na SVG

PdfToSvgConverter renderuje každú stránku ako škálovateľnú vektorovú grafiku.

var converter = new PdfToSvgConverter();
converter.SaveAllPagesAsSvg("input.pdf", "output_dir");

PDF na text

PdfToTextConverter extrahuje čistý text z PDF stránok.

var converter = new PdfToTextConverter();
converter.SaveAsText("input.pdf", "output.txt");

PDF/A súlad

PdfFormatConversionOptions overuje a konvertuje dokumenty do štandardov PDF/A.

using var doc = Document.Open(pdfBytes);

var options = new PdfFormatConversionOptions(
    "log.xml",
    PdfFormat.PDF_A_1B,
    ConvertErrorAction.Delete);

doc.Convert(options);
doc.Save("pdfa.pdf");

Ovládanie úrovne nadpisu

HeadingLevels konfiguruje, ktoré úrovne nadpisov sú rozpoznávané počas konverzie HTML alebo Markdown.

var levels = new HeadingLevels();
levels.AddLevels(1, 3);  // Recognize H1 through H3

Tipy a osvedčené postupy

  • Použite PdfToHtmlConverter pre webové publikovanie a PdfToMarkdownConverter pre pracovné postupy dokumentácie.
  • Konverzia PDF/A môže odstrániť funkcie (JavaScript, šifrovanie), ktoré porušujú štandard — použite ConvertErrorAction.Delete alebo ConvertErrorAction.None.
  • Pre veľké dokumenty konvertujte stránku po stránke, aby ste riadili pamäť.
  • HtmlSaveOptions určuje, či sú obrázky vložené inline alebo uložené ako externé súbory.
  • Výstup SVG je ideálny pre vysoké rozlíšenie zobrazenia jednotlivých strán.

Bežné problémy

ProblémPríčinaOprava
HTML výstup chýba obrázkyObrázky nie sú vložené; externé cesty nesprávneNakonfigurujte HtmlSaveOptions pre vložené obrázky
PDF/A konverzia odstraňuje anotácieAnotácie nie sú povolené v cieľovom profile PDF/APoužite PDF/A-2 alebo PDF/A-3, ktoré umožňujú anotácie
Extrahovanie textu stráca formátovanieVýstup obyčajného textu nemá formátovanie podľa návrhuPoužite konverziu do HTML alebo Markdown namiesto toho

Často kladené otázky

Aké profily PDF/A sú podporované?

PDF/A-1A, PDF/A-1B, PDF/A-2A, PDF/A-2B, PDF/A-3A a PDF/A-3B profily sú podporované prostredníctvom PdfFormat hodnôt enumerácie.

Môžem konvertovať jednu stránku do HTML?

Áno. Použite PdfToHtmlConverter.SavePageAsHtml.

Zachová konverzia Markdown tabuľky?

Konvertor sa pokúša vykresliť štruktúry tabuliek ako Markdown tabuľky, ale zložité rozloženia môžu vyžadovať následné spracovanie.


Prehľad referencie API

Class / MethodDescription
PdfToHtmlConverterPreviesť PDF na HTML
PdfToHtmlConverter.SaveAsHtmlExportovať celý dokument ako HTML
PdfToMarkdownConverterPreviesť PDF na Markdown
PdfToSvgConverterPreviesť stránky PDF na SVG
PdfToTextConverterExtrahovať čistý text z PDF
HtmlSaveOptionsMožnosti exportu HTML (obrázky, písma, rozloženie)
HeadingLevelsNastaviť rozpoznávané úrovne nadpisov
PdfFormatConversionOptionsMožnosti validácie a konverzie PDF/A

Pozri tiež

 Slovenčina