Konverze a optimalizace

Konverze a optimalizace

Konverze a optimalizace

Aspose.PDF FOSS for .NET poskytuje konvertory pro převod PDF do HTML, Markdown, SVG a prostého textu. Optimalizační subsystém snižuje velikost souboru a zajišťuje soulad s PDF/A prostřednictvím PdfFormatConversionOptions.


PDF do HTML

PdfToHtmlConverter exportuje stránky PDF jako HTML dokumenty.

var converter = new PdfToHtmlConverter();
converter.SaveAsHtml("input.pdf", "output.html");

// Or save each page separately
converter.SaveAllPagesAsHtml("input.pdf", "output_dir");

HtmlSaveOptions poskytuje kontrolu nad zpracováním obrázků, vkládáním fontů a strategií rozvržení.


PDF do Markdownu

PdfToMarkdownConverter exportuje obsah PDF jako text v Markdownu.

var converter = new PdfToMarkdownConverter("input.pdf");
converter.SaveAsMarkdown("output.md");

// Single page
converter.SavePageAsMarkdown(1, "page1.md");

PDF na SVG

PdfToSvgConverter vykresluje každou stránku jako škálovatelný vektorový grafický formát.

var converter = new PdfToSvgConverter();
converter.SaveAllPagesAsSvg("input.pdf", "output_dir");

PDF na text

PdfToTextConverter extrahuje prostý text z PDF stránek.

var converter = new PdfToTextConverter();
converter.SaveAsText("input.pdf", "output.txt");

Shoda s PDF/A

PdfFormatConversionOptions ověřuje a převádí dokumenty do standardů PDF/A.

using var doc = Document.Open(pdfBytes);

var options = new PdfFormatConversionOptions(
    "log.xml",
    PdfFormat.PDF_A_1B,
    ConvertErrorAction.Delete);

doc.Convert(options);
doc.Save("pdfa.pdf");

Řízení úrovně nadpisu

HeadingLevels konfiguruje, které úrovně nadpisů jsou rozpoznány během konverze HTML nebo Markdownu.

var levels = new HeadingLevels();
levels.AddLevels(1, 3);  // Recognize H1 through H3

Tipy a osvědčené postupy

  • Použijte PdfToHtmlConverter pro webové publikování a PdfToMarkdownConverter pro dokumentační workflow.
  • Při konverzi na PDF/A mohou být odstraněny funkce (JavaScript, šifrování), které porušují standard — použijte ConvertErrorAction.Delete nebo ConvertErrorAction.None.
  • U velkých dokumentů převádějte stránku po stránce, aby se lépe spravovala paměť.
  • HtmlSaveOptions určuje, zda jsou obrázky vloženy inline nebo uloženy jako externí soubory.
  • Výstup SVG je ideální pro zobrazení jednotlivých stránek ve vysokém rozlišení.

Časté problémy

ProblémPříčinaOprava
Chybí obrázky ve výstupu HTMLObrázky nejsou vloženy; externí cesty jsou nesprávnéNakonfigurujte HtmlSaveOptions pro vložené obrázky
Konverze PDF/A odstraňuje anotaceAnotace nejsou povoleny v cílovém profilu PDF/APoužijte PDF/A-2 nebo PDF/A-3, které umožňují anotace
Extrakce textu ztrácí formátováníVýstup prostého textu nemá formátování záměrněPoužijte konverzi do HTML nebo Markdown místo toho

Často kladené otázky

Které profily PDF/A jsou podporovány?

Profily PDF/A-1A, PDF/A-1B, PDF/A-2A, PDF/A-2B, PDF/A-3A a PDF/A-3B jsou podporovány prostřednictvím hodnot výčtu PdfFormat.

Mohu převést jednu stránku do HTML?

Ano. Použijte PdfToHtmlConverter.SavePageAsHtml.

Zachovává převod Markdownu tabulky?

Převodník se snaží vykreslit struktury tabulek jako Markdown tabulky, ale složité rozvržení může vyžadovat následné zpracování.


Souhrn referenčního API

Class / MethodDescription
PdfToHtmlConverterPřevést PDF na HTML
PdfToHtmlConverter.SaveAsHtmlExportovat celý dokument jako HTML
PdfToMarkdownConverterPřevést PDF na Markdown
PdfToSvgConverterPřevést stránky PDF na SVG
PdfToTextConverterExtrahovat prostý text z PDF
HtmlSaveOptionsMožnosti exportu HTML (obrázky, písma, rozvržení)
HeadingLevelsNastavit rozpoznávané úrovně nadpisů
PdfFormatConversionOptionsMožnosti validace a konverze PDF/A

Viz také

 Čeština