Konverzia a optimalizácia
Konverzia a optimalizácia
Aspose.PDF FOSS pre .NET poskytuje konvertory na transformáciu PDF do HTML,
Markdown, SVG a obyčajného textu. Optimalizačný subsystém znižuje veľkosť súboru
a zabezpečuje súlad s PDF/A prostredníctvom PdfFormatConversionOptions.
PDF do HTML
PdfToHtmlConverter exportuje stránky PDF ako HTML dokumenty.
var converter = new PdfToHtmlConverter();
converter.SaveAsHtml("input.pdf", "output.html");
// Or save each page separately
converter.SaveAllPagesAsHtml("input.pdf", "output_dir");HtmlSaveOptions poskytuje kontrolu nad spracovaním obrázkov, vkladaním písiem a stratégiou rozloženia.
PDF do Markdownu
PdfToMarkdownConverter exportuje obsah PDF ako text v Markdown formáte.
var converter = new PdfToMarkdownConverter("input.pdf");
converter.SaveAsMarkdown("output.md");
// Single page
converter.SavePageAsMarkdown(1, "page1.md");PDF na SVG
PdfToSvgConverter renderuje každú stránku ako škálovateľnú vektorovú grafiku.
var converter = new PdfToSvgConverter();
converter.SaveAllPagesAsSvg("input.pdf", "output_dir");PDF na text
PdfToTextConverter extrahuje čistý text z PDF stránok.
var converter = new PdfToTextConverter();
converter.SaveAsText("input.pdf", "output.txt");PDF/A súlad
PdfFormatConversionOptions overuje a konvertuje dokumenty do štandardov PDF/A.
using var doc = Document.Open(pdfBytes);
var options = new PdfFormatConversionOptions(
"log.xml",
PdfFormat.PDF_A_1B,
ConvertErrorAction.Delete);
doc.Convert(options);
doc.Save("pdfa.pdf");Ovládanie úrovne nadpisu
HeadingLevels konfiguruje, ktoré úrovne nadpisov sú rozpoznávané počas konverzie HTML alebo Markdown.
var levels = new HeadingLevels();
levels.AddLevels(1, 3); // Recognize H1 through H3Tipy a osvedčené postupy
- Použite
PdfToHtmlConverterpre webové publikovanie aPdfToMarkdownConverterpre pracovné postupy dokumentácie. - Konverzia PDF/A môže odstrániť funkcie (JavaScript, šifrovanie), ktoré porušujú štandard — použite
ConvertErrorAction.DeletealeboConvertErrorAction.None. - Pre veľké dokumenty konvertujte stránku po stránke, aby ste riadili pamäť.
HtmlSaveOptionsurčuje, či sú obrázky vložené inline alebo uložené ako externé súbory.- Výstup SVG je ideálny pre vysoké rozlíšenie zobrazenia jednotlivých strán.
Bežné problémy
| Problém | Príčina | Oprava |
|---|---|---|
| HTML výstup chýba obrázky | Obrázky nie sú vložené; externé cesty nesprávne | Nakonfigurujte HtmlSaveOptions pre vložené obrázky |
| PDF/A konverzia odstraňuje anotácie | Anotácie nie sú povolené v cieľovom profile PDF/A | Použite PDF/A-2 alebo PDF/A-3, ktoré umožňujú anotácie |
| Extrahovanie textu stráca formátovanie | Výstup obyčajného textu nemá formátovanie podľa návrhu | Použite konverziu do HTML alebo Markdown namiesto toho |
Často kladené otázky
Aké profily PDF/A sú podporované?
PDF/A-1A, PDF/A-1B, PDF/A-2A, PDF/A-2B, PDF/A-3A a PDF/A-3B profily sú podporované prostredníctvom PdfFormat hodnôt enumerácie.
Môžem konvertovať jednu stránku do HTML?
Áno. Použite PdfToHtmlConverter.SavePageAsHtml.
Zachová konverzia Markdown tabuľky?
Konvertor sa pokúša vykresliť štruktúry tabuliek ako Markdown tabuľky, ale zložité rozloženia môžu vyžadovať následné spracovanie.
Prehľad referencie API
| Class / Method | Description |
|---|---|
PdfToHtmlConverter | Previesť PDF na HTML |
PdfToHtmlConverter.SaveAsHtml | Exportovať celý dokument ako HTML |
PdfToMarkdownConverter | Previesť PDF na Markdown |
PdfToSvgConverter | Previesť stránky PDF na SVG |
PdfToTextConverter | Extrahovať čistý text z PDF |
HtmlSaveOptions | Možnosti exportu HTML (obrázky, písma, rozloženie) |
HeadingLevels | Nastaviť rozpoznávané úrovne nadpisov |
PdfFormatConversionOptions | Možnosti validácie a konverzie PDF/A |