Konverze a optimalizace
Konverze a optimalizace
Aspose.PDF FOSS for .NET poskytuje konvertory pro převod PDF do HTML,
Markdown, SVG a prostého textu. Optimalizační subsystém snižuje velikost souboru
a zajišťuje soulad s PDF/A prostřednictvím PdfFormatConversionOptions.
PDF do HTML
PdfToHtmlConverter exportuje stránky PDF jako HTML dokumenty.
var converter = new PdfToHtmlConverter();
converter.SaveAsHtml("input.pdf", "output.html");
// Or save each page separately
converter.SaveAllPagesAsHtml("input.pdf", "output_dir");HtmlSaveOptions poskytuje kontrolu nad zpracováním obrázků, vkládáním fontů a strategií rozvržení.
PDF do Markdownu
PdfToMarkdownConverter exportuje obsah PDF jako text v Markdownu.
var converter = new PdfToMarkdownConverter("input.pdf");
converter.SaveAsMarkdown("output.md");
// Single page
converter.SavePageAsMarkdown(1, "page1.md");PDF na SVG
PdfToSvgConverter vykresluje každou stránku jako škálovatelný vektorový grafický formát.
var converter = new PdfToSvgConverter();
converter.SaveAllPagesAsSvg("input.pdf", "output_dir");PDF na text
PdfToTextConverter extrahuje prostý text z PDF stránek.
var converter = new PdfToTextConverter();
converter.SaveAsText("input.pdf", "output.txt");Shoda s PDF/A
PdfFormatConversionOptions ověřuje a převádí dokumenty do standardů PDF/A.
using var doc = Document.Open(pdfBytes);
var options = new PdfFormatConversionOptions(
"log.xml",
PdfFormat.PDF_A_1B,
ConvertErrorAction.Delete);
doc.Convert(options);
doc.Save("pdfa.pdf");Řízení úrovně nadpisu
HeadingLevels konfiguruje, které úrovně nadpisů jsou rozpoznány během konverze HTML nebo Markdownu.
var levels = new HeadingLevels();
levels.AddLevels(1, 3); // Recognize H1 through H3Tipy a osvědčené postupy
- Použijte
PdfToHtmlConverterpro webové publikování aPdfToMarkdownConverterpro dokumentační workflow. - Při konverzi na PDF/A mohou být odstraněny funkce (JavaScript, šifrování), které porušují standard — použijte
ConvertErrorAction.DeleteneboConvertErrorAction.None. - U velkých dokumentů převádějte stránku po stránce, aby se lépe spravovala paměť.
HtmlSaveOptionsurčuje, zda jsou obrázky vloženy inline nebo uloženy jako externí soubory.- Výstup SVG je ideální pro zobrazení jednotlivých stránek ve vysokém rozlišení.
Časté problémy
| Problém | Příčina | Oprava |
|---|---|---|
| Chybí obrázky ve výstupu HTML | Obrázky nejsou vloženy; externí cesty jsou nesprávné | Nakonfigurujte HtmlSaveOptions pro vložené obrázky |
| Konverze PDF/A odstraňuje anotace | Anotace nejsou povoleny v cílovém profilu PDF/A | Použijte PDF/A-2 nebo PDF/A-3, které umožňují anotace |
| Extrakce textu ztrácí formátování | Výstup prostého textu nemá formátování záměrně | Použijte konverzi do HTML nebo Markdown místo toho |
Často kladené otázky
Které profily PDF/A jsou podporovány?
Profily PDF/A-1A, PDF/A-1B, PDF/A-2A, PDF/A-2B, PDF/A-3A a PDF/A-3B jsou podporovány prostřednictvím hodnot výčtu PdfFormat.
Mohu převést jednu stránku do HTML?
Ano. Použijte PdfToHtmlConverter.SavePageAsHtml.
Zachovává převod Markdownu tabulky?
Převodník se snaží vykreslit struktury tabulek jako Markdown tabulky, ale složité rozvržení může vyžadovat následné zpracování.
Souhrn referenčního API
| Class / Method | Description |
|---|---|
PdfToHtmlConverter | Převést PDF na HTML |
PdfToHtmlConverter.SaveAsHtml | Exportovat celý dokument jako HTML |
PdfToMarkdownConverter | Převést PDF na Markdown |
PdfToSvgConverter | Převést stránky PDF na SVG |
PdfToTextConverter | Extrahovat prostý text z PDF |
HtmlSaveOptions | Možnosti exportu HTML (obrázky, písma, rozvržení) |
HeadingLevels | Nastavit rozpoznávané úrovně nadpisů |
PdfFormatConversionOptions | Možnosti validace a konverze PDF/A |