Conversió i optimització
Conversió i optimització
Aspose.PDF FOSS for .NET proporciona converters per transformar PDFs a HTML,
Markdown, SVG i text pla. El subsistema d’optimització redueix la mida del fitxer
i garanteix la conformitat PDF/A a través de PdfFormatConversionOptions.
PDF a HTML
PdfToHtmlConverter exporta pàgines PDF com a documents HTML.
var converter = new PdfToHtmlConverter();
converter.SaveAsHtml("input.pdf", "output.html");
// Or save each page separately
converter.SaveAllPagesAsHtml("input.pdf", "output_dir");HtmlSaveOptions proporciona control sobre la gestió d’imatges, la incrustació de tipografies i l’estratègia de disseny.
PDF a Markdown
PdfToMarkdownConverter exporta el contingut PDF com a text Markdown.
var converter = new PdfToMarkdownConverter("input.pdf");
converter.SaveAsMarkdown("output.md");
// Single page
converter.SavePageAsMarkdown(1, "page1.md");PDF a SVG
PdfToSvgConverter renderitza cada pàgina com a gràfic vectorial escalable.
var converter = new PdfToSvgConverter();
converter.SaveAllPagesAsSvg("input.pdf", "output_dir");PDF a text
PdfToTextConverter extreu text pla de les pàgines PDF.
var converter = new PdfToTextConverter();
converter.SaveAsText("input.pdf", "output.txt");Compliment PDF/A
PdfFormatConversionOptions valida i converteix documents a les normes PDF/A.
using var doc = Document.Open(pdfBytes);
var options = new PdfFormatConversionOptions(
"log.xml",
PdfFormat.PDF_A_1B,
ConvertErrorAction.Delete);
doc.Convert(options);
doc.Save("pdfa.pdf");Control del nivell d’encapçalament
HeadingLevels configura quins nivells de capçalera es reconeixen durant la conversió a HTML o Markdown.
var levels = new HeadingLevels();
levels.AddLevels(1, 3); // Recognize H1 through H3Consells i bones pràctiques
- Utilitzeu
PdfToHtmlConverterper a la publicació web iPdfToMarkdownConverterper a fluxos de treball de documentació. - La conversió PDF/A pot eliminar funcions (JavaScript, xifratge) que infringeixen l’estàndard — utilitzeu
ConvertErrorAction.DeleteoConvertErrorAction.None. - Per a documents grans, convertiu pàgina per pàgina per gestionar la memòria.
HtmlSaveOptionscontrola si les imatges s’incrusten en línia o es desen com a fitxers externs.- La sortida SVG és ideal per a la visualització d’alta resolució de pàgines individuals.
Problemes comuns
| Problema | Causa | Solució |
|---|---|---|
| Sortida HTML sense imatges | Imatges no incrustades; rutes externes incorrectes | Configura HtmlSaveOptions per a imatges incrustades |
| La conversió PDF/A elimina les anotacions | Les anotacions no estan permeses al perfil PDF/A de destinació | Utilitza PDF/A-2 o PDF/A-3 que permeten anotacions |
| L’extracció de text perd el format | La sortida de text pla no té format per disseny | Utilitza la conversió a HTML o Markdown en canvi |
PMF
Quins perfils PDF/A són compatibles?
PDF/A-1A, PDF/A-1B, PDF/A-2A, PDF/A-2B, PDF/A-3A i PDF/A-3B són compatibles a través dels valors d’enumeració PdfFormat.
Puc convertir una sola pàgina a HTML?
Sí. Utilitzeu PdfToHtmlConverter.SavePageAsHtml.
La conversió de Markdown preserva les taules?
El convertidor intenta renderitzar estructures de taula com a taules Markdown, però els dissenys complexos poden requerir postprocessament.
Resum de la referència de l’API
| Class / Method | Description |
|---|---|
PdfToHtmlConverter | Convertir PDF a HTML |
PdfToHtmlConverter.SaveAsHtml | Exportar tot el document com a HTML |
PdfToMarkdownConverter | Convertir PDF a Markdown |
PdfToSvgConverter | Convertir pàgines PDF a SVG |
PdfToTextConverter | Extreure text pla de PDF |
HtmlSaveOptions | Opcions per a l’exportació d’HTML (imatges, tipografies, disseny) |
HeadingLevels | Configurar els nivells de títol reconeguts |
PdfFormatConversionOptions | Opcions de validació i conversió PDF/A |