Conversió i optimització

Conversió i optimització

Conversió i optimització

Aspose.PDF FOSS for .NET proporciona converters per transformar PDFs a HTML, Markdown, SVG i text pla. El subsistema d’optimització redueix la mida del fitxer i garanteix la conformitat PDF/A a través de PdfFormatConversionOptions.


PDF a HTML

PdfToHtmlConverter exporta pàgines PDF com a documents HTML.

var converter = new PdfToHtmlConverter();
converter.SaveAsHtml("input.pdf", "output.html");

// Or save each page separately
converter.SaveAllPagesAsHtml("input.pdf", "output_dir");

HtmlSaveOptions proporciona control sobre la gestió d’imatges, la incrustació de tipografies i l’estratègia de disseny.


PDF a Markdown

PdfToMarkdownConverter exporta el contingut PDF com a text Markdown.

var converter = new PdfToMarkdownConverter("input.pdf");
converter.SaveAsMarkdown("output.md");

// Single page
converter.SavePageAsMarkdown(1, "page1.md");

PDF a SVG

PdfToSvgConverter renderitza cada pàgina com a gràfic vectorial escalable.

var converter = new PdfToSvgConverter();
converter.SaveAllPagesAsSvg("input.pdf", "output_dir");

PDF a text

PdfToTextConverter extreu text pla de les pàgines PDF.

var converter = new PdfToTextConverter();
converter.SaveAsText("input.pdf", "output.txt");

Compliment PDF/A

PdfFormatConversionOptions valida i converteix documents a les normes PDF/A.

using var doc = Document.Open(pdfBytes);

var options = new PdfFormatConversionOptions(
    "log.xml",
    PdfFormat.PDF_A_1B,
    ConvertErrorAction.Delete);

doc.Convert(options);
doc.Save("pdfa.pdf");

Control del nivell d’encapçalament

HeadingLevels configura quins nivells de capçalera es reconeixen durant la conversió a HTML o Markdown.

var levels = new HeadingLevels();
levels.AddLevels(1, 3);  // Recognize H1 through H3

Consells i bones pràctiques

  • Utilitzeu PdfToHtmlConverter per a la publicació web i PdfToMarkdownConverter per a fluxos de treball de documentació.
  • La conversió PDF/A pot eliminar funcions (JavaScript, xifratge) que infringeixen l’estàndard — utilitzeu ConvertErrorAction.Delete o ConvertErrorAction.None.
  • Per a documents grans, convertiu pàgina per pàgina per gestionar la memòria.
  • HtmlSaveOptions controla si les imatges s’incrusten en línia o es desen com a fitxers externs.
  • La sortida SVG és ideal per a la visualització d’alta resolució de pàgines individuals.

Problemes comuns

ProblemaCausaSolució
Sortida HTML sense imatgesImatges no incrustades; rutes externes incorrectesConfigura HtmlSaveOptions per a imatges incrustades
La conversió PDF/A elimina les anotacionsLes anotacions no estan permeses al perfil PDF/A de destinacióUtilitza PDF/A-2 o PDF/A-3 que permeten anotacions
L’extracció de text perd el formatLa sortida de text pla no té format per dissenyUtilitza la conversió a HTML o Markdown en canvi

PMF

Quins perfils PDF/A són compatibles?

PDF/A-1A, PDF/A-1B, PDF/A-2A, PDF/A-2B, PDF/A-3A i PDF/A-3B són compatibles a través dels valors d’enumeració PdfFormat.

Puc convertir una sola pàgina a HTML?

Sí. Utilitzeu PdfToHtmlConverter.SavePageAsHtml.

La conversió de Markdown preserva les taules?

El convertidor intenta renderitzar estructures de taula com a taules Markdown, però els dissenys complexos poden requerir postprocessament.


Resum de la referència de l’API

Class / MethodDescription
PdfToHtmlConverterConvertir PDF a HTML
PdfToHtmlConverter.SaveAsHtmlExportar tot el document com a HTML
PdfToMarkdownConverterConvertir PDF a Markdown
PdfToSvgConverterConvertir pàgines PDF a SVG
PdfToTextConverterExtreure text pla de PDF
HtmlSaveOptionsOpcions per a l’exportació d’HTML (imatges, tipografies, disseny)
HeadingLevelsConfigurar els nivells de títol reconeguts
PdfFormatConversionOptionsOpcions de validació i conversió PDF/A

Vegeu també

 Català