Conversión y Optimización

Conversión y Optimización

Conversión y Optimización

Aspose.PDF FOSS for .NET proporciona convertidores para transformar PDFs a HTML, Markdown, SVG y texto plano. El subsistema de optimización reduce el tamaño del archivo y garantiza el cumplimiento de PDF/A a través de PdfFormatConversionOptions.


PDF a HTML

PdfToHtmlConverter exporta páginas PDF como documentos HTML.

var converter = new PdfToHtmlConverter();
converter.SaveAsHtml("input.pdf", "output.html");

// Or save each page separately
converter.SaveAllPagesAsHtml("input.pdf", "output_dir");

HtmlSaveOptions proporciona control sobre el manejo de imágenes, la incrustación de fuentes y la estrategia de diseño.


PDF a Markdown

PdfToMarkdownConverter exporta contenido PDF como texto Markdown.

var converter = new PdfToMarkdownConverter("input.pdf");
converter.SaveAsMarkdown("output.md");

// Single page
converter.SavePageAsMarkdown(1, "page1.md");

PDF a SVG

PdfToSvgConverter renderiza cada página como un gráfico vectorial escalable.

var converter = new PdfToSvgConverter();
converter.SaveAllPagesAsSvg("input.pdf", "output_dir");

PDF a texto

PdfToTextConverter extrae texto sin formato de las páginas PDF.

var converter = new PdfToTextConverter();
converter.SaveAsText("input.pdf", "output.txt");

PDF/A cumplimiento

PdfFormatConversionOptions valida y convierte documentos a PDF/A
estándares.

using var doc = Document.Open(pdfBytes);

var options = new PdfFormatConversionOptions(
    "log.xml",
    PdfFormat.PDF_A_1B,
    ConvertErrorAction.Delete);

doc.Convert(options);
doc.Save("pdfa.pdf");

Control de nivel de encabezado

HeadingLevels configura qué niveles de encabezado se reconocen durante la conversión a HTML o Markdown.

var levels = new HeadingLevels();
levels.AddLevels(1, 3);  // Recognize H1 through H3

Consejos y Mejores Prácticas

  • Utilice PdfToHtmlConverter para la publicación web y PdfToMarkdownConverter para flujos de trabajo de documentación.
  • La conversión a PDF/A puede eliminar características (JavaScript, cifrado) que violan el estándar — utilice ConvertErrorAction.Delete o ConvertErrorAction.None.
  • Para documentos grandes, convierta página por página para gestionar la memoria.
  • HtmlSaveOptions controla si las imágenes se incrustan en línea o se guardan como archivos externos.
  • La salida SVG es ideal para la visualización de alta resolución de páginas individuales.

Problemas comunes

ProblemaCausaSolución
Salida HTML sin imágenesImágenes no incrustadas; rutas externas incorrectasConfigure HtmlSaveOptions para imágenes incrustadas
Conversión a PDF/A elimina anotacionesLas anotaciones no están permitidas en el perfil PDF/A de destinoUtilice PDF/A-2 o PDF/A-3 que permiten anotaciones
La extracción de texto pierde el formatoLa salida de texto plano no tiene formato por diseñoUtilice la conversión a HTML o Markdown en su lugar

Preguntas frecuentes

¿Qué perfiles PDF/A son compatibles?

Los perfiles PDF/A-1A, PDF/A-1B, PDF/A-2A, PDF/A-2B, PDF/A-3A y PDF/A-3B son compatibles a través de los valores de enumeración PdfFormat.

¿Puedo convertir una sola página a HTML?

Sí. Use PdfToHtmlConverter.SavePageAsHtml.

¿La conversión de Markdown conserva las tablas?

El conversor intenta renderizar estructuras de tabla como tablas Markdown, pero los diseños complejos pueden requerir post‑procesamiento.


Resumen de Referencia de API

Class / MethodDescription
PdfToHtmlConverterConvertir PDF a HTML
PdfToHtmlConverter.SaveAsHtmlExportar todo el documento como HTML
PdfToMarkdownConverterConvertir PDF a Markdown
PdfToSvgConverterConvertir páginas de PDF a SVG
PdfToTextConverterExtraer texto sin formato de PDF
HtmlSaveOptionsOpciones para la exportación a HTML (imágenes, fuentes, diseño)
HeadingLevelsConfigurar niveles de encabezado reconocidos
PdfFormatConversionOptionsOpciones de validación y conversión PDF/A

Ver también

 Español