Conversión y Optimización
Conversión y Optimización
Aspose.PDF FOSS for .NET proporciona convertidores para transformar PDFs a HTML,
Markdown, SVG y texto plano. El subsistema de optimización reduce el tamaño del archivo
y garantiza el cumplimiento de PDF/A a través de PdfFormatConversionOptions.
PDF a HTML
PdfToHtmlConverter exporta páginas PDF como documentos HTML.
var converter = new PdfToHtmlConverter();
converter.SaveAsHtml("input.pdf", "output.html");
// Or save each page separately
converter.SaveAllPagesAsHtml("input.pdf", "output_dir");HtmlSaveOptions proporciona control sobre el manejo de imágenes, la incrustación de fuentes y la estrategia de diseño.
PDF a Markdown
PdfToMarkdownConverter exporta contenido PDF como texto Markdown.
var converter = new PdfToMarkdownConverter("input.pdf");
converter.SaveAsMarkdown("output.md");
// Single page
converter.SavePageAsMarkdown(1, "page1.md");PDF a SVG
PdfToSvgConverter renderiza cada página como un gráfico vectorial escalable.
var converter = new PdfToSvgConverter();
converter.SaveAllPagesAsSvg("input.pdf", "output_dir");PDF a texto
PdfToTextConverter extrae texto sin formato de las páginas PDF.
var converter = new PdfToTextConverter();
converter.SaveAsText("input.pdf", "output.txt");PDF/A cumplimiento
PdfFormatConversionOptions valida y convierte documentos a PDF/A
estándares.
using var doc = Document.Open(pdfBytes);
var options = new PdfFormatConversionOptions(
"log.xml",
PdfFormat.PDF_A_1B,
ConvertErrorAction.Delete);
doc.Convert(options);
doc.Save("pdfa.pdf");Control de nivel de encabezado
HeadingLevels configura qué niveles de encabezado se reconocen durante
la conversión a HTML o Markdown.
var levels = new HeadingLevels();
levels.AddLevels(1, 3); // Recognize H1 through H3Consejos y Mejores Prácticas
- Utilice
PdfToHtmlConverterpara la publicación web yPdfToMarkdownConverterpara flujos de trabajo de documentación. - La conversión a PDF/A puede eliminar características (JavaScript, cifrado) que violan el estándar — utilice
ConvertErrorAction.DeleteoConvertErrorAction.None. - Para documentos grandes, convierta página por página para gestionar la memoria.
HtmlSaveOptionscontrola si las imágenes se incrustan en línea o se guardan como archivos externos.- La salida SVG es ideal para la visualización de alta resolución de páginas individuales.
Problemas comunes
| Problema | Causa | Solución |
|---|---|---|
| Salida HTML sin imágenes | Imágenes no incrustadas; rutas externas incorrectas | Configure HtmlSaveOptions para imágenes incrustadas |
| Conversión a PDF/A elimina anotaciones | Las anotaciones no están permitidas en el perfil PDF/A de destino | Utilice PDF/A-2 o PDF/A-3 que permiten anotaciones |
| La extracción de texto pierde el formato | La salida de texto plano no tiene formato por diseño | Utilice la conversión a HTML o Markdown en su lugar |
Preguntas frecuentes
¿Qué perfiles PDF/A son compatibles?
Los perfiles PDF/A-1A, PDF/A-1B, PDF/A-2A, PDF/A-2B, PDF/A-3A y PDF/A-3B son compatibles a través de los valores de enumeración PdfFormat.
¿Puedo convertir una sola página a HTML?
Sí. Use PdfToHtmlConverter.SavePageAsHtml.
¿La conversión de Markdown conserva las tablas?
El conversor intenta renderizar estructuras de tabla como tablas Markdown, pero los diseños complejos pueden requerir post‑procesamiento.
Resumen de Referencia de API
| Class / Method | Description |
|---|---|
PdfToHtmlConverter | Convertir PDF a HTML |
PdfToHtmlConverter.SaveAsHtml | Exportar todo el documento como HTML |
PdfToMarkdownConverter | Convertir PDF a Markdown |
PdfToSvgConverter | Convertir páginas de PDF a SVG |
PdfToTextConverter | Extraer texto sin formato de PDF |
HtmlSaveOptions | Opciones para la exportación a HTML (imágenes, fuentes, diseño) |
HeadingLevels | Configurar niveles de encabezado reconocidos |
PdfFormatConversionOptions | Opciones de validación y conversión PDF/A |