Conversão e Otimização
Conversão e Otimização
Aspose.PDF FOSS for .NET fornece conversores para transformar PDFs em HTML,
Markdown, SVG e texto simples. O subsistema de otimização reduz o tamanho do arquivo
e garante a conformidade PDF/A através de PdfFormatConversionOptions.
PDF para HTML
PdfToHtmlConverter exporta páginas PDF como documentos HTML.
var converter = new PdfToHtmlConverter();
converter.SaveAsHtml("input.pdf", "output.html");
// Or save each page separately
converter.SaveAllPagesAsHtml("input.pdf", "output_dir");HtmlSaveOptions fornece controle sobre o tratamento de imagens, incorporação de fontes e estratégia de layout.
PDF para Markdown
PdfToMarkdownConverter exporta o conteúdo PDF como texto Markdown.
var converter = new PdfToMarkdownConverter("input.pdf");
converter.SaveAsMarkdown("output.md");
// Single page
converter.SavePageAsMarkdown(1, "page1.md");PDF para SVG
PdfToSvgConverter renderiza cada página como um gráfico vetorial escalável.
var converter = new PdfToSvgConverter();
converter.SaveAllPagesAsSvg("input.pdf", "output_dir");PDF para texto
PdfToTextConverter extrai texto simples das páginas PDF.
var converter = new PdfToTextConverter();
converter.SaveAsText("input.pdf", "output.txt");Conformidade PDF/A
PdfFormatConversionOptions valida e converte documentos para padrões PDF/A.
using var doc = Document.Open(pdfBytes);
var options = new PdfFormatConversionOptions(
"log.xml",
PdfFormat.PDF_A_1B,
ConvertErrorAction.Delete);
doc.Convert(options);
doc.Save("pdfa.pdf");Controle de nível de título
HeadingLevels configura quais níveis de título são reconhecidos durante a conversão de HTML ou Markdown.
var levels = new HeadingLevels();
levels.AddLevels(1, 3); // Recognize H1 through H3Dicas e Melhores Práticas
- Use
PdfToHtmlConverterpara publicação na web ePdfToMarkdownConverterpara fluxos de trabalho de documentação. - A conversão para PDF/A pode remover recursos (JavaScript, criptografia) que violam o padrão — use
ConvertErrorAction.DeleteouConvertErrorAction.None. - Para documentos grandes, converta página a página para gerenciar a memória.
HtmlSaveOptionscontrola se as imagens são incorporadas inline ou salvas como arquivos externos.- A saída SVG é ideal para exibição em alta resolução de páginas individuais.
Problemas Comuns
| Problema | Causa | Correção |
|---|---|---|
| Saída HTML sem imagens | Imagens não incorporadas; caminhos externos incorretos | Configure HtmlSaveOptions para imagens incorporadas |
| Conversão PDF/A remove anotações | Anotações não são permitidas no perfil PDF/A de destino | Use PDF/A-2 ou PDF/A-3 que permitem anotações |
| Extração de texto perde formatação | Saída de texto simples não tem formatação por design | Use conversão para HTML ou Markdown em vez disso |
FAQ
Quais perfis PDF/A são suportados?
Os perfis PDF/A-1A, PDF/A-1B, PDF/A-2A, PDF/A-2B, PDF/A-3A e PDF/A-3B são suportados por meio dos valores de enumeração PdfFormat.
Posso converter uma única página para HTML?
Sim. Use PdfToHtmlConverter.SavePageAsHtml.
A conversão de Markdown preserva tabelas?
O conversor tenta renderizar estruturas de tabela como tabelas Markdown, mas layouts complexos podem exigir pós-processamento.
Resumo da Referência da API
| Class / Method | Description |
|---|---|
PdfToHtmlConverter | Converter PDF para HTML |
PdfToHtmlConverter.SaveAsHtml | Exportar documento inteiro como HTML |
PdfToMarkdownConverter | Converter PDF para Markdown |
PdfToSvgConverter | Converter páginas de PDF para SVG |
PdfToTextConverter | Extrair texto simples de PDF |
HtmlSaveOptions | Opções para exportação de HTML (imagens, fontes, layout) |
HeadingLevels | Configurar níveis de título reconhecidos |
PdfFormatConversionOptions | Opções de validação e conversão PDF/A |