Conversão e Otimização

Conversão e Otimização

Conversão e Otimização

Aspose.PDF FOSS for .NET fornece conversores para transformar PDFs em HTML, Markdown, SVG e texto simples. O subsistema de otimização reduz o tamanho do arquivo e garante a conformidade PDF/A através de PdfFormatConversionOptions.


PDF para HTML

PdfToHtmlConverter exporta páginas PDF como documentos HTML.

var converter = new PdfToHtmlConverter();
converter.SaveAsHtml("input.pdf", "output.html");

// Or save each page separately
converter.SaveAllPagesAsHtml("input.pdf", "output_dir");

HtmlSaveOptions fornece controle sobre o tratamento de imagens, incorporação de fontes e estratégia de layout.


PDF para Markdown

PdfToMarkdownConverter exporta o conteúdo PDF como texto Markdown.

var converter = new PdfToMarkdownConverter("input.pdf");
converter.SaveAsMarkdown("output.md");

// Single page
converter.SavePageAsMarkdown(1, "page1.md");

PDF para SVG

PdfToSvgConverter renderiza cada página como um gráfico vetorial escalável.

var converter = new PdfToSvgConverter();
converter.SaveAllPagesAsSvg("input.pdf", "output_dir");

PDF para texto

PdfToTextConverter extrai texto simples das páginas PDF.

var converter = new PdfToTextConverter();
converter.SaveAsText("input.pdf", "output.txt");

Conformidade PDF/A

PdfFormatConversionOptions valida e converte documentos para padrões PDF/A.

using var doc = Document.Open(pdfBytes);

var options = new PdfFormatConversionOptions(
    "log.xml",
    PdfFormat.PDF_A_1B,
    ConvertErrorAction.Delete);

doc.Convert(options);
doc.Save("pdfa.pdf");

Controle de nível de título

HeadingLevels configura quais níveis de título são reconhecidos durante a conversão de HTML ou Markdown.

var levels = new HeadingLevels();
levels.AddLevels(1, 3);  // Recognize H1 through H3

Dicas e Melhores Práticas

  • Use PdfToHtmlConverter para publicação na web e PdfToMarkdownConverter para fluxos de trabalho de documentação.
  • A conversão para PDF/A pode remover recursos (JavaScript, criptografia) que violam o padrão — use ConvertErrorAction.Delete ou ConvertErrorAction.None.
  • Para documentos grandes, converta página a página para gerenciar a memória.
  • HtmlSaveOptions controla se as imagens são incorporadas inline ou salvas como arquivos externos.
  • A saída SVG é ideal para exibição em alta resolução de páginas individuais.

Problemas Comuns

ProblemaCausaCorreção
Saída HTML sem imagensImagens não incorporadas; caminhos externos incorretosConfigure HtmlSaveOptions para imagens incorporadas
Conversão PDF/A remove anotaçõesAnotações não são permitidas no perfil PDF/A de destinoUse PDF/A-2 ou PDF/A-3 que permitem anotações
Extração de texto perde formataçãoSaída de texto simples não tem formatação por designUse conversão para HTML ou Markdown em vez disso

FAQ

Quais perfis PDF/A são suportados?

Os perfis PDF/A-1A, PDF/A-1B, PDF/A-2A, PDF/A-2B, PDF/A-3A e PDF/A-3B são suportados por meio dos valores de enumeração PdfFormat.

Posso converter uma única página para HTML?

Sim. Use PdfToHtmlConverter.SavePageAsHtml.

A conversão de Markdown preserva tabelas?

O conversor tenta renderizar estruturas de tabela como tabelas Markdown, mas layouts complexos podem exigir pós-processamento.


Resumo da Referência da API

Class / MethodDescription
PdfToHtmlConverterConverter PDF para HTML
PdfToHtmlConverter.SaveAsHtmlExportar documento inteiro como HTML
PdfToMarkdownConverterConverter PDF para Markdown
PdfToSvgConverterConverter páginas de PDF para SVG
PdfToTextConverterExtrair texto simples de PDF
HtmlSaveOptionsOpções para exportação de HTML (imagens, fontes, layout)
HeadingLevelsConfigurar níveis de título reconhecidos
PdfFormatConversionOptionsOpções de validação e conversão PDF/A

Veja Também

 Português