转换与优化

转换和优化

Aspose.PDF FOSS for .NET 提供将 PDF 转换为 HTML, Markdown, SVG 和纯文本的转换器。优化子系统通过 PdfFormatConversionOptions 减少文件大小 并确保 PDF/A 合规。


PDF 转 HTML

PdfToHtmlConverter 将 PDF 页面导出为 HTML 文档。

var converter = new PdfToHtmlConverter();
converter.SaveAsHtml("input.pdf", "output.html");

// Or save each page separately
converter.SaveAllPagesAsHtml("input.pdf", "output_dir");

HtmlSaveOptions 提供对图像处理、字体嵌入和布局策略的控制。


PDF 转 Markdown

PdfToMarkdownConverter 将 PDF 内容导出为 Markdown 文本。

var converter = new PdfToMarkdownConverter("input.pdf");
converter.SaveAsMarkdown("output.md");

// Single page
converter.SavePageAsMarkdown(1, "page1.md");

PDF 转 SVG

PdfToSvgConverter 将每页渲染为可缩放矢量图形。

var converter = new PdfToSvgConverter();
converter.SaveAllPagesAsSvg("input.pdf", "output_dir");

PDF 转文本

PdfToTextConverter 从 PDF 页面提取纯文本。

var converter = new PdfToTextConverter();
converter.SaveAsText("input.pdf", "output.txt");

PDF/A 合规性

PdfFormatConversionOptions 验证并将文档转换为 PDF/A 标准。

using var doc = Document.Open(pdfBytes);

var options = new PdfFormatConversionOptions(
    "log.xml",
    PdfFormat.PDF_A_1B,
    ConvertErrorAction.Delete);

doc.Convert(options);
doc.Save("pdfa.pdf");

标题级别控制

HeadingLevels 配置在 HTML 或 Markdown 转换期间识别的标题级别。

var levels = new HeadingLevels();
levels.AddLevels(1, 3);  // Recognize H1 through H3

技巧和最佳实践

  • 使用 PdfToHtmlConverter 进行网页发布,使用 PdfToMarkdownConverter 进行文档工作流。
  • PDF/A 转换可能会移除违反标准的功能(JavaScript、加密)——使用 ConvertErrorAction.DeleteConvertErrorAction.None
  • 对于大型文档,逐页转换以管理内存。
  • HtmlSaveOptions 控制图像是内联嵌入还是保存为外部文件。
  • SVG 输出是单页高分辨率显示的理想选择。

常见问题

IssueCauseFix
HTML 输出缺少图像图像未嵌入;外部路径不正确配置 HtmlSaveOptions 以嵌入图像
PDF/A 转换删除注释目标 PDF/A 配置文件不允许注释使用允许注释的 PDF/A-2 或 PDF/A-3
文本提取丢失格式纯文本输出本身没有格式(设计如此)改用 HTML 或 Markdown 转换

常见问题

支持哪些 PDF/A 配置文件?

PDF/A-1A、PDF/A-1B、PDF/A-2A、PDF/A-2B、PDF/A-3A 和 PDF/A-3B 配置文件通过 PdfFormat 枚举值支持。

我可以将单页转换为 HTML 吗?

是的。使用 PdfToHtmlConverter.SavePageAsHtml

Markdown 转换会保留表格吗?

转换器尝试将表结构呈现为 Markdown 表格,但复杂布局可能需要后处理。


API 参考摘要

Class / MethodDescription
PdfToHtmlConverter将 PDF 转换为 HTML
PdfToHtmlConverter.SaveAsHtml将整个文档导出为 HTML
PdfToMarkdownConverter将 PDF 转换为 Markdown
PdfToSvgConverter将 PDF 页面转换为 SVG
PdfToTextConverter从 PDF 中提取纯文本
HtmlSaveOptionsHTML 导出选项(图像、字体、布局)
HeadingLevels配置已识别的标题级别
PdfFormatConversionOptionsPDF/A 验证和转换选项

另请参见

 中文