转换与优化
转换和优化
Aspose.PDF FOSS for .NET 提供将 PDF 转换为 HTML,
Markdown, SVG 和纯文本的转换器。优化子系统通过 PdfFormatConversionOptions 减少文件大小
并确保 PDF/A 合规。
PDF 转 HTML
PdfToHtmlConverter 将 PDF 页面导出为 HTML 文档。
var converter = new PdfToHtmlConverter();
converter.SaveAsHtml("input.pdf", "output.html");
// Or save each page separately
converter.SaveAllPagesAsHtml("input.pdf", "output_dir");HtmlSaveOptions 提供对图像处理、字体嵌入和布局策略的控制。
PDF 转 Markdown
PdfToMarkdownConverter 将 PDF 内容导出为 Markdown 文本。
var converter = new PdfToMarkdownConverter("input.pdf");
converter.SaveAsMarkdown("output.md");
// Single page
converter.SavePageAsMarkdown(1, "page1.md");PDF 转 SVG
PdfToSvgConverter 将每页渲染为可缩放矢量图形。
var converter = new PdfToSvgConverter();
converter.SaveAllPagesAsSvg("input.pdf", "output_dir");PDF 转文本
PdfToTextConverter 从 PDF 页面提取纯文本。
var converter = new PdfToTextConverter();
converter.SaveAsText("input.pdf", "output.txt");PDF/A 合规性
PdfFormatConversionOptions 验证并将文档转换为 PDF/A 标准。
using var doc = Document.Open(pdfBytes);
var options = new PdfFormatConversionOptions(
"log.xml",
PdfFormat.PDF_A_1B,
ConvertErrorAction.Delete);
doc.Convert(options);
doc.Save("pdfa.pdf");标题级别控制
HeadingLevels 配置在 HTML 或 Markdown 转换期间识别的标题级别。
var levels = new HeadingLevels();
levels.AddLevels(1, 3); // Recognize H1 through H3技巧和最佳实践
- 使用
PdfToHtmlConverter进行网页发布,使用PdfToMarkdownConverter进行文档工作流。 - PDF/A 转换可能会移除违反标准的功能(JavaScript、加密)——使用
ConvertErrorAction.Delete或ConvertErrorAction.None。 - 对于大型文档,逐页转换以管理内存。
HtmlSaveOptions控制图像是内联嵌入还是保存为外部文件。- SVG 输出是单页高分辨率显示的理想选择。
常见问题
| Issue | Cause | Fix |
|---|---|---|
| HTML 输出缺少图像 | 图像未嵌入;外部路径不正确 | 配置 HtmlSaveOptions 以嵌入图像 |
| PDF/A 转换删除注释 | 目标 PDF/A 配置文件不允许注释 | 使用允许注释的 PDF/A-2 或 PDF/A-3 |
| 文本提取丢失格式 | 纯文本输出本身没有格式(设计如此) | 改用 HTML 或 Markdown 转换 |
常见问题
支持哪些 PDF/A 配置文件?
PDF/A-1A、PDF/A-1B、PDF/A-2A、PDF/A-2B、PDF/A-3A 和 PDF/A-3B 配置文件通过 PdfFormat 枚举值支持。
我可以将单页转换为 HTML 吗?
是的。使用 PdfToHtmlConverter.SavePageAsHtml。
Markdown 转换会保留表格吗?
转换器尝试将表结构呈现为 Markdown 表格,但复杂布局可能需要后处理。
API 参考摘要
| Class / Method | Description |
|---|---|
PdfToHtmlConverter | 将 PDF 转换为 HTML |
PdfToHtmlConverter.SaveAsHtml | 将整个文档导出为 HTML |
PdfToMarkdownConverter | 将 PDF 转换为 Markdown |
PdfToSvgConverter | 将 PDF 页面转换为 SVG |
PdfToTextConverter | 从 PDF 中提取纯文本 |
HtmlSaveOptions | HTML 导出选项(图像、字体、布局) |
HeadingLevels | 配置已识别的标题级别 |
PdfFormatConversionOptions | PDF/A 验证和转换选项 |