変換と最適化
変換と最適化
Aspose.PDF FOSS for .NET は、PDF を HTML、
Markdown、SVG、プレーンテキストに変換するコンバータを提供します。
最適化サブシステムはファイルサイズを削減し、PdfFormatConversionOptions を通じて PDF/A 準拠を保証します。
PDF を HTML に変換
PdfToHtmlConverter は PDF ページを HTML ドキュメントとしてエクスポートします。
var converter = new PdfToHtmlConverter();
converter.SaveAsHtml("input.pdf", "output.html");
// Or save each page separately
converter.SaveAllPagesAsHtml("input.pdf", "output_dir");HtmlSaveOptions は画像の取り扱い、フォントの埋め込み、およびレイアウト戦略を制御します。
PDF を Markdown に変換
PdfToMarkdownConverter は PDF コンテンツを Markdown テキストとしてエクスポートします。
var converter = new PdfToMarkdownConverter("input.pdf");
converter.SaveAsMarkdown("output.md");
// Single page
converter.SavePageAsMarkdown(1, "page1.md");PDF を SVG に変換
PdfToSvgConverter は各ページをスケーラブルベクターグラフィックとしてレンダリングします。
var converter = new PdfToSvgConverter();
converter.SaveAllPagesAsSvg("input.pdf", "output_dir");PDF をテキストに変換
PdfToTextConverter は PDF ページからプレーンテキストを抽出します。
var converter = new PdfToTextConverter();
converter.SaveAsText("input.pdf", "output.txt");PDF/A 準拠
PdfFormatConversionOptions は文書を PDF/A 標準に検証し、変換します。
using var doc = Document.Open(pdfBytes);
var options = new PdfFormatConversionOptions(
"log.xml",
PdfFormat.PDF_A_1B,
ConvertErrorAction.Delete);
doc.Convert(options);
doc.Save("pdfa.pdf");見出しレベルの制御
HeadingLevels HTMLまたはMarkdown変換中に認識される見出しレベルを構成します
HTMLまたはMarkdown変換。
var levels = new HeadingLevels();
levels.AddLevels(1, 3); // Recognize H1 through H3ヒントとベストプラクティス
- Web公開には
PdfToHtmlConverter、ドキュメントワークフローにはPdfToMarkdownConverterを使用します。 - PDF/A 変換では、標準に違反する機能(JavaScript、暗号化)が削除される可能性があります —
ConvertErrorAction.DeleteまたはConvertErrorAction.Noneを使用してください。 - 大きなドキュメントの場合、メモリ管理のためにページ単位で変換します。
HtmlSaveOptionsは画像をインラインで埋め込むか外部ファイルとして保存するかを制御します。- SVG 出力は個々のページを高解像度で表示するのに最適です。
一般的な問題
| 問題 | 原因 | 対策 |
|---|---|---|
| HTML出力で画像が欠落 | 画像が埋め込まれておらず、外部パスが正しくありません | HtmlSaveOptions を設定して画像を埋め込みます |
| PDF/A変換で注釈が削除される | 対象のPDF/Aプロファイルでは注釈が許可されていません | 注釈を許可するPDF/A-2またはPDF/A-3を使用します |
| テキスト抽出で書式が失われる | プレーンテキスト出力は設計上書式がありません | 代わりにHTMLまたはMarkdown変換を使用します |
FAQ
サポートされている PDF/A プロファイルはどれですか?
PDF/A-1A、PDF/A-1B、PDF/A-2A、PDF/A-2B、PDF/A-3A、PDF/A-3B プロファイルは、PdfFormat 列挙値を通じてサポートされています。
単一ページをHTMLに変換できますか?
はい。PdfToHtmlConverter.SavePageAsHtmlを使用してください。
Markdown変換はテーブルを保持しますか?
コンバータはテーブル構造をMarkdownテーブルとしてレンダリングしようとしますが、複雑なレイアウトはポストプロセッシングが必要になる場合があります。
API リファレンス概要
| Class / Method | Description |
|---|---|
PdfToHtmlConverter | PDF を HTML に変換 |
PdfToHtmlConverter.SaveAsHtml | ドキュメント全体を HTML としてエクスポート |
PdfToMarkdownConverter | PDF を Markdown に変換 |
PdfToSvgConverter | PDF ページを SVG に変換 |
PdfToTextConverter | PDF からプレーンテキストを抽出 |
HtmlSaveOptions | HTML エクスポートのオプション(画像、フォント、レイアウト) |
HeadingLevels | 認識される見出しレベルを構成 |
PdfFormatConversionOptions | PDF/A の検証と変換オプション |