変換と最適化

変換と最適化

変換と最適化

Aspose.PDF FOSS for .NET は、PDF を HTML、
Markdown、SVG、プレーンテキストに変換するコンバータを提供します。
最適化サブシステムはファイルサイズを削減し、
PdfFormatConversionOptions を通じて PDF/A 準拠を保証します。


PDF を HTML に変換

PdfToHtmlConverter は PDF ページを HTML ドキュメントとしてエクスポートします。

var converter = new PdfToHtmlConverter();
converter.SaveAsHtml("input.pdf", "output.html");

// Or save each page separately
converter.SaveAllPagesAsHtml("input.pdf", "output_dir");

HtmlSaveOptions は画像の取り扱い、フォントの埋め込み、およびレイアウト戦略を制御します。


PDF を Markdown に変換

PdfToMarkdownConverter は PDF コンテンツを Markdown テキストとしてエクスポートします。

var converter = new PdfToMarkdownConverter("input.pdf");
converter.SaveAsMarkdown("output.md");

// Single page
converter.SavePageAsMarkdown(1, "page1.md");

PDF を SVG に変換

PdfToSvgConverter は各ページをスケーラブルベクターグラフィックとしてレンダリングします。

var converter = new PdfToSvgConverter();
converter.SaveAllPagesAsSvg("input.pdf", "output_dir");

PDF をテキストに変換

PdfToTextConverter は PDF ページからプレーンテキストを抽出します。

var converter = new PdfToTextConverter();
converter.SaveAsText("input.pdf", "output.txt");

PDF/A 準拠

PdfFormatConversionOptions は文書を PDF/A 標準に検証し、変換します。

using var doc = Document.Open(pdfBytes);

var options = new PdfFormatConversionOptions(
    "log.xml",
    PdfFormat.PDF_A_1B,
    ConvertErrorAction.Delete);

doc.Convert(options);
doc.Save("pdfa.pdf");

見出しレベルの制御

HeadingLevels HTMLまたはMarkdown変換中に認識される見出しレベルを構成します
HTMLまたはMarkdown変換。

var levels = new HeadingLevels();
levels.AddLevels(1, 3);  // Recognize H1 through H3

ヒントとベストプラクティス

  • Web公開にはPdfToHtmlConverter、ドキュメントワークフローにはPdfToMarkdownConverterを使用します。
  • PDF/A 変換では、標準に違反する機能(JavaScript、暗号化)が削除される可能性があります — ConvertErrorAction.Delete または ConvertErrorAction.None を使用してください。
  • 大きなドキュメントの場合、メモリ管理のためにページ単位で変換します。
  • HtmlSaveOptions は画像をインラインで埋め込むか外部ファイルとして保存するかを制御します。
  • SVG 出力は個々のページを高解像度で表示するのに最適です。

一般的な問題

問題原因対策
HTML出力で画像が欠落画像が埋め込まれておらず、外部パスが正しくありませんHtmlSaveOptions を設定して画像を埋め込みます
PDF/A変換で注釈が削除される対象のPDF/Aプロファイルでは注釈が許可されていません注釈を許可するPDF/A-2またはPDF/A-3を使用します
テキスト抽出で書式が失われるプレーンテキスト出力は設計上書式がありません代わりにHTMLまたはMarkdown変換を使用します

FAQ

サポートされている PDF/A プロファイルはどれですか?

PDF/A-1A、PDF/A-1B、PDF/A-2A、PDF/A-2B、PDF/A-3A、PDF/A-3B プロファイルは、PdfFormat 列挙値を通じてサポートされています。

単一ページをHTMLに変換できますか?

はい。PdfToHtmlConverter.SavePageAsHtmlを使用してください。

Markdown変換はテーブルを保持しますか?

コンバータはテーブル構造をMarkdownテーブルとしてレンダリングしようとしますが、複雑なレイアウトはポストプロセッシングが必要になる場合があります。


API リファレンス概要

Class / MethodDescription
PdfToHtmlConverterPDF を HTML に変換
PdfToHtmlConverter.SaveAsHtmlドキュメント全体を HTML としてエクスポート
PdfToMarkdownConverterPDF を Markdown に変換
PdfToSvgConverterPDF ページを SVG に変換
PdfToTextConverterPDF からプレーンテキストを抽出
HtmlSaveOptionsHTML エクスポートのオプション(画像、フォント、レイアウト)
HeadingLevels認識される見出しレベルを構成
PdfFormatConversionOptionsPDF/A の検証と変換オプション

参照

 日本語