コア管理
コア管理
Document クラスは、Word ドキュメントの読み込みと他の形式への変換を行う中心的な API です。このページでは、形式変換ワークフロー、保存オプションの構成、およびテキスト抽出について説明します。
読み込みと保存
Document() を使用してドキュメントをロードし、save() を SaveFormat 定数で呼び出してフォーマット間の変換を行います。サポートされている入力形式: DOCX、DOC、RTF、TXT、Markdown。サポートされている出力形式: PDF、DOCX、DOC、Markdown、TXT。
import aspose.words_foss as aw
doc = aw.Document("input.docx")
doc.save("output.md", aw.SaveFormat.MARKDOWN)
doc.save("output.pdf", aw.SaveFormat.PDF)
doc.save("output.txt", aw.SaveFormat.TEXT)同じDocument上でsave()を複数回呼び出し、リロードせずに複数の出力形式を生成します。
PdfSaveOptions を使用した PDF エクスポート
デフォルトの PDF 出力の場合は SaveFormat.PDF を渡します。細かい制御が必要な場合は、PdfSaveOptions オブジェクトを使用してください:
import aspose.words_foss as aw
from aspose.words_foss.saving import PdfSaveOptions
doc = aw.Document("input.docx")
# Default PDF export
doc.save("default.pdf", aw.SaveFormat.PDF)
# Customized PDF export with save options
doc.save("custom.pdf", PdfSaveOptions())PdfSaveOptions は JPEG 画像品質 (0–100、デフォルト 100) と PDF 標準準拠レベル (デフォルト PDF/1.7) の設定を受け付けます。
MarkdownSaveOptions を使用した Markdown エクスポート
デフォルトの Markdown 出力の場合は SaveFormat.MARKDOWN を渡してください。書式設定の動作を制御する必要がある場合は MarkdownSaveOptions を使用してください:
import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions
doc = aw.Document("input.docx")
# Default Markdown export
doc.save("default.md", aw.SaveFormat.MARKDOWN)
# Customized Markdown export with save options
doc.save("with_options.md", MarkdownSaveOptions())MarkdownSaveOptions は、出力における下線書式の保持を制御することをサポートします。
テキスト抽出
get_text() を使用して、読み込まれた任意のドキュメントからプレーンテキストを抽出する:
import aspose.words_foss as aw
doc = aw.Document("input.docx")
text = doc.get_text()テキストファイルの出力にはSaveFormat.TEXTを使用してください:
doc.save("output.txt", aw.SaveFormat.TEXT)一般的な問題
| 問題 | 原因 | 対処 |
|---|---|---|
ModuleNotFoundError | パッケージがインストールされていません | pip install aspose-words-foss>=26.4.0 を実行してください |
get_text() からの空テキスト | 入力ファイルが空か破損しています | ワードプロセッサで入力ファイルが正しく開くか確認してください |
| PDF 出力に画像が欠落しています | 画像形式がコンバータでサポートされていません | 標準的に埋め込まれた画像を含む DOCX を入力として使用してください |
API リファレンス概要
| クラス / メソッド | 説明 |
|---|---|
Document | DOCX、DOC、RTF、TXT、またはMarkdownからWord文書をロードする |
Document.save() | PDF、Markdown、DOCX、DOC、またはプレーンテキストに保存する |
Document.get_text() | プレーンテキストコンテンツを抽出する |
SaveFormat | 定数: PDF、MARKDOWN、TEXT、DOC、DOCX |
PdfSaveOptions | PDF準拠とJPEG品質を設定する |
MarkdownSaveOptions | 下線書式のエクスポートを設定する |