コア管理

コア管理

Document クラスは、Word ドキュメントの読み込みと他の形式への変換を行う中心的な API です。このページでは、形式変換ワークフロー、保存オプションの構成、およびテキスト抽出について説明します。


読み込みと保存

Document() を使用してドキュメントをロードし、save()SaveFormat 定数で呼び出してフォーマット間の変換を行います。サポートされている入力形式: DOCX、DOC、RTF、TXT、Markdown。サポートされている出力形式: PDF、DOCX、DOC、Markdown、TXT。

import aspose.words_foss as aw

doc = aw.Document("input.docx")
doc.save("output.md", aw.SaveFormat.MARKDOWN)
doc.save("output.pdf", aw.SaveFormat.PDF)
doc.save("output.txt", aw.SaveFormat.TEXT)

同じDocument上でsave()を複数回呼び出し、リロードせずに複数の出力形式を生成します。


PdfSaveOptions を使用した PDF エクスポート

デフォルトの PDF 出力の場合は SaveFormat.PDF を渡します。細かい制御が必要な場合は、PdfSaveOptions オブジェクトを使用してください:

import aspose.words_foss as aw
from aspose.words_foss.saving import PdfSaveOptions

doc = aw.Document("input.docx")

# Default PDF export
doc.save("default.pdf", aw.SaveFormat.PDF)

# Customized PDF export with save options
doc.save("custom.pdf", PdfSaveOptions())

PdfSaveOptions は JPEG 画像品質 (0–100、デフォルト 100) と PDF 標準準拠レベル (デフォルト PDF/1.7) の設定を受け付けます。


MarkdownSaveOptions を使用した Markdown エクスポート

デフォルトの Markdown 出力の場合は SaveFormat.MARKDOWN を渡してください。書式設定の動作を制御する必要がある場合は MarkdownSaveOptions を使用してください:

import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions

doc = aw.Document("input.docx")

# Default Markdown export
doc.save("default.md", aw.SaveFormat.MARKDOWN)

# Customized Markdown export with save options
doc.save("with_options.md", MarkdownSaveOptions())

MarkdownSaveOptions は、出力における下線書式の保持を制御することをサポートします。


テキスト抽出

get_text() を使用して、読み込まれた任意のドキュメントからプレーンテキストを抽出する:

import aspose.words_foss as aw

doc = aw.Document("input.docx")
text = doc.get_text()

テキストファイルの出力にはSaveFormat.TEXTを使用してください:

doc.save("output.txt", aw.SaveFormat.TEXT)

一般的な問題

問題原因対処
ModuleNotFoundErrorパッケージがインストールされていませんpip install aspose-words-foss>=26.4.0 を実行してください
get_text() からの空テキスト入力ファイルが空か破損していますワードプロセッサで入力ファイルが正しく開くか確認してください
PDF 出力に画像が欠落しています画像形式がコンバータでサポートされていません標準的に埋め込まれた画像を含む DOCX を入力として使用してください

API リファレンス概要

クラス / メソッド説明
DocumentDOCX、DOC、RTF、TXT、またはMarkdownからWord文書をロードする
Document.save()PDF、Markdown、DOCX、DOC、またはプレーンテキストに保存する
Document.get_text()プレーンテキストコンテンツを抽出する
SaveFormat定数: PDFMARKDOWNTEXTDOCDOCX
PdfSaveOptionsPDF準拠とJPEG品質を設定する
MarkdownSaveOptions下線書式のエクスポートを設定する
 日本語