核心管理

核心管理

Document 类是用于加载 Word 文档并将其转换为其他格式的核心 API。本页涵盖格式转换工作流、保存选项配置以及文本提取。


加载和保存

使用 Document() 加载文档,并使用 save()SaveFormat 常量进行调用,以在格式之间转换。支持的输入:DOCX、DOC、RTF、TXT、Markdown。支持的输出:PDF、DOCX、DOC、Markdown、TXT。

import aspose.words_foss as aw

doc = aw.Document("input.docx")
doc.save("output.md", aw.SaveFormat.MARKDOWN)
doc.save("output.pdf", aw.SaveFormat.PDF)
doc.save("output.txt", aw.SaveFormat.TEXT)

在同一个 Document 上多次调用 save(),以在不重新加载的情况下生成多种输出格式。


使用 PdfSaveOptions 导出 PDF

对于默认的 PDF 输出,请传递 SaveFormat.PDF。若需细粒度控制,请使用 PdfSaveOptions 对象:

import aspose.words_foss as aw
from aspose.words_foss.saving import PdfSaveOptions

doc = aw.Document("input.docx")

# Default PDF export
doc.save("default.pdf", aw.SaveFormat.PDF)

# Customized PDF export with save options
doc.save("custom.pdf", PdfSaveOptions())

PdfSaveOptions 接受 JPEG 图像质量设置(0–100,默认 100)以及 PDF 标准合规级别(默认 PDF/1.7)。


使用 MarkdownSaveOptions 的 Markdown 导出

对于默认的 Markdown 输出,请传递 SaveFormat.MARKDOWN。当您需要控制格式行为时,请使用 MarkdownSaveOptions

import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions

doc = aw.Document("input.docx")

# Default Markdown export
doc.save("default.md", aw.SaveFormat.MARKDOWN)

# Customized Markdown export with save options
doc.save("with_options.md", MarkdownSaveOptions())

MarkdownSaveOptions 支持在输出中控制下划线格式的保留。


文本提取

使用 get_text() 从任何已加载的文档中提取纯文本:

import aspose.words_foss as aw

doc = aw.Document("input.docx")
text = doc.get_text()

对于文本文件输出,请使用 SaveFormat.TEXT

doc.save("output.txt", aw.SaveFormat.TEXT)

常见问题

问题原因解决方案
ModuleNotFoundError未安装软件包运行 pip install aspose-words-foss>=26.4.0
get_text() 导致的空文本输入文件为空或已损坏验证输入文件能在文字处理器中正确打开
PDF 输出缺少图像转换器不支持该图像格式使用包含标准嵌入图像的 DOCX 输入

API 参考摘要

类 / 方法描述
Document从 DOCX、DOC、RTF、TXT 或 Markdown 加载 Word 文档
Document.save()保存为 PDF、Markdown、DOCX、DOC 或纯文本
Document.get_text()提取纯文本内容
SaveFormat常量:PDFMARKDOWNTEXTDOCDOCX
PdfSaveOptions配置 PDF 合规性和 JPEG 质量
MarkdownSaveOptions配置下划线格式导出
 中文