核心管理
核心管理
Document 类是用于加载 Word 文档并将其转换为其他格式的核心 API。本页涵盖格式转换工作流、保存选项配置以及文本提取。
加载和保存
使用 Document() 加载文档,并使用 save() 与 SaveFormat 常量进行调用,以在格式之间转换。支持的输入:DOCX、DOC、RTF、TXT、Markdown。支持的输出:PDF、DOCX、DOC、Markdown、TXT。
import aspose.words_foss as aw
doc = aw.Document("input.docx")
doc.save("output.md", aw.SaveFormat.MARKDOWN)
doc.save("output.pdf", aw.SaveFormat.PDF)
doc.save("output.txt", aw.SaveFormat.TEXT)在同一个 Document 上多次调用 save(),以在不重新加载的情况下生成多种输出格式。
使用 PdfSaveOptions 导出 PDF
对于默认的 PDF 输出,请传递 SaveFormat.PDF。若需细粒度控制,请使用 PdfSaveOptions 对象:
import aspose.words_foss as aw
from aspose.words_foss.saving import PdfSaveOptions
doc = aw.Document("input.docx")
# Default PDF export
doc.save("default.pdf", aw.SaveFormat.PDF)
# Customized PDF export with save options
doc.save("custom.pdf", PdfSaveOptions())PdfSaveOptions 接受 JPEG 图像质量设置(0–100,默认 100)以及 PDF 标准合规级别(默认 PDF/1.7)。
使用 MarkdownSaveOptions 的 Markdown 导出
对于默认的 Markdown 输出,请传递 SaveFormat.MARKDOWN。当您需要控制格式行为时,请使用 MarkdownSaveOptions:
import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions
doc = aw.Document("input.docx")
# Default Markdown export
doc.save("default.md", aw.SaveFormat.MARKDOWN)
# Customized Markdown export with save options
doc.save("with_options.md", MarkdownSaveOptions())MarkdownSaveOptions 支持在输出中控制下划线格式的保留。
文本提取
使用 get_text() 从任何已加载的文档中提取纯文本:
import aspose.words_foss as aw
doc = aw.Document("input.docx")
text = doc.get_text()对于文本文件输出,请使用 SaveFormat.TEXT:
doc.save("output.txt", aw.SaveFormat.TEXT)常见问题
| 问题 | 原因 | 解决方案 |
|---|---|---|
ModuleNotFoundError | 未安装软件包 | 运行 pip install aspose-words-foss>=26.4.0 |
get_text() 导致的空文本 | 输入文件为空或已损坏 | 验证输入文件能在文字处理器中正确打开 |
| PDF 输出缺少图像 | 转换器不支持该图像格式 | 使用包含标准嵌入图像的 DOCX 输入 |
API 参考摘要
| 类 / 方法 | 描述 |
|---|---|
Document | 从 DOCX、DOC、RTF、TXT 或 Markdown 加载 Word 文档 |
Document.save() | 保存为 PDF、Markdown、DOCX、DOC 或纯文本 |
Document.get_text() | 提取纯文本内容 |
SaveFormat | 常量:PDF、MARKDOWN、TEXT、DOC、DOCX |
PdfSaveOptions | 配置 PDF 合规性和 JPEG 质量 |
MarkdownSaveOptions | 配置下划线格式导出 |