Quản lý lõi
Quản lý lõi
Lớp Document là API trung tâm để tải tài liệu Word và chuyển đổi chúng sang các định dạng khác. Trang này bao gồm quy trình chuyển đổi định dạng, cấu hình tùy chọn lưu và trích xuất văn bản.
Tải và Lưu
Tải một tài liệu bằng Document() và gọi save() với hằng số SaveFormat để chuyển đổi giữa các định dạng. Đầu vào được hỗ trợ: DOCX, DOC, RTF, TXT, Markdown. Đầu ra được hỗ trợ: PDF, DOCX, DOC, Markdown, TXT.
import aspose.words_foss as aw
doc = aw.Document("input.docx")
doc.save("output.md", aw.SaveFormat.MARKDOWN)
doc.save("output.pdf", aw.SaveFormat.PDF)
doc.save("output.txt", aw.SaveFormat.TEXT)Gọi save() nhiều lần trên cùng một Document để tạo ra nhiều định dạng đầu ra mà không cần tải lại.
Xuất PDF với PdfSaveOptions
Đối với đầu ra PDF mặc định, truyền SaveFormat.PDF. Đối với kiểm soát chi tiết, sử dụng một đối tượng PdfSaveOptions:
import aspose.words_foss as aw
from aspose.words_foss.saving import PdfSaveOptions
doc = aw.Document("input.docx")
# Default PDF export
doc.save("default.pdf", aw.SaveFormat.PDF)
# Customized PDF export with save options
doc.save("custom.pdf", PdfSaveOptions())PdfSaveOptions chấp nhận các cài đặt cho chất lượng hình ảnh JPEG (0–100, mặc định 100) và mức độ tuân thủ tiêu chuẩn PDF (mặc định PDF/1.7).
Xuất Markdown với MarkdownSaveOptions
Đối với đầu ra Markdown mặc định, hãy truyền SaveFormat.MARKDOWN. Sử dụng MarkdownSaveOptions khi bạn cần kiểm soát hành vi định dạng:
import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions
doc = aw.Document("input.docx")
# Default Markdown export
doc.save("default.md", aw.SaveFormat.MARKDOWN)
# Customized Markdown export with save options
doc.save("with_options.md", MarkdownSaveOptions())MarkdownSaveOptions hỗ trợ kiểm soát việc bảo tồn định dạng gạch chân trong đầu ra.
Trích xuất văn bản
Trích xuất văn bản thuần từ bất kỳ tài liệu nào đã tải với get_text():
import aspose.words_foss as aw
doc = aw.Document("input.docx")
text = doc.get_text()Đối với đầu ra tệp văn bản, sử dụng SaveFormat.TEXT:
doc.save("output.txt", aw.SaveFormat.TEXT)Các vấn đề thường gặp
| Vấn đề | Nguyên nhân | Cách khắc phục |
|---|---|---|
ModuleNotFoundError | Gói chưa được cài đặt | Chạy pip install aspose-words-foss>=26.4.0 |
Văn bản trống từ get_text() | Tệp đầu vào rỗng hoặc bị hỏng | Xác minh tệp đầu vào mở đúng trong trình xử lý văn bản |
| Đầu ra PDF thiếu hình ảnh | Định dạng hình ảnh không được bộ chuyển đổi hỗ trợ | Sử dụng đầu vào DOCX với các hình ảnh nhúng tiêu chuẩn |
Tóm tắt Tham chiếu API
| Lớp / Phương thức | Mô tả |
|---|---|
Document | Tải tài liệu Word từ DOCX, DOC, RTF, TXT hoặc Markdown |
Document.save() | Lưu thành PDF, Markdown, DOCX, DOC hoặc văn bản thuần |
Document.get_text() | Trích xuất nội dung văn bản thuần |
SaveFormat | Các hằng số: PDF, MARKDOWN, TEXT, DOC, DOCX |
PdfSaveOptions | Cấu hình tuân thủ PDF và chất lượng JPEG |
MarkdownSaveOptions | Cấu hình xuất định dạng gạch chân |