Tính năng
Tính năng
Aspose.Words FOSS for Python là một thư viện chuyển đổi tài liệu và trích xuất văn bản cho các tài liệu Word. Toàn bộ API công cộng được xây dựng xung quanh lớp Document.
Định dạng đầu vào được hỗ trợ
Lớp Document tải các tệp từ các định dạng này một cách tự động dựa trên phần mở rộng tệp:
| Format | Extensions |
|---|---|
| Tài liệu Word | .docx, .doc |
| Văn bản Định dạng phong phú | .rtf |
| Văn bản thuần | .txt |
| Markdown | .md |
Định dạng đầu ra và tùy chọn lưu
Gọi Document.save() với một hằng số SaveFormat để chuyển đổi nhanh, hoặc truyền một đối tượng tùy chọn lưu để kiểm soát chi tiết.
| Đầu ra | Hằng số SaveFormat | Lớp tùy chọn lưu |
|---|---|---|
SaveFormat.PDF | PdfSaveOptions — cấu hình mức độ tuân thủ, chất lượng JPEG | |
| Markdown | SaveFormat.MARKDOWN | MarkdownSaveOptions — kiểm soát xuất định dạng gạch chân |
| Văn bản thuần | SaveFormat.TEXT | — |
| Word (DOCX) | SaveFormat.DOCX | — |
| Word (DOC) | SaveFormat.DOC | — |
Đối với các ví dụ mã và chi tiết cấu hình tùy chọn lưu, xem Core Management.
Trích xuất văn bản
Document.get_text() trả về toàn bộ nội dung văn bản thuần của bất kỳ tài liệu nào đã được tải mà không ghi ra đĩa.
Hỗ trợ hình ảnh
Tài liệu có nhúng hình ảnh có thể được chuyển đổi sang tất cả các định dạng đầu ra được hỗ trợ. Quy trình chuyển đổi bảo tồn nội dung hình ảnh qua quá trình xuất.
Tóm tắt API
| Class / Method | Role |
|---|---|
Document | Tải tài liệu, chuyển đổi định dạng, trích xuất văn bản |
SaveFormat | Các hằng số định dạng đầu ra (PDF, MARKDOWN, TEXT, DOC, DOCX) |
PdfSaveOptions | Cấu hình xuất PDF |
MarkdownSaveOptions | Cấu hình xuất Markdown |