Quản lý lõi

Quản lý lõi

Lớp Document là API trung tâm để tải tài liệu Word và chuyển đổi chúng sang các định dạng khác. Trang này bao gồm quy trình chuyển đổi định dạng, cấu hình tùy chọn lưu và trích xuất văn bản.


Tải và Lưu

Tải một tài liệu bằng Document() và gọi save() với hằng số SaveFormat để chuyển đổi giữa các định dạng. Đầu vào được hỗ trợ: DOCX, DOC, RTF, TXT, Markdown. Đầu ra được hỗ trợ: PDF, DOCX, DOC, Markdown, TXT.

import aspose.words_foss as aw

doc = aw.Document("input.docx")
doc.save("output.md", aw.SaveFormat.MARKDOWN)
doc.save("output.pdf", aw.SaveFormat.PDF)
doc.save("output.txt", aw.SaveFormat.TEXT)

Gọi save() nhiều lần trên cùng một Document để tạo ra nhiều định dạng đầu ra mà không cần tải lại.


Xuất PDF với PdfSaveOptions

Đối với đầu ra PDF mặc định, truyền SaveFormat.PDF. Đối với kiểm soát chi tiết, sử dụng một đối tượng PdfSaveOptions:

import aspose.words_foss as aw
from aspose.words_foss.saving import PdfSaveOptions

doc = aw.Document("input.docx")

# Default PDF export
doc.save("default.pdf", aw.SaveFormat.PDF)

# Customized PDF export with save options
doc.save("custom.pdf", PdfSaveOptions())

PdfSaveOptions chấp nhận các cài đặt cho chất lượng hình ảnh JPEG (0–100, mặc định 100) và mức độ tuân thủ tiêu chuẩn PDF (mặc định PDF/1.7).


Xuất Markdown với MarkdownSaveOptions

Đối với đầu ra Markdown mặc định, hãy truyền SaveFormat.MARKDOWN. Sử dụng MarkdownSaveOptions khi bạn cần kiểm soát hành vi định dạng:

import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions

doc = aw.Document("input.docx")

# Default Markdown export
doc.save("default.md", aw.SaveFormat.MARKDOWN)

# Customized Markdown export with save options
doc.save("with_options.md", MarkdownSaveOptions())

MarkdownSaveOptions hỗ trợ kiểm soát việc bảo tồn định dạng gạch chân trong đầu ra.


Trích xuất văn bản

Trích xuất văn bản thuần từ bất kỳ tài liệu nào đã tải với get_text():

import aspose.words_foss as aw

doc = aw.Document("input.docx")
text = doc.get_text()

Đối với đầu ra tệp văn bản, sử dụng SaveFormat.TEXT:

doc.save("output.txt", aw.SaveFormat.TEXT)

Các vấn đề thường gặp

Vấn đềNguyên nhânCách khắc phục
ModuleNotFoundErrorGói chưa được cài đặtChạy pip install aspose-words-foss>=26.4.0
Văn bản trống từ get_text()Tệp đầu vào rỗng hoặc bị hỏngXác minh tệp đầu vào mở đúng trong trình xử lý văn bản
Đầu ra PDF thiếu hình ảnhĐịnh dạng hình ảnh không được bộ chuyển đổi hỗ trợSử dụng đầu vào DOCX với các hình ảnh nhúng tiêu chuẩn

Tóm tắt Tham chiếu API

Lớp / Phương thứcMô tả
DocumentTải tài liệu Word từ DOCX, DOC, RTF, TXT hoặc Markdown
Document.save()Lưu thành PDF, Markdown, DOCX, DOC hoặc văn bản thuần
Document.get_text()Trích xuất nội dung văn bản thuần
SaveFormatCác hằng số: PDF, MARKDOWN, TEXT, DOC, DOCX
PdfSaveOptionsCấu hình tuân thủ PDF và chất lượng JPEG
MarkdownSaveOptionsCấu hình xuất định dạng gạch chân
 Tiếng Việt