Управление ядром
Управление ядром
Основной API управления документами построен вокруг класса Document, который загружает документы Word и предоставляет save() для конвертации форматов и get_text() для извлечения текста. Используйте константы SaveFormat или объекты параметров сохранения (PdfSaveOptions, MarkdownSaveOptions) для управления выводом.
Преобразование отдельного документа
Загрузите документ с помощью класса Document и вызовите save() с целевым форматом. Передайте либо константу SaveFormat, либо объект параметров сохранения для выходного формата.
import aspose.words_foss as aw
doc = aw.Document("input.docx") # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)Пакетное преобразование во все форматы
Преобразуйте один входной файл в несколько форматов вывода, вызывая save() несколько раз с разными константами SaveFormat (SaveFormat.MARKDOWN, SaveFormat.PDF, SaveFormat.TEXT).
Экспорт PDF с параметрами сохранения
Используйте PdfSaveOptions для тонкой настройки вывода PDF, или SaveFormat.PDF для параметров по умолчанию.
import aspose.words_foss as aw
doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)Экспорт Markdown
Экспортируйте документы в Markdown, используя SaveFormat.MARKDOWN или MarkdownSaveOptions для дополнительного управления выводом.
import aspose.words_foss as aw
doc = aw.Document("input.docx") # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)Извлечение текста
Извлеките содержимое в виде простого текста через Document.get_text() или экспортируйте как простой текст через SaveFormat.TEXT.
import aspose.words_foss as aw
doc = aw.Document("input.docx")
text = doc.get_text()Документы, содержащие изображения
Документы со встроенными изображениями могут быть преобразованы во все поддерживаемые форматы вывода. Конвейер преобразования сохраняет содержимое изображений в процессе экспорта.
Советы и лучшие практики
- Используйте константы
SaveFormatдля быстрых конвертаций; используйте объекты параметров сохранения, когда требуется контроль форматирования MarkdownSaveOptions.export_underline_formatting = Trueсохраняет стиль подчёркивания в выводе Markdown- Загружайте документы один раз и сохраняйте в несколько форматов, чтобы избежать повторных чтений файлов
Распространённые проблемы
| Issue | Cause | Fix |
|---|---|---|
ModuleNotFoundError | Пакет не установлен | Выполните pip install aspose-words-foss>=26.4.0 |
Пустой текст из get_text() | Входной файл пустой или повреждённый | Убедитесь, что входной файл открывается корректно в текстовом процессоре |
| В PDF‑выводе отсутствуют изображения | Формат изображения не поддерживается конвертером | Используйте входной DOCX с обычными встроенными изображениями |
FAQ
Как конвертировать DOCX в PDF?
Загрузите документ с помощью aw.Document("input.docx") и вызовите doc.save("output.pdf", aw.SaveFormat.PDF).
Можно ли конвертировать несколько форматов за один вызов?
Да. Вызовите doc.save() несколько раз с разными константами SaveFormat, чтобы получить Markdown, PDF и обычный текст из одного загруженного документа.
Как сохранить подчеркивание в Markdown?
Создайте объект MarkdownSaveOptions, установите export_underline_formatting = True и передайте его в doc.save().
Какие форматы входных данных поддерживаются?
Библиотека загружает файлы DOCX, DOC, RTF, TXT и Markdown.
Сводка справочника API
| Класс / Метод | Описание |
|---|---|
Document | Загружать документы Word из форматов DOCX, DOC, RTF, TXT или Markdown |
Document.save() | Сохранять документ в PDF, Markdown или обычный текст |
Document.get_text() | Извлекать обычный текст из загруженного документа |
SaveFormat | Константы для выбора формата вывода (PDF, MARKDOWN, TEXT) |
PdfSaveOptions | Тонкая настройка экспорта PDF |
MarkdownSaveOptions | Тонкая настройка экспорта Markdown |