Возможности
Функции
Aspose.Words FOSS for Python — это библиотека для конвертации документов и извлечения текста из документов Word. Весь публичный API построен вокруг класса Document.
Поддерживаемые форматы ввода
Класс Document загружает файлы из этих форматов автоматически в зависимости от расширения файла:
| Формат | Расширения |
|---|---|
| Документ Word | .docx, .doc |
| Rich Text | .rtf |
| Простой текст | .txt |
| Markdown | .md |
Форматы вывода и параметры сохранения
Вызовите Document.save() с константой SaveFormat для быстрой конвертации, или передайте объект параметров сохранения для тонкой настройки.
| Вывод | Константа SaveFormat | Класс параметров сохранения |
|---|---|---|
SaveFormat.PDF | PdfSaveOptions — настроить уровень соответствия, качество JPEG | |
| Markdown | SaveFormat.MARKDOWN | MarkdownSaveOptions — управлять экспортом форматирования подчёркивания |
| Plain Text | SaveFormat.TEXT | — |
| Word (DOCX) | SaveFormat.DOCX | — |
| Word (DOC) | SaveFormat.DOC | — |
Для примеров кода и деталей конфигурации параметров сохранения см. Core Management.
Извлечение текста
Document.get_text() возвращает полное содержимое в виде простого текста любого загруженного документа без записи на диск.
Поддержка изображений
Документы со встроенными изображениями могут быть преобразованы во все поддерживаемые форматы вывода. Конвейер преобразования сохраняет содержимое изображений в процессе экспорта.
Сводка API
| Класс / Метод | Роль |
|---|---|
Document | Загружать документы, конвертировать форматы, извлекать текст |
SaveFormat | Константы форматов вывода (PDF, MARKDOWN, TEXT, DOC, DOCX) |
PdfSaveOptions | Конфигурация экспорта PDF |
MarkdownSaveOptions | Конфигурация экспорта Markdown |