Fonctionnalités
Fonctionnalités
Aspose.Words FOSS for Python est une bibliothèque de conversion de documents et d’extraction de texte pour les documents Word. L’ensemble de l’API publique est construit autour de la classe Document.
Formats d’entrée pris en charge
La classe Document charge les fichiers de ces formats automatiquement en fonction de l’extension du fichier :
| Format | Extensions |
|---|---|
| Document Word | .docx, .doc |
| Texte enrichi | .rtf |
| Texte brut | .txt |
| Markdown | .md |
Formats de sortie et options d’enregistrement
Appelez Document.save() avec une constante SaveFormat pour une conversion rapide, ou transmettez un objet save-options pour un contrôle fin.
| Sortie | Constante SaveFormat | Classe d’options d’enregistrement |
|---|---|---|
SaveFormat.PDF | PdfSaveOptions — configurer le niveau de conformité, la qualité JPEG | |
| Markdown | SaveFormat.MARKDOWN | MarkdownSaveOptions — contrôler l’exportation du format de soulignement |
| Texte brut | SaveFormat.TEXT | — |
| Word (DOCX) | SaveFormat.DOCX | — |
| Word (DOC) | SaveFormat.DOC | — |
Pour les exemples de code et les détails de configuration des options d’enregistrement, voir Core Management.
Extraction de texte
Document.get_text() renvoie le contenu texte complet de tout document chargé sans l’écrire sur le disque.
Support d’image
Les documents contenant des images intégrées peuvent être convertis vers tous les formats de sortie pris en charge. Le pipeline de conversion préserve le contenu des images tout au long du processus d’exportation.
Résumé de l’API
| Classe / Méthode | Rôle |
|---|---|
Document | Charger des documents, convertir des formats, extraire du texte |
SaveFormat | Constantes de format de sortie (PDF, MARKDOWN, TEXT, DOC, DOCX) |
PdfSaveOptions | Configuration d’export PDF |
MarkdownSaveOptions | Configuration d’export Markdown |