Gestion du noyau

Gestion du noyau

La classe Document est l’API centrale pour charger des documents Word et les convertir en d’autres formats. Cette page couvre les flux de travail de conversion de formats, la configuration des options d’enregistrement et l’extraction de texte.


Chargement et enregistrement

Chargez un document avec Document() et appelez save() avec une constante SaveFormat pour convertir entre les formats. Entrées prises en charge : DOCX, DOC, RTF, TXT, Markdown. Sorties prises en charge : PDF, DOCX, DOC, Markdown, TXT.

import aspose.words_foss as aw

doc = aw.Document("input.docx")
doc.save("output.md", aw.SaveFormat.MARKDOWN)
doc.save("output.pdf", aw.SaveFormat.PDF)
doc.save("output.txt", aw.SaveFormat.TEXT)

Appelez save() plusieurs fois sur le même Document pour produire plusieurs formats de sortie sans recharger.


Exportation PDF avec PdfSaveOptions

Pour une sortie PDF par défaut, transmettez SaveFormat.PDF. Pour un contrôle granulaire, utilisez un objet PdfSaveOptions :

import aspose.words_foss as aw
from aspose.words_foss.saving import PdfSaveOptions

doc = aw.Document("input.docx")

# Default PDF export
doc.save("default.pdf", aw.SaveFormat.PDF)

# Customized PDF export with save options
doc.save("custom.pdf", PdfSaveOptions())

PdfSaveOptions accepte les paramètres de qualité d’image JPEG (0–100, par défaut 100) et le niveau de conformité aux normes PDF (par défaut PDF/1.7).


Exportation Markdown avec MarkdownSaveOptions

Pour une sortie Markdown par défaut, passez SaveFormat.MARKDOWN. Utilisez MarkdownSaveOptions lorsque vous devez contrôler le comportement du formatage :

import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions

doc = aw.Document("input.docx")

# Default Markdown export
doc.save("default.md", aw.SaveFormat.MARKDOWN)

# Customized Markdown export with save options
doc.save("with_options.md", MarkdownSaveOptions())

MarkdownSaveOptions prend en charge le contrôle de la préservation du format de soulignement dans la sortie.


Extraction de texte

Extrayez le texte brut de tout document chargé avec get_text():

import aspose.words_foss as aw

doc = aw.Document("input.docx")
text = doc.get_text()

Pour la sortie de fichier texte, utilisez SaveFormat.TEXT :

doc.save("output.txt", aw.SaveFormat.TEXT)

Problèmes courants

IssueCauseFix
ModuleNotFoundErrorPackage non installéExécuter pip install aspose-words-foss>=26.4.0
Texte vide provenant de get_text()Le fichier d’entrée est vide ou corrompuVérifiez que le fichier d’entrée s’ouvre correctement dans un traitement de texte
Sortie PDF sans imagesFormat d’image non pris en charge par le convertisseurUtilisez un fichier DOCX avec des images intégrées standard

Résumé de la référence API

Classe / MéthodeDescription
DocumentCharger des documents Word depuis DOCX, DOC, RTF, TXT ou Markdown
Document.save()Enregistrer au format PDF, Markdown, DOCX, DOC ou texte brut
Document.get_text()Extraire le contenu texte brut
SaveFormatConstantes : PDF, MARKDOWN, TEXT, DOC, DOCX
PdfSaveOptionsConfigurer la conformité PDF et la qualité JPEG
MarkdownSaveOptionsConfigurer l’exportation du format de soulignement
 Français