Gestió del nucli

Gestió del nucli

La classe Document és l’API central per carregar documents Word i convertir‑los a altres formats. Aquesta pàgina cobreix els fluxos de treball de conversió de formats, la configuració d’opcions de desament i l’extracció de text.


Càrrega i desament

Carregueu un document amb Document() i crideu save() amb una constant SaveFormat per convertir entre formats. Entrades compatibles: DOCX, DOC, RTF, TXT, Markdown. Sortides compatibles: PDF, DOCX, DOC, Markdown, TXT.

import aspose.words_foss as aw

doc = aw.Document("input.docx")
doc.save("output.md", aw.SaveFormat.MARKDOWN)
doc.save("output.pdf", aw.SaveFormat.PDF)
doc.save("output.txt", aw.SaveFormat.TEXT)

Crida save() diverses vegades al mateix Document per generar diversos formats de sortida sense tornar a carregar.


Exportació PDF amb PdfSaveOptions

Per a la sortida PDF per defecte, passeu SaveFormat.PDF. Per a un control detallat, utilitzeu un objecte PdfSaveOptions:

import aspose.words_foss as aw
from aspose.words_foss.saving import PdfSaveOptions

doc = aw.Document("input.docx")

# Default PDF export
doc.save("default.pdf", aw.SaveFormat.PDF)

# Customized PDF export with save options
doc.save("custom.pdf", PdfSaveOptions())

PdfSaveOptions accepta configuracions per a la qualitat d’imatge JPEG (0–100, per defecte 100) i el nivell de compliment d’estàndards PDF (per defecte PDF/1.7).


Exportació Markdown amb MarkdownSaveOptions

Per a la sortida Markdown per defecte, passa SaveFormat.MARKDOWN. Utilitza MarkdownSaveOptions quan necessitis controlar el comportament del formatatge:

import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions

doc = aw.Document("input.docx")

# Default Markdown export
doc.save("default.md", aw.SaveFormat.MARKDOWN)

# Customized Markdown export with save options
doc.save("with_options.md", MarkdownSaveOptions())

MarkdownSaveOptions admet el control de la preservació del format de subratllat a la sortida.


Extracció de text

Extreu text pla de qualsevol document carregat amb get_text():

import aspose.words_foss as aw

doc = aw.Document("input.docx")
text = doc.get_text()

Per a la sortida de fitxer de text, utilitzeu SaveFormat.TEXT:

doc.save("output.txt", aw.SaveFormat.TEXT)

Problemes comuns

IssueCauseFix
ModuleNotFoundErrorPaquet no instal·latExecuta pip install aspose-words-foss>=26.4.0
Text buit de get_text()El fitxer d’entrada és buit o està corrupteVerifica que el fitxer d’entrada s’obre correctament en un processador de textos
Sortida PDF sense imatgesFormat d’imatge no compatible amb el convertidorUtilitza una entrada DOCX amb imatges incrustades estàndard

Resum de la referència API

Classe / MètodeDescripció
DocumentCarrega documents Word des de DOCX, DOC, RTF, TXT o Markdown
Document.save()Desa a PDF, Markdown, DOCX, DOC o text pla
Document.get_text()Extreu contingut de text pla
SaveFormatConstants: PDF, MARKDOWN, TEXT, DOC, DOCX
PdfSaveOptionsConfigura el compliment PDF i la qualitat JPEG
MarkdownSaveOptionsConfigura l’exportació del format de subratllat
 Català