Gerenciamento de Núcleo
Gerenciamento Central
A classe Document é a API central para carregar documentos Word e convertê‑los para outros formatos. Esta página cobre fluxos de trabalho de conversão de formatos, configuração de opções de salvamento e extração de texto.
Carregando e Salvando
Carregue um documento com Document() e chame save() com uma constante SaveFormat para converter entre formatos. Entradas suportadas: DOCX, DOC, RTF, TXT, Markdown. Saídas suportadas: PDF, DOCX, DOC, Markdown, TXT.
import aspose.words_foss as aw
doc = aw.Document("input.docx")
doc.save("output.md", aw.SaveFormat.MARKDOWN)
doc.save("output.pdf", aw.SaveFormat.PDF)
doc.save("output.txt", aw.SaveFormat.TEXT)Chame save() várias vezes no mesmo Document para produzir vários formatos de saída sem recarregar.
Exportação de PDF com PdfSaveOptions
Para saída PDF padrão, passe SaveFormat.PDF. Para controle granular, use um objeto PdfSaveOptions:
import aspose.words_foss as aw
from aspose.words_foss.saving import PdfSaveOptions
doc = aw.Document("input.docx")
# Default PDF export
doc.save("default.pdf", aw.SaveFormat.PDF)
# Customized PDF export with save options
doc.save("custom.pdf", PdfSaveOptions())PdfSaveOptions aceita configurações para qualidade de imagem JPEG (0–100, padrão 100) e nível de conformidade com padrões PDF (padrão PDF/1.7).
Exportação de Markdown com MarkdownSaveOptions
Para saída padrão em Markdown, passe SaveFormat.MARKDOWN. Use MarkdownSaveOptions quando precisar controlar o comportamento de formatação:
import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions
doc = aw.Document("input.docx")
# Default Markdown export
doc.save("default.md", aw.SaveFormat.MARKDOWN)
# Customized Markdown export with save options
doc.save("with_options.md", MarkdownSaveOptions())MarkdownSaveOptions suporta o controle da preservação da formatação de sublinhado na saída.
Extração de Texto
Extrair texto simples de qualquer documento carregado com get_text():
import aspose.words_foss as aw
doc = aw.Document("input.docx")
text = doc.get_text()Para saída de arquivo de texto, use SaveFormat.TEXT:
doc.save("output.txt", aw.SaveFormat.TEXT)Problemas Comuns
| Problema | Causa | Correção |
|---|---|---|
ModuleNotFoundError | Pacote não instalado | Execute pip install aspose-words-foss>=26.4.0 |
Texto vazio de get_text() | O arquivo de entrada está vazio ou corrompido | Verifique se o arquivo de entrada abre corretamente em um processador de texto |
| Saída PDF sem imagens | Formato de imagem não suportado pelo conversor | Use um DOCX de entrada com imagens incorporadas padrão |
Resumo da Referência da API
| Classe / Método | Descrição |
|---|---|
Document | Carregar documentos Word de DOCX, DOC, RTF, TXT ou Markdown |
Document.save() | Salvar como PDF, Markdown, DOCX, DOC ou texto simples |
Document.get_text() | Extrair conteúdo de texto simples |
SaveFormat | Constantes: PDF, MARKDOWN, TEXT, DOC, DOCX |
PdfSaveOptions | Configurar conformidade PDF e qualidade JPEG |
MarkdownSaveOptions | Configurar exportação de formatação de sublinhado |