Gestionare de bază
Gestionare de bază
API-ul principal de gestionare a documentelor este construit în jurul clasei Document, care încarcă documente Word și oferă save() pentru conversia formatului și get_text() pentru extragerea textului. Utilizați constantele SaveFormat sau obiectele de opțiuni de salvare (PdfSaveOptions, MarkdownSaveOptions) pentru a controla ieșirea.
Conversie document unic
Încărcați un document cu clasa Document și apelați save() cu un format țintă. Transmiteți fie o constantă SaveFormat, fie un obiect de opțiuni de salvare pentru formatul de ieșire.
import aspose.words_foss as aw
doc = aw.Document("input.docx") # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)Conversie în lot la toate formatele
Convertește un singur fișier de intrare în mai multe formate de ieșire apelând save() de mai multe ori cu diferite constante SaveFormat (SaveFormat.MARKDOWN, SaveFormat.PDF, SaveFormat.TEXT).
Export PDF cu opţiuni de salvare
Utilizați PdfSaveOptions pentru control fin asupra ieșirii PDF, sau SaveFormat.PDF pentru setările implicite.
import aspose.words_foss as aw
doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)Export Markdown
Exportați documentele în Markdown utilizând SaveFormat.MARKDOWN sau MarkdownSaveOptions pentru control suplimentar al ieșirii.
import aspose.words_foss as aw
doc = aw.Document("input.docx") # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)Extracție de text
Extrage conținutul text simplu prin Document.get_text() sau exportă ca text simplu prin SaveFormat.TEXT.
import aspose.words_foss as aw
doc = aw.Document("input.docx")
text = doc.get_text()Documente care conțin imagini
Documentele cu imagini încorporate pot fi convertite în toate formatele de ieșire acceptate. Pipeline‑ul de conversie păstrează conținutul imaginii pe parcursul procesului de export.
Sfaturi și cele mai bune practici
- Utilizați constantele
SaveFormatpentru conversii rapide; utilizați obiecte save-options când aveți nevoie de control asupra formatării MarkdownSaveOptions.export_underline_formatting = Truepăstrează stilul subliniat în ieșirea Markdown- Încărcați documentele o singură dată și salvați-le în mai multe formate pentru a evita citirile redundante ale fișierelor
Probleme comune
| Issue | Cause | Fix |
|---|---|---|
ModuleNotFoundError | Pachetul nu este instalat | Rulați pip install aspose-words-foss>=26.4.0 |
Text gol de la get_text() | Fișierul de intrare este gol sau corupt | Verificați că fișierul de intrare se deschide corect într-un procesor de text |
| Ieșirea PDF nu conține imagini | Formatul imaginii nu este acceptat de convertor | Utilizați un fișier DOCX cu imagini încorporate standard |
FAQ
Cum pot converti DOCX în PDF?
Încărcați documentul cu aw.Document("input.docx") și apelați doc.save("output.pdf", aw.SaveFormat.PDF).
Pot converti mai multe formate într-un singur apel?
Da. Apelă doc.save() de mai multe ori cu diferite constante SaveFormat pentru a produce Markdown, PDF și text simplu dintr-un singur document încărcat.
Cum pot păstra formatarea subliniată în Markdown?
Creează un obiect MarkdownSaveOptions, setează export_underline_formatting = True și transmite-l către doc.save().
Ce formate de intrare sunt suportate?
Biblioteca încarcă fișiere DOCX, DOC, RTF, TXT și Markdown.
Sumar referință API
| Clasă / Metodă | Descriere |
|---|---|
Document | Încarcă documente Word din DOCX, DOC, RTF, TXT sau Markdown |
Document.save() | Salvează documentul în PDF, Markdown sau text simplu |
Document.get_text() | Extrage conținutul text simplu din documentul încărcat |
SaveFormat | Constante pentru selecția formatului de ieșire (PDF, MARKDOWN, TEXT) |
PdfSaveOptions | Control detaliat asupra exportului PDF |
MarkdownSaveOptions | Control detaliat asupra exportului Markdown |