Μετατροπή και Βελτιστοποίηση
Μετατροπή και Βελτιστοποίηση
Aspose.PDF FOSS for .NET παρέχει μετατροπείς για τη μετατροπή των PDF σε HTML,
Markdown, SVG, και απλό κείμενο. Το υποσύστημα βελτιστοποίησης μειώνει το μέγεθος του αρχείου
και εξασφαλίζει τη συμμόρφωση με PDF/A μέσω PdfFormatConversionOptions.
PDF σε HTML
PdfToHtmlConverter εξάγει σελίδες PDF ως έγγραφα HTML.
var converter = new PdfToHtmlConverter();
converter.SaveAsHtml("input.pdf", "output.html");
// Or save each page separately
converter.SaveAllPagesAsHtml("input.pdf", "output_dir");HtmlSaveOptions παρέχει έλεγχο πάνω στη διαχείριση εικόνων, την ενσωμάτωση γραμματοσειρών και τη στρατηγική διάταξης.
PDF σε Markdown
PdfToMarkdownConverter εξάγει περιεχόμενο PDF ως κείμενο Markdown.
var converter = new PdfToMarkdownConverter("input.pdf");
converter.SaveAsMarkdown("output.md");
// Single page
converter.SavePageAsMarkdown(1, "page1.md");PDF σε SVG
PdfToSvgConverter αποδίδει κάθε σελίδα ως κλιμακώσιμο διανυσματικό γραφικό.
var converter = new PdfToSvgConverter();
converter.SaveAllPagesAsSvg("input.pdf", "output_dir");PDF σε κείμενο
PdfToTextConverter εξάγει απλό κείμενο από σελίδες PDF.
var converter = new PdfToTextConverter();
converter.SaveAsText("input.pdf", "output.txt");Συμμόρφωση PDF/A
PdfFormatConversionOptions επικυρώνει και μετατρέπει έγγραφα σε πρότυπα PDF/A.
using var doc = Document.Open(pdfBytes);
var options = new PdfFormatConversionOptions(
"log.xml",
PdfFormat.PDF_A_1B,
ConvertErrorAction.Delete);
doc.Convert(options);
doc.Save("pdfa.pdf");Έλεγχος επιπέδου επικεφαλίδας
HeadingLevels ρυθμίζει ποια επίπεδα επικεφαλίδων αναγνωρίζονται κατά τη μετατροπή HTML ή Markdown.
var levels = new HeadingLevels();
levels.AddLevels(1, 3); // Recognize H1 through H3Συμβουλές και βέλτιστες πρακτικές
- Χρησιμοποιήστε
PdfToHtmlConverterγια τη δημοσίευση στο web καιPdfToMarkdownConverterγια τις ροές εργασίας τεκμηρίωσης. - Η μετατροπή PDF/A ενδέχεται να αφαιρέσει λειτουργίες (JavaScript, κρυπτογράφηση) που παραβιάζουν το πρότυπο — χρησιμοποιήστε
ConvertErrorAction.DeleteήConvertErrorAction.None. - Για μεγάλα έγγραφα, μετατρέψτε σελίδα-προς-σελίδα για να διαχειριστείτε τη μνήμη.
HtmlSaveOptionsελέγχει αν οι εικόνες ενσωματώνονται εντός κειμένου ή αποθηκεύονται ως εξωτερικά αρχεία.- Η έξοδος SVG είναι ιδανική για προβολή υψηλής ανάλυσης μεμονωμένων σελίδων.
Κοινά προβλήματα
| Πρόβλημα | Αιτία | Διόρθωση |
|---|---|---|
| Η έξοδος HTML δεν περιέχει εικόνες | Οι εικόνες δεν είναι ενσωματωμένες· οι εξωτερικές διαδρομές είναι λανθασμένες | Ρυθμίστε HtmlSaveOptions για ενσωματωμένες εικόνες |
| Η μετατροπή PDF/A αφαιρεί τις σημειώσεις | Οι σημειώσεις δεν επιτρέπονται στο προφίλ PDF/A προορισμού | Χρησιμοποιήστε PDF/A-2 ή PDF/A-3 που επιτρέπουν σημειώσεις |
| Η εξαγωγή κειμένου χάνει τη μορφοποίηση | Η έξοδος απλού κειμένου δεν έχει μορφοποίηση από προεπιλογή | Χρησιμοποιήστε μετατροπή σε HTML ή Markdown αντ’ αυτού |
Συχνές ερωτήσεις
Ποια προφίλ PDF/A υποστηρίζονται;
Τα προφίλ PDF/A-1A, PDF/A-1B, PDF/A-2A, PDF/A-2B, PDF/A-3A και PDF/A-3B υποστηρίζονται μέσω των τιμών απαρίθμησης PdfFormat.
Μπορώ να μετατρέψω μια μόνο σελίδα σε HTML;
Ναι. Χρησιμοποιήστε PdfToHtmlConverter.SavePageAsHtml.
Διατηρεί η μετατροπή Markdown τους πίνακες;
Ο μετατροπέας προσπαθεί να αποδώσει τις δομές πινάκων ως πίνακες Markdown, αλλά οι σύνθετες διατάξεις ενδέχεται να απαιτούν μετα-επεξεργασία.
Περίληψη Αναφοράς API
| Class / Method | Description |
|---|---|
PdfToHtmlConverter | Μετατροπή PDF σε HTML |
PdfToHtmlConverter.SaveAsHtml | Εξαγωγή ολόκληρου εγγράφου ως HTML |
PdfToMarkdownConverter | Μετατροπή PDF σε Markdown |
PdfToSvgConverter | Μετατροπή σελίδων PDF σε SVG |
PdfToTextConverter | Εξαγωγή απλού κειμένου από PDF |
HtmlSaveOptions | Επιλογές εξαγωγής HTML (εικόνες, γραμματοσειρές, διάταξη) |
HeadingLevels | Διαμόρφωση αναγνωρισμένων επιπέδων επικεφαλίδων |
PdfFormatConversionOptions | Επιλογές επικύρωσης και μετατροπής PDF/A |