Conversion et optimisation
Conversion et Optimisation
Aspose.PDF FOSS for .NET fournit des convertisseurs pour transformer les PDF en HTML,
Markdown, SVG et texte brut. Le sous-système d’optimisation réduit la taille du fichier
et garantit la conformité PDF/A via PdfFormatConversionOptions.
PDF en HTML
PdfToHtmlConverter exporte les pages PDF en documents HTML.
var converter = new PdfToHtmlConverter();
converter.SaveAsHtml("input.pdf", "output.html");
// Or save each page separately
converter.SaveAllPagesAsHtml("input.pdf", "output_dir");HtmlSaveOptions offre un contrôle sur la gestion des images, l’intégration des polices et la stratégie de mise en page.
PDF en Markdown
PdfToMarkdownConverter exporte le contenu PDF en texte Markdown.
var converter = new PdfToMarkdownConverter("input.pdf");
converter.SaveAsMarkdown("output.md");
// Single page
converter.SavePageAsMarkdown(1, "page1.md");PDF en SVG
PdfToSvgConverter rend chaque page sous forme de graphique vectoriel évolutif.
var converter = new PdfToSvgConverter();
converter.SaveAllPagesAsSvg("input.pdf", "output_dir");PDF en texte
PdfToTextConverter extrait le texte brut des pages PDF.
var converter = new PdfToTextConverter();
converter.SaveAsText("input.pdf", "output.txt");Conformité PDF/A
PdfFormatConversionOptions valide et convertit les documents aux normes PDF/A.
using var doc = Document.Open(pdfBytes);
var options = new PdfFormatConversionOptions(
"log.xml",
PdfFormat.PDF_A_1B,
ConvertErrorAction.Delete);
doc.Convert(options);
doc.Save("pdfa.pdf");Contrôle du niveau de titre
HeadingLevels configure quels niveaux de titres sont reconnus lors de la conversion HTML ou Markdown.
var levels = new HeadingLevels();
levels.AddLevels(1, 3); // Recognize H1 through H3Conseils et meilleures pratiques
- Utilisez
PdfToHtmlConverterpour la publication Web etPdfToMarkdownConverterpour les flux de travail de documentation. - La conversion PDF/A peut supprimer des fonctionnalités (JavaScript, chiffrement) qui violent la norme — utilisez
ConvertErrorAction.DeleteouConvertErrorAction.None. - Pour les documents volumineux, convertissez page par page afin de gérer la mémoire.
HtmlSaveOptionscontrôle si les images sont intégrées en ligne ou enregistrées comme fichiers externes.- La sortie SVG est idéale pour l’affichage haute résolution des pages individuelles.
Problèmes courants
| Issue | Cause | Fix |
|---|---|---|
| Sortie HTML sans images | Images non incorporées ; chemins externes incorrects | Configurer HtmlSaveOptions pour des images incorporées |
| Conversion PDF/A supprime les annotations | Annotations non autorisées dans le profil PDF/A cible | Utiliser PDF/A-2 ou PDF/A-3 qui autorisent les annotations |
| L’extraction de texte perd le formatage | La sortie texte brut n’a pas de formatage par conception | Utiliser la conversion HTML ou Markdown à la place |
FAQ
Quels profils PDF/A sont pris en charge ?
Les profils PDF/A-1A, PDF/A-1B, PDF/A-2A, PDF/A-2B, PDF/A-3A et PDF/A-3B sont pris en charge via les valeurs d’énumération PdfFormat.
Puis-je convertir une seule page en HTML ?
Oui. Utilisez PdfToHtmlConverter.SavePageAsHtml.
La conversion Markdown préserve-t-elle les tableaux ?
Le convertisseur tente de rendre les structures de tableau sous forme de tables Markdown, mais les mises en page complexes peuvent nécessiter un post‑traitement.
Résumé de la référence API
| Class / Method | Description |
|---|---|
PdfToHtmlConverter | Convertir PDF en HTML |
PdfToHtmlConverter.SaveAsHtml | Exporter le document complet en HTML |
PdfToMarkdownConverter | Convertir PDF en Markdown |
PdfToSvgConverter | Convertir les pages PDF en SVG |
PdfToTextConverter | Extraire le texte brut du PDF |
HtmlSaveOptions | Options d’exportation HTML (images, polices, mise en page) |
HeadingLevels | Configurer les niveaux de titres reconnus |
PdfFormatConversionOptions | Options de validation et de conversion PDF/A |