Conversion et optimisation

Conversion et optimisation

Conversion et Optimisation

Aspose.PDF FOSS for .NET fournit des convertisseurs pour transformer les PDF en HTML, Markdown, SVG et texte brut. Le sous-système d’optimisation réduit la taille du fichier et garantit la conformité PDF/A via PdfFormatConversionOptions.


PDF en HTML

PdfToHtmlConverter exporte les pages PDF en documents HTML.

var converter = new PdfToHtmlConverter();
converter.SaveAsHtml("input.pdf", "output.html");

// Or save each page separately
converter.SaveAllPagesAsHtml("input.pdf", "output_dir");

HtmlSaveOptions offre un contrôle sur la gestion des images, l’intégration des polices et la stratégie de mise en page.


PDF en Markdown

PdfToMarkdownConverter exporte le contenu PDF en texte Markdown.

var converter = new PdfToMarkdownConverter("input.pdf");
converter.SaveAsMarkdown("output.md");

// Single page
converter.SavePageAsMarkdown(1, "page1.md");

PDF en SVG

PdfToSvgConverter rend chaque page sous forme de graphique vectoriel évolutif.

var converter = new PdfToSvgConverter();
converter.SaveAllPagesAsSvg("input.pdf", "output_dir");

PDF en texte

PdfToTextConverter extrait le texte brut des pages PDF.

var converter = new PdfToTextConverter();
converter.SaveAsText("input.pdf", "output.txt");

Conformité PDF/A

PdfFormatConversionOptions valide et convertit les documents aux normes PDF/A.

using var doc = Document.Open(pdfBytes);

var options = new PdfFormatConversionOptions(
    "log.xml",
    PdfFormat.PDF_A_1B,
    ConvertErrorAction.Delete);

doc.Convert(options);
doc.Save("pdfa.pdf");

Contrôle du niveau de titre

HeadingLevels configure quels niveaux de titres sont reconnus lors de la conversion HTML ou Markdown.

var levels = new HeadingLevels();
levels.AddLevels(1, 3);  // Recognize H1 through H3

Conseils et meilleures pratiques

  • Utilisez PdfToHtmlConverter pour la publication Web et PdfToMarkdownConverter pour les flux de travail de documentation.
  • La conversion PDF/A peut supprimer des fonctionnalités (JavaScript, chiffrement) qui violent la norme — utilisez ConvertErrorAction.Delete ou ConvertErrorAction.None.
  • Pour les documents volumineux, convertissez page par page afin de gérer la mémoire.
  • HtmlSaveOptions contrôle si les images sont intégrées en ligne ou enregistrées comme fichiers externes.
  • La sortie SVG est idéale pour l’affichage haute résolution des pages individuelles.

Problèmes courants

IssueCauseFix
Sortie HTML sans imagesImages non incorporées ; chemins externes incorrectsConfigurer HtmlSaveOptions pour des images incorporées
Conversion PDF/A supprime les annotationsAnnotations non autorisées dans le profil PDF/A cibleUtiliser PDF/A-2 ou PDF/A-3 qui autorisent les annotations
L’extraction de texte perd le formatageLa sortie texte brut n’a pas de formatage par conceptionUtiliser la conversion HTML ou Markdown à la place

FAQ

Quels profils PDF/A sont pris en charge ?

Les profils PDF/A-1A, PDF/A-1B, PDF/A-2A, PDF/A-2B, PDF/A-3A et PDF/A-3B sont pris en charge via les valeurs d’énumération PdfFormat.

Puis-je convertir une seule page en HTML ?

Oui. Utilisez PdfToHtmlConverter.SavePageAsHtml.

La conversion Markdown préserve-t-elle les tableaux ?

Le convertisseur tente de rendre les structures de tableau sous forme de tables Markdown, mais les mises en page complexes peuvent nécessiter un post‑traitement.


Résumé de la référence API

Class / MethodDescription
PdfToHtmlConverterConvertir PDF en HTML
PdfToHtmlConverter.SaveAsHtmlExporter le document complet en HTML
PdfToMarkdownConverterConvertir PDF en Markdown
PdfToSvgConverterConvertir les pages PDF en SVG
PdfToTextConverterExtraire le texte brut du PDF
HtmlSaveOptionsOptions d’exportation HTML (images, polices, mise en page)
HeadingLevelsConfigurer les niveaux de titres reconnus
PdfFormatConversionOptionsOptions de validation et de conversion PDF/A

Voir aussi

 Français