Conversione e Ottimizzazione

Conversione e Ottimizzazione

Conversione e Ottimizzazione

Aspose.PDF FOSS for .NET fornisce convertitori per trasformare i PDF in HTML, Markdown, SVG e testo semplice. Il sottosistema di ottimizzazione riduce le dimensioni del file e garantisce la conformità PDF/A tramite PdfFormatConversionOptions.


PDF in HTML

PdfToHtmlConverter esporta pagine PDF come documenti HTML.

var converter = new PdfToHtmlConverter();
converter.SaveAsHtml("input.pdf", "output.html");

// Or save each page separately
converter.SaveAllPagesAsHtml("input.pdf", "output_dir");

HtmlSaveOptions fornisce il controllo sulla gestione delle immagini, l’incorporamento dei font e la strategia di layout.


PDF a Markdown

PdfToMarkdownConverter esporta il contenuto PDF come testo Markdown.

var converter = new PdfToMarkdownConverter("input.pdf");
converter.SaveAsMarkdown("output.md");

// Single page
converter.SavePageAsMarkdown(1, "page1.md");

PDF in SVG

PdfToSvgConverter renderizza ogni pagina come un’immagine vettoriale scalabile.

var converter = new PdfToSvgConverter();
converter.SaveAllPagesAsSvg("input.pdf", "output_dir");

PDF in testo

PdfToTextConverter estrae testo semplice dalle pagine PDF.

var converter = new PdfToTextConverter();
converter.SaveAsText("input.pdf", "output.txt");

Conformità PDF/A

PdfFormatConversionOptions convalida e converte i documenti agli standard PDF/A.

using var doc = Document.Open(pdfBytes);

var options = new PdfFormatConversionOptions(
    "log.xml",
    PdfFormat.PDF_A_1B,
    ConvertErrorAction.Delete);

doc.Convert(options);
doc.Save("pdfa.pdf");

Controllo del livello di intestazione

HeadingLevels configura quali livelli di intestazione sono riconosciuti durante la conversione HTML o Markdown.

var levels = new HeadingLevels();
levels.AddLevels(1, 3);  // Recognize H1 through H3

Suggerimenti e migliori pratiche

  • Utilizzare PdfToHtmlConverter per la pubblicazione web e PdfToMarkdownConverter per i flussi di lavoro di documentazione.
  • La conversione PDF/A può rimuovere funzionalità (JavaScript, crittografia) che violano lo standard — utilizzare ConvertErrorAction.Delete o ConvertErrorAction.None.
  • Per documenti di grandi dimensioni, convertire pagina per pagina per gestire la memoria.
  • HtmlSaveOptions controlla se le immagini sono incorporate inline o salvate come file esterni.
  • L’output SVG è ideale per la visualizzazione ad alta risoluzione di pagine individuali.

Problemi comuni

ProblemaCausaCorrezione
Output HTML senza immaginiImmagini non incorporate; percorsi esterni erratiConfigura HtmlSaveOptions per immagini incorporate
La conversione PDF/A rimuove le annotazioniLe annotazioni non sono consentite nel profilo PDF/A di destinazioneUsa PDF/A-2 o PDF/A-3 che consentono le annotazioni
L’estrazione del testo perde la formattazioneL’output di testo semplice non ha formattazione per progettazioneUsa la conversione in HTML o Markdown invece

Domande frequenti

Quali profili PDF/A sono supportati?

I profili PDF/A-1A, PDF/A-1B, PDF/A-2A, PDF/A-2B, PDF/A-3A e PDF/A-3B sono supportati tramite i valori di enumerazione PdfFormat.

Posso convertire una singola pagina in HTML?

Sì. Usa PdfToHtmlConverter.SavePageAsHtml.

La conversione Markdown preserva le tabelle?

Il convertitore tenta di renderizzare le strutture di tabella come tabelle Markdown, ma i layout complessi potrebbero richiedere una post‑elaborazione.


Riepilogo del Riferimento API

Class / MethodDescription
PdfToHtmlConverterConverti PDF in HTML
PdfToHtmlConverter.SaveAsHtmlEsporta l’intero documento come HTML
PdfToMarkdownConverterConverti PDF in Markdown
PdfToSvgConverterConverti le pagine PDF in SVG
PdfToTextConverterEstrai testo semplice da PDF
HtmlSaveOptionsOpzioni per l’esportazione HTML (immagini, caratteri, layout)
HeadingLevelsConfigura i livelli di intestazione riconosciuti
PdfFormatConversionOptionsOpzioni di convalida e conversione PDF/A

Vedi anche

 Italiano