Conversione e Ottimizzazione
Conversione e Ottimizzazione
Aspose.PDF FOSS for .NET fornisce convertitori per trasformare i PDF in HTML,
Markdown, SVG e testo semplice. Il sottosistema di ottimizzazione riduce le dimensioni del file
e garantisce la conformità PDF/A tramite PdfFormatConversionOptions.
PDF in HTML
PdfToHtmlConverter esporta pagine PDF come documenti HTML.
var converter = new PdfToHtmlConverter();
converter.SaveAsHtml("input.pdf", "output.html");
// Or save each page separately
converter.SaveAllPagesAsHtml("input.pdf", "output_dir");HtmlSaveOptions fornisce il controllo sulla gestione delle immagini, l’incorporamento dei font e la strategia di layout.
PDF a Markdown
PdfToMarkdownConverter esporta il contenuto PDF come testo Markdown.
var converter = new PdfToMarkdownConverter("input.pdf");
converter.SaveAsMarkdown("output.md");
// Single page
converter.SavePageAsMarkdown(1, "page1.md");PDF in SVG
PdfToSvgConverter renderizza ogni pagina come un’immagine vettoriale scalabile.
var converter = new PdfToSvgConverter();
converter.SaveAllPagesAsSvg("input.pdf", "output_dir");PDF in testo
PdfToTextConverter estrae testo semplice dalle pagine PDF.
var converter = new PdfToTextConverter();
converter.SaveAsText("input.pdf", "output.txt");Conformità PDF/A
PdfFormatConversionOptions convalida e converte i documenti agli standard PDF/A.
using var doc = Document.Open(pdfBytes);
var options = new PdfFormatConversionOptions(
"log.xml",
PdfFormat.PDF_A_1B,
ConvertErrorAction.Delete);
doc.Convert(options);
doc.Save("pdfa.pdf");Controllo del livello di intestazione
HeadingLevels configura quali livelli di intestazione sono riconosciuti durante la conversione HTML o Markdown.
var levels = new HeadingLevels();
levels.AddLevels(1, 3); // Recognize H1 through H3Suggerimenti e migliori pratiche
- Utilizzare
PdfToHtmlConverterper la pubblicazione web ePdfToMarkdownConverterper i flussi di lavoro di documentazione. - La conversione PDF/A può rimuovere funzionalità (JavaScript, crittografia) che violano lo standard — utilizzare
ConvertErrorAction.DeleteoConvertErrorAction.None. - Per documenti di grandi dimensioni, convertire pagina per pagina per gestire la memoria.
HtmlSaveOptionscontrolla se le immagini sono incorporate inline o salvate come file esterni.- L’output SVG è ideale per la visualizzazione ad alta risoluzione di pagine individuali.
Problemi comuni
| Problema | Causa | Correzione |
|---|---|---|
| Output HTML senza immagini | Immagini non incorporate; percorsi esterni errati | Configura HtmlSaveOptions per immagini incorporate |
| La conversione PDF/A rimuove le annotazioni | Le annotazioni non sono consentite nel profilo PDF/A di destinazione | Usa PDF/A-2 o PDF/A-3 che consentono le annotazioni |
| L’estrazione del testo perde la formattazione | L’output di testo semplice non ha formattazione per progettazione | Usa la conversione in HTML o Markdown invece |
Domande frequenti
Quali profili PDF/A sono supportati?
I profili PDF/A-1A, PDF/A-1B, PDF/A-2A, PDF/A-2B, PDF/A-3A e PDF/A-3B sono supportati tramite i valori di enumerazione PdfFormat.
Posso convertire una singola pagina in HTML?
Sì. Usa PdfToHtmlConverter.SavePageAsHtml.
La conversione Markdown preserva le tabelle?
Il convertitore tenta di renderizzare le strutture di tabella come tabelle Markdown, ma i layout complessi potrebbero richiedere una post‑elaborazione.
Riepilogo del Riferimento API
| Class / Method | Description |
|---|---|
PdfToHtmlConverter | Converti PDF in HTML |
PdfToHtmlConverter.SaveAsHtml | Esporta l’intero documento come HTML |
PdfToMarkdownConverter | Converti PDF in Markdown |
PdfToSvgConverter | Converti le pagine PDF in SVG |
PdfToTextConverter | Estrai testo semplice da PDF |
HtmlSaveOptions | Opzioni per l’esportazione HTML (immagini, caratteri, layout) |
HeadingLevels | Configura i livelli di intestazione riconosciuti |
PdfFormatConversionOptions | Opzioni di convalida e conversione PDF/A |