Conversie și optimizare
Conversie și optimizare
Aspose.PDF FOSS pentru .NET oferă convertoare pentru transformarea PDF-urilor în HTML,
Markdown, SVG și text simplu. Subsystemul de optimizare reduce dimensiunea fișierului
și asigură conformitatea PDF/A prin PdfFormatConversionOptions.
PDF în HTML
PdfToHtmlConverter exportă paginile PDF ca documente HTML.
var converter = new PdfToHtmlConverter();
converter.SaveAsHtml("input.pdf", "output.html");
// Or save each page separately
converter.SaveAllPagesAsHtml("input.pdf", "output_dir");HtmlSaveOptions oferă control asupra gestionării imaginilor, încorporării fonturilor și strategiei de aspect.
PDF la Markdown
PdfToMarkdownConverter exportă conținut PDF ca text Markdown.
var converter = new PdfToMarkdownConverter("input.pdf");
converter.SaveAsMarkdown("output.md");
// Single page
converter.SavePageAsMarkdown(1, "page1.md");PDF în SVG
PdfToSvgConverter redă fiecare pagină ca un grafic vectorial scalabil.
var converter = new PdfToSvgConverter();
converter.SaveAllPagesAsSvg("input.pdf", "output_dir");PDF la text
PdfToTextConverter extrage text simplu din paginile PDF.
var converter = new PdfToTextConverter();
converter.SaveAsText("input.pdf", "output.txt");Conformitate PDF/A
PdfFormatConversionOptions validează și convertește documente în standardele PDF/A.
using var doc = Document.Open(pdfBytes);
var options = new PdfFormatConversionOptions(
"log.xml",
PdfFormat.PDF_A_1B,
ConvertErrorAction.Delete);
doc.Convert(options);
doc.Save("pdfa.pdf");Controlul nivelului titlului
HeadingLevels configurează nivelurile de titlu recunoscute în timpul conversiei HTML sau Markdown.
var levels = new HeadingLevels();
levels.AddLevels(1, 3); // Recognize H1 through H3Sfaturi și cele mai bune practici
- Utilizați
PdfToHtmlConverterpentru publicarea pe web șiPdfToMarkdownConverterpentru fluxurile de lucru de documentație. - Conversia PDF/A poate elimina funcționalități (JavaScript, criptare) care încalcă standardul — utilizați
ConvertErrorAction.DeletesauConvertErrorAction.None. - Pentru documente mari, convertiți pagină cu pagină pentru a gestiona memoria.
HtmlSaveOptionscontrolează dacă imaginile sunt încorporate în linie sau salvate ca fișiere externe.- Ieșirea SVG este ideală pentru afișarea la înaltă rezoluție a paginilor individuale.
Probleme comune
| Problem | Cauză | Remediere |
|---|---|---|
| Lipsă imagini în ieșirea HTML | Imaginile nu sunt încorporate; căile externe incorecte | Configurați HtmlSaveOptions pentru imagini încorporate |
| Conversia PDF/A elimină adnotările | Adnotările nu sunt permise în profilul PDF/A țintă | Utilizați PDF/A-2 sau PDF/A-3 care permit adnotări |
| Extracția de text pierde formatarea | Ieșirea în text simplu nu are formatare prin design | Utilizați conversia în HTML sau Markdown în schimb |
Întrebări frecvente
Ce profiluri PDF/A sunt acceptate?
Profilurile PDF/A-1A, PDF/A-1B, PDF/A-2A, PDF/A-2B, PDF/A-3A și PDF/A-3B sunt acceptate prin valorile enumerării PdfFormat.
Pot converti o singură pagină în HTML?
Da. Folosiți PdfToHtmlConverter.SavePageAsHtml.
Conversia Markdown păstrează tabelele?
Convertorul încearcă să redea structurile de tabel ca tabele Markdown, dar aranjamentele complexe pot necesita post‑procesare.
Rezumatul referinței API
| Class / Method | Description |
|---|---|
PdfToHtmlConverter | Convertește PDF în HTML |
PdfToHtmlConverter.SaveAsHtml | Exportă întregul document ca HTML |
PdfToMarkdownConverter | Convertește PDF în Markdown |
PdfToSvgConverter | Convertește paginile PDF în SVG |
PdfToTextConverter | Extrage text simplu din PDF |
HtmlSaveOptions | Opțiuni pentru exportul HTML (imagini, fonturi, aspect) |
HeadingLevels | Configurează nivelurile de titluri recunoscute |
PdfFormatConversionOptions | Opțiuni de validare și conversie PDF/A |