Konwersja i optymalizacja

Konwersja i optymalizacja

Konwersja i optymalizacja

Aspose.PDF FOSS for .NET udostępnia konwertery do przekształcania plików PDF na HTML, Markdown, SVG i zwykły tekst. Podsystem optymalizacji zmniejsza rozmiar pliku i zapewnia zgodność z PDF/A poprzez PdfFormatConversionOptions.


PDF do HTML

PdfToHtmlConverter eksportuje strony PDF jako dokumenty HTML.

var converter = new PdfToHtmlConverter();
converter.SaveAsHtml("input.pdf", "output.html");

// Or save each page separately
converter.SaveAllPagesAsHtml("input.pdf", "output_dir");

HtmlSaveOptions zapewnia kontrolę nad obsługą obrazów, osadzaniem czcionek i strategią układu.


PDF do Markdown

PdfToMarkdownConverter eksportuje zawartość PDF jako tekst Markdown.

var converter = new PdfToMarkdownConverter("input.pdf");
converter.SaveAsMarkdown("output.md");

// Single page
converter.SavePageAsMarkdown(1, "page1.md");

PDF do SVG

PdfToSvgConverter renderuje każdą stronę jako skalowalną grafikę wektorową.

var converter = new PdfToSvgConverter();
converter.SaveAllPagesAsSvg("input.pdf", "output_dir");

PDF do tekstu

PdfToTextConverter wyodrębnia zwykły tekst z stron PDF.

var converter = new PdfToTextConverter();
converter.SaveAsText("input.pdf", "output.txt");

Zgodność z PDF/A

PdfFormatConversionOptions weryfikuje i konwertuje dokumenty do standardów PDF/A.

using var doc = Document.Open(pdfBytes);

var options = new PdfFormatConversionOptions(
    "log.xml",
    PdfFormat.PDF_A_1B,
    ConvertErrorAction.Delete);

doc.Convert(options);
doc.Save("pdfa.pdf");

Kontrola poziomu nagłówka

HeadingLevels konfiguruje, które poziomy nagłówków są rozpoznawane podczas konwersji HTML lub Markdown.

var levels = new HeadingLevels();
levels.AddLevels(1, 3);  // Recognize H1 through H3

Wskazówki i najlepsze praktyki

  • Użyj PdfToHtmlConverter do publikacji w sieci i PdfToMarkdownConverter do przepływów pracy dokumentacji.
  • Konwersja do PDF/A może usuwać funkcje (JavaScript, szyfrowanie), które naruszają standard — użyj ConvertErrorAction.Delete lub ConvertErrorAction.None.
  • W przypadku dużych dokumentów konwertuj stronę po stronie, aby zarządzać pamięcią.
  • HtmlSaveOptions kontroluje, czy obrazy są osadzane w linii, czy zapisywane jako pliki zewnętrzne.
  • Wyjście SVG jest idealne do wyświetlania pojedynczych stron w wysokiej rozdzielczości.

Typowe problemy

IssueCauseFix
Brak obrazów w wyjściu HTMLObrazy nie są osadzone; ścieżki zewnętrzne niepoprawneSkonfiguruj HtmlSaveOptions dla osadzonych obrazów
Konwersja PDF/A usuwa adnotacjeAdnotacje nie są dozwolone w docelowym profilu PDF/AUżyj PDF/A-2 lub PDF/A-3, które pozwalają na adnotacje
Ekstrakcja tekstu traci formatowanieWyjście w formacie zwykłego tekstu nie zawiera formatowania z założeniaUżyj konwersji do HTML lub Markdown zamiast tego

FAQ

Jakie profile PDF/A są obsługiwane?

Profile PDF/A-1A, PDF/A-1B, PDF/A-2A, PDF/A-2B, PDF/A-3A i PDF/A-3B są obsługiwane za pomocą wartości wyliczenia PdfFormat.

Czy mogę przekonwertować pojedynczą stronę na HTML?

Tak. Użyj PdfToHtmlConverter.SavePageAsHtml.

Czy konwersja Markdown zachowuje tabele?

Konwerter próbuje renderować struktury tabel jako tabele Markdown, ale złożone układy mogą wymagać dalszego przetwarzania.


Podsumowanie odniesień API

Class / MethodDescription
PdfToHtmlConverterKonwertuj PDF do HTML
PdfToHtmlConverter.SaveAsHtmlEksportuj cały dokument jako HTML
PdfToMarkdownConverterKonwertuj PDF do Markdown
PdfToSvgConverterKonwertuj strony PDF do SVG
PdfToTextConverterWyodrębnij zwykły tekst z PDF
HtmlSaveOptionsOpcje eksportu HTML (obrazy, czcionki, układ)
HeadingLevelsSkonfiguruj rozpoznawane poziomy nagłówków
PdfFormatConversionOptionsOpcje walidacji i konwersji PDF/A

Zobacz także

 Polski