Konwersja i optymalizacja
Konwersja i optymalizacja
Aspose.PDF FOSS for .NET udostępnia konwertery do przekształcania plików PDF na HTML,
Markdown, SVG i zwykły tekst. Podsystem optymalizacji zmniejsza rozmiar pliku
i zapewnia zgodność z PDF/A poprzez PdfFormatConversionOptions.
PDF do HTML
PdfToHtmlConverter eksportuje strony PDF jako dokumenty HTML.
var converter = new PdfToHtmlConverter();
converter.SaveAsHtml("input.pdf", "output.html");
// Or save each page separately
converter.SaveAllPagesAsHtml("input.pdf", "output_dir");HtmlSaveOptions zapewnia kontrolę nad obsługą obrazów, osadzaniem czcionek i strategią układu.
PDF do Markdown
PdfToMarkdownConverter eksportuje zawartość PDF jako tekst Markdown.
var converter = new PdfToMarkdownConverter("input.pdf");
converter.SaveAsMarkdown("output.md");
// Single page
converter.SavePageAsMarkdown(1, "page1.md");PDF do SVG
PdfToSvgConverter renderuje każdą stronę jako skalowalną grafikę wektorową.
var converter = new PdfToSvgConverter();
converter.SaveAllPagesAsSvg("input.pdf", "output_dir");PDF do tekstu
PdfToTextConverter wyodrębnia zwykły tekst z stron PDF.
var converter = new PdfToTextConverter();
converter.SaveAsText("input.pdf", "output.txt");Zgodność z PDF/A
PdfFormatConversionOptions weryfikuje i konwertuje dokumenty do standardów PDF/A.
using var doc = Document.Open(pdfBytes);
var options = new PdfFormatConversionOptions(
"log.xml",
PdfFormat.PDF_A_1B,
ConvertErrorAction.Delete);
doc.Convert(options);
doc.Save("pdfa.pdf");Kontrola poziomu nagłówka
HeadingLevels konfiguruje, które poziomy nagłówków są rozpoznawane podczas
konwersji HTML lub Markdown.
var levels = new HeadingLevels();
levels.AddLevels(1, 3); // Recognize H1 through H3Wskazówki i najlepsze praktyki
- Użyj
PdfToHtmlConverterdo publikacji w sieci iPdfToMarkdownConverterdo przepływów pracy dokumentacji. - Konwersja do PDF/A może usuwać funkcje (JavaScript, szyfrowanie), które naruszają standard — użyj
ConvertErrorAction.DeletelubConvertErrorAction.None. - W przypadku dużych dokumentów konwertuj stronę po stronie, aby zarządzać pamięcią.
HtmlSaveOptionskontroluje, czy obrazy są osadzane w linii, czy zapisywane jako pliki zewnętrzne.- Wyjście SVG jest idealne do wyświetlania pojedynczych stron w wysokiej rozdzielczości.
Typowe problemy
| Issue | Cause | Fix |
|---|---|---|
| Brak obrazów w wyjściu HTML | Obrazy nie są osadzone; ścieżki zewnętrzne niepoprawne | Skonfiguruj HtmlSaveOptions dla osadzonych obrazów |
| Konwersja PDF/A usuwa adnotacje | Adnotacje nie są dozwolone w docelowym profilu PDF/A | Użyj PDF/A-2 lub PDF/A-3, które pozwalają na adnotacje |
| Ekstrakcja tekstu traci formatowanie | Wyjście w formacie zwykłego tekstu nie zawiera formatowania z założenia | Użyj konwersji do HTML lub Markdown zamiast tego |
FAQ
Jakie profile PDF/A są obsługiwane?
Profile PDF/A-1A, PDF/A-1B, PDF/A-2A, PDF/A-2B, PDF/A-3A i PDF/A-3B są obsługiwane za pomocą wartości wyliczenia PdfFormat.
Czy mogę przekonwertować pojedynczą stronę na HTML?
Tak. Użyj PdfToHtmlConverter.SavePageAsHtml.
Czy konwersja Markdown zachowuje tabele?
Konwerter próbuje renderować struktury tabel jako tabele Markdown, ale złożone układy mogą wymagać dalszego przetwarzania.
Podsumowanie odniesień API
| Class / Method | Description |
|---|---|
PdfToHtmlConverter | Konwertuj PDF do HTML |
PdfToHtmlConverter.SaveAsHtml | Eksportuj cały dokument jako HTML |
PdfToMarkdownConverter | Konwertuj PDF do Markdown |
PdfToSvgConverter | Konwertuj strony PDF do SVG |
PdfToTextConverter | Wyodrębnij zwykły tekst z PDF |
HtmlSaveOptions | Opcje eksportu HTML (obrazy, czcionki, układ) |
HeadingLevels | Skonfiguruj rozpoznawane poziomy nagłówków |
PdfFormatConversionOptions | Opcje walidacji i konwersji PDF/A |