Конвертиране и оптимизиране
Конвертиране и оптимизация
Aspose.PDF FOSS for .NET предоставя конвертори за преобразуване на PDF файлове в HTML,
Markdown, SVG и обикновен текст. Подсистемата за оптимизация намалява размера на файла
и осигурява съответствие с PDF/A чрез PdfFormatConversionOptions.
PDF към HTML
PdfToHtmlConverter експортира PDF страници като HTML документи.
var converter = new PdfToHtmlConverter();
converter.SaveAsHtml("input.pdf", "output.html");
// Or save each page separately
converter.SaveAllPagesAsHtml("input.pdf", "output_dir");HtmlSaveOptions предоставя контрол върху обработката на изображения, вграждането на шрифтове и стратегията за оформление.
PDF към Markdown
PdfToMarkdownConverter експортира PDF съдържание като Markdown текст.
var converter = new PdfToMarkdownConverter("input.pdf");
converter.SaveAsMarkdown("output.md");
// Single page
converter.SavePageAsMarkdown(1, "page1.md");PDF към SVG
PdfToSvgConverter рендерира всяка страница като мащабируем векторен график.
var converter = new PdfToSvgConverter();
converter.SaveAllPagesAsSvg("input.pdf", "output_dir");PDF към текст
PdfToTextConverter извлича чист текст от PDF страници.
var converter = new PdfToTextConverter();
converter.SaveAsText("input.pdf", "output.txt");PDF/A съответствие
PdfFormatConversionOptions валидира и конвертира документи към стандарти PDF/A.
using var doc = Document.Open(pdfBytes);
var options = new PdfFormatConversionOptions(
"log.xml",
PdfFormat.PDF_A_1B,
ConvertErrorAction.Delete);
doc.Convert(options);
doc.Save("pdfa.pdf");Контрол на ниво заглавие
HeadingLevels конфигурира кои нива на заглавия се разпознават по време на конвертиране в HTML или Markdown.
var levels = new HeadingLevels();
levels.AddLevels(1, 3); // Recognize H1 through H3Съвети и най‑добри практики
- Използвайте
PdfToHtmlConverterза уеб публикуване иPdfToMarkdownConverterза работни процеси по документация. - Конвертирането в PDF/A може да премахне функции (JavaScript, криптиране), които нарушават стандарта — използвайте
ConvertErrorAction.DeleteилиConvertErrorAction.None. - За големи документи конвертирайте страница по страница, за да управлявате паметта.
HtmlSaveOptionsконтролира дали изображенията се вграждат в текста или се запазват като външни файлове.- Изходът SVG е идеален за показване с висока резолюция на отделни страници.
Чести проблеми
| Issue | Cause | Fix |
|---|---|---|
| HTML изходът липсва изображения | Изображенията не са вградени; външните пътища са неправилни | Конфигурирайте HtmlSaveOptions за вградени изображения |
| PDF/A конверсията премахва анотациите | Анотациите не са разрешени в целевия PDF/A профил | Използвайте PDF/A-2 или PDF/A-3, които позволяват анотации |
| Извличането на текст губи форматирането | Изходът в чист текст няма форматиране по подразбиране | Използвайте конверсия към HTML или Markdown вместо това |
ЧЗВ
Кои PDF/A профили се поддържат?
PDF/A-1A, PDF/A-1B, PDF/A-2A, PDF/A-2B, PDF/A-3A и PDF/A-3B профилите се поддържат чрез PdfFormat стойности на изброяване.
Мога ли да конвертирам една страница в HTML?
Да. Използвайте PdfToHtmlConverter.SavePageAsHtml.
Запазва ли конвертирането на Markdown таблиците?
Конверторът се опитва да изобрази структури на таблици като Markdown таблици, но сложните оформления може да изискват последваща обработка.
Обобщение на API справочника
| Class / Method | Description |
|---|---|
PdfToHtmlConverter | Преобразува PDF към HTML |
PdfToHtmlConverter.SaveAsHtml | Експортиране на целия документ като HTML |
PdfToMarkdownConverter | Преобразува PDF към Markdown |
PdfToSvgConverter | Преобразува страници от PDF към SVG |
PdfToTextConverter | Извлича чист текст от PDF |
HtmlSaveOptions | Опции за експортиране в HTML (изображения, шрифтове, оформление) |
HeadingLevels | Конфигуриране на разпознатите нива на заглавия |
PdfFormatConversionOptions | Опции за валидиране и конвертиране на PDF/A |