Конвертиране и оптимизиране

Конвертиране и оптимизиране

Конвертиране и оптимизация

Aspose.PDF FOSS for .NET предоставя конвертори за преобразуване на PDF файлове в HTML, Markdown, SVG и обикновен текст. Подсистемата за оптимизация намалява размера на файла и осигурява съответствие с PDF/A чрез PdfFormatConversionOptions.


PDF към HTML

PdfToHtmlConverter експортира PDF страници като HTML документи.

var converter = new PdfToHtmlConverter();
converter.SaveAsHtml("input.pdf", "output.html");

// Or save each page separately
converter.SaveAllPagesAsHtml("input.pdf", "output_dir");

HtmlSaveOptions предоставя контрол върху обработката на изображения, вграждането на шрифтове и стратегията за оформление.


PDF към Markdown

PdfToMarkdownConverter експортира PDF съдържание като Markdown текст.

var converter = new PdfToMarkdownConverter("input.pdf");
converter.SaveAsMarkdown("output.md");

// Single page
converter.SavePageAsMarkdown(1, "page1.md");

PDF към SVG

PdfToSvgConverter рендерира всяка страница като мащабируем векторен график.

var converter = new PdfToSvgConverter();
converter.SaveAllPagesAsSvg("input.pdf", "output_dir");

PDF към текст

PdfToTextConverter извлича чист текст от PDF страници.

var converter = new PdfToTextConverter();
converter.SaveAsText("input.pdf", "output.txt");

PDF/A съответствие

PdfFormatConversionOptions валидира и конвертира документи към стандарти PDF/A.

using var doc = Document.Open(pdfBytes);

var options = new PdfFormatConversionOptions(
    "log.xml",
    PdfFormat.PDF_A_1B,
    ConvertErrorAction.Delete);

doc.Convert(options);
doc.Save("pdfa.pdf");

Контрол на ниво заглавие

HeadingLevels конфигурира кои нива на заглавия се разпознават по време на конвертиране в HTML или Markdown.

var levels = new HeadingLevels();
levels.AddLevels(1, 3);  // Recognize H1 through H3

Съвети и най‑добри практики

  • Използвайте PdfToHtmlConverter за уеб публикуване и PdfToMarkdownConverter за работни процеси по документация.
  • Конвертирането в PDF/A може да премахне функции (JavaScript, криптиране), които нарушават стандарта — използвайте ConvertErrorAction.Delete или ConvertErrorAction.None.
  • За големи документи конвертирайте страница по страница, за да управлявате паметта.
  • HtmlSaveOptions контролира дали изображенията се вграждат в текста или се запазват като външни файлове.
  • Изходът SVG е идеален за показване с висока резолюция на отделни страници.

Чести проблеми

IssueCauseFix
HTML изходът липсва изображенияИзображенията не са вградени; външните пътища са неправилниКонфигурирайте HtmlSaveOptions за вградени изображения
PDF/A конверсията премахва анотациитеАнотациите не са разрешени в целевия PDF/A профилИзползвайте PDF/A-2 или PDF/A-3, които позволяват анотации
Извличането на текст губи форматиранетоИзходът в чист текст няма форматиране по подразбиранеИзползвайте конверсия към HTML или Markdown вместо това

ЧЗВ

Кои PDF/A профили се поддържат?

PDF/A-1A, PDF/A-1B, PDF/A-2A, PDF/A-2B, PDF/A-3A и PDF/A-3B профилите се поддържат чрез PdfFormat стойности на изброяване.

Мога ли да конвертирам една страница в HTML?

Да. Използвайте PdfToHtmlConverter.SavePageAsHtml.

Запазва ли конвертирането на Markdown таблиците?

Конверторът се опитва да изобрази структури на таблици като Markdown таблици, но сложните оформления може да изискват последваща обработка.


Обобщение на API справочника

Class / MethodDescription
PdfToHtmlConverterПреобразува PDF към HTML
PdfToHtmlConverter.SaveAsHtmlЕкспортиране на целия документ като HTML
PdfToMarkdownConverterПреобразува PDF към Markdown
PdfToSvgConverterПреобразува страници от PDF към SVG
PdfToTextConverterИзвлича чист текст от PDF
HtmlSaveOptionsОпции за експортиране в HTML (изображения, шрифтове, оформление)
HeadingLevelsКонфигуриране на разпознатите нива на заглавия
PdfFormatConversionOptionsОпции за валидиране и конвертиране на PDF/A

Вижте също

 Български