Конвертація та оптимізація

Конвертація та оптимізація

Конвертація та оптимізація

Aspose.PDF FOSS for .NET надає конвертери для перетворення PDF у HTML, Markdown, SVG та простий текст. Підсистема оптимізації зменшує розмір файлу і забезпечує відповідність PDF/A через PdfFormatConversionOptions.


PDF у HTML

PdfToHtmlConverter експортує сторінки PDF як HTML‑документи.

var converter = new PdfToHtmlConverter();
converter.SaveAsHtml("input.pdf", "output.html");

// Or save each page separately
converter.SaveAllPagesAsHtml("input.pdf", "output_dir");

HtmlSaveOptions забезпечує контроль над обробкою зображень, вбудовуванням шрифтів та стратегією розташування.


PDF у Markdown

PdfToMarkdownConverter експортує вміст PDF у вигляді тексту Markdown.

var converter = new PdfToMarkdownConverter("input.pdf");
converter.SaveAsMarkdown("output.md");

// Single page
converter.SavePageAsMarkdown(1, "page1.md");

PDF у SVG

PdfToSvgConverter відображає кожну сторінку як масштабовану векторну графіку.

var converter = new PdfToSvgConverter();
converter.SaveAllPagesAsSvg("input.pdf", "output_dir");

PDF у текст

PdfToTextConverter витягує простий текст зі сторінок PDF.

var converter = new PdfToTextConverter();
converter.SaveAsText("input.pdf", "output.txt");

Відповідність PDF/A

PdfFormatConversionOptions перевіряє та конвертує документи у стандарти PDF/A.

using var doc = Document.Open(pdfBytes);

var options = new PdfFormatConversionOptions(
    "log.xml",
    PdfFormat.PDF_A_1B,
    ConvertErrorAction.Delete);

doc.Convert(options);
doc.Save("pdfa.pdf");

Контроль рівня заголовка

HeadingLevels налаштовує, які рівні заголовків розпізнаються під час перетворення HTML або Markdown.

var levels = new HeadingLevels();
levels.AddLevels(1, 3);  // Recognize H1 through H3

Поради та кращі практики

  • Використовуйте PdfToHtmlConverter для веб‑публікації та PdfToMarkdownConverter для робочих процесів документації.
  • Перетворення PDF/A може видаляти функції (JavaScript, шифрування), які порушують стандарт — використовуйте ConvertErrorAction.Delete або ConvertErrorAction.None.
  • Для великих документів конвертуйте по сторінках, щоб керувати пам’яттю.
  • HtmlSaveOptions контролює, чи зображення вбудовуються в рядок або зберігаються як зовнішні файли.
  • Вивід SVG ідеальний для високоякісного відображення окремих сторінок.

Загальні проблеми

ПроблемаПричинаВиправлення
У HTML‑виводі відсутні зображенняЗображення не вбудовані; зовнішні шляхи неправильніНалаштуйте HtmlSaveOptions для вбудованих зображень
Конвертація PDF/A видаляє анотаціїАнотації не дозволені у цільовому профілі PDF/AВикористовуйте PDF/A-2 або PDF/A-3, які дозволяють анотації
Видобуток тексту втрачає форматуванняВивід у вигляді простого тексту не має форматування за задумомВикористовуйте конвертацію в HTML або Markdown замість цього

ЧаПи

Які профілі PDF/A підтримуються?

Профілі PDF/A-1A, PDF/A-1B, PDF/A-2A, PDF/A-2B, PDF/A-3A та PDF/A-3B підтримуються через значення перерахування PdfFormat.

Чи можу я конвертувати одну сторінку в HTML?

Так. Використайте PdfToHtmlConverter.SavePageAsHtml.

Чи зберігає конвертація Markdown таблиці?

Конвертер намагається відображати структури таблиць у вигляді Markdown‑таблиць, але складні макети можуть вимагати постобробки.


Огляд довідки API

Class / MethodDescription
PdfToHtmlConverterКонвертувати PDF у HTML
PdfToHtmlConverter.SaveAsHtmlЕкспортувати весь документ у HTML
PdfToMarkdownConverterКонвертувати PDF у Markdown
PdfToSvgConverterКонвертувати сторінки PDF у SVG
PdfToTextConverterВитягти простий текст з PDF
HtmlSaveOptionsПараметри експорту HTML (зображення, шрифти, макет)
HeadingLevelsНалаштувати розпізнані рівні заголовків
PdfFormatConversionOptionsПараметри валідації та конвертації PDF/A

Див. також

 Українська