Конвертація та оптимізація
Конвертація та оптимізація
Aspose.PDF FOSS for .NET надає конвертери для перетворення PDF у HTML,
Markdown, SVG та простий текст. Підсистема оптимізації зменшує розмір файлу
і забезпечує відповідність PDF/A через PdfFormatConversionOptions.
PDF у HTML
PdfToHtmlConverter експортує сторінки PDF як HTML‑документи.
var converter = new PdfToHtmlConverter();
converter.SaveAsHtml("input.pdf", "output.html");
// Or save each page separately
converter.SaveAllPagesAsHtml("input.pdf", "output_dir");HtmlSaveOptions забезпечує контроль над обробкою зображень, вбудовуванням шрифтів та стратегією розташування.
PDF у Markdown
PdfToMarkdownConverter експортує вміст PDF у вигляді тексту Markdown.
var converter = new PdfToMarkdownConverter("input.pdf");
converter.SaveAsMarkdown("output.md");
// Single page
converter.SavePageAsMarkdown(1, "page1.md");PDF у SVG
PdfToSvgConverter відображає кожну сторінку як масштабовану векторну графіку.
var converter = new PdfToSvgConverter();
converter.SaveAllPagesAsSvg("input.pdf", "output_dir");PDF у текст
PdfToTextConverter витягує простий текст зі сторінок PDF.
var converter = new PdfToTextConverter();
converter.SaveAsText("input.pdf", "output.txt");Відповідність PDF/A
PdfFormatConversionOptions перевіряє та конвертує документи у стандарти PDF/A.
using var doc = Document.Open(pdfBytes);
var options = new PdfFormatConversionOptions(
"log.xml",
PdfFormat.PDF_A_1B,
ConvertErrorAction.Delete);
doc.Convert(options);
doc.Save("pdfa.pdf");Контроль рівня заголовка
HeadingLevels налаштовує, які рівні заголовків розпізнаються під час перетворення HTML або Markdown.
var levels = new HeadingLevels();
levels.AddLevels(1, 3); // Recognize H1 through H3Поради та кращі практики
- Використовуйте
PdfToHtmlConverterдля веб‑публікації таPdfToMarkdownConverterдля робочих процесів документації. - Перетворення PDF/A може видаляти функції (JavaScript, шифрування), які порушують стандарт — використовуйте
ConvertErrorAction.DeleteабоConvertErrorAction.None. - Для великих документів конвертуйте по сторінках, щоб керувати пам’яттю.
HtmlSaveOptionsконтролює, чи зображення вбудовуються в рядок або зберігаються як зовнішні файли.- Вивід SVG ідеальний для високоякісного відображення окремих сторінок.
Загальні проблеми
| Проблема | Причина | Виправлення |
|---|---|---|
| У HTML‑виводі відсутні зображення | Зображення не вбудовані; зовнішні шляхи неправильні | Налаштуйте HtmlSaveOptions для вбудованих зображень |
| Конвертація PDF/A видаляє анотації | Анотації не дозволені у цільовому профілі PDF/A | Використовуйте PDF/A-2 або PDF/A-3, які дозволяють анотації |
| Видобуток тексту втрачає форматування | Вивід у вигляді простого тексту не має форматування за задумом | Використовуйте конвертацію в HTML або Markdown замість цього |
ЧаПи
Які профілі PDF/A підтримуються?
Профілі PDF/A-1A, PDF/A-1B, PDF/A-2A, PDF/A-2B, PDF/A-3A та PDF/A-3B підтримуються через значення перерахування PdfFormat.
Чи можу я конвертувати одну сторінку в HTML?
Так. Використайте PdfToHtmlConverter.SavePageAsHtml.
Чи зберігає конвертація Markdown таблиці?
Конвертер намагається відображати структури таблиць у вигляді Markdown‑таблиць, але складні макети можуть вимагати постобробки.
Огляд довідки API
| Class / Method | Description |
|---|---|
PdfToHtmlConverter | Конвертувати PDF у HTML |
PdfToHtmlConverter.SaveAsHtml | Експортувати весь документ у HTML |
PdfToMarkdownConverter | Конвертувати PDF у Markdown |
PdfToSvgConverter | Конвертувати сторінки PDF у SVG |
PdfToTextConverter | Витягти простий текст з PDF |
HtmlSaveOptions | Параметри експорту HTML (зображення, шрифти, макет) |
HeadingLevels | Налаштувати розпізнані рівні заголовків |
PdfFormatConversionOptions | Параметри валідації та конвертації PDF/A |