تبدیل و بهینهسازی
تبدیل و بهینهسازی
Aspose.PDF FOSS for .NET مبدلهایی برای تبدیل PDFها به HTML,
Markdown، SVG و متن ساده فراهم میکند. زیرسیستم بهینهسازی اندازه فایل را کاهش میدهد
و سازگاری PDF/A را از طریق PdfFormatConversionOptions تضمین میکند.
PDF به HTML
PdfToHtmlConverter صفحات PDF را بهعنوان اسناد HTML صادر میکند.
var converter = new PdfToHtmlConverter();
converter.SaveAsHtml("input.pdf", "output.html");
// Or save each page separately
converter.SaveAllPagesAsHtml("input.pdf", "output_dir");HtmlSaveOptions کنترل بر پردازش تصویر، جاسازی قلم و استراتژی چیدمان را فراهم میکند.
PDF به Markdown
PdfToMarkdownConverter محتواي PDF را به صورت متن Markdown صادر میکند.
var converter = new PdfToMarkdownConverter("input.pdf");
converter.SaveAsMarkdown("output.md");
// Single page
converter.SavePageAsMarkdown(1, "page1.md");PDF به SVG
PdfToSvgConverter هر صفحه را بهصورت گرافیک برداری مقیاسپذیر رندر میکند.
var converter = new PdfToSvgConverter();
converter.SaveAllPagesAsSvg("input.pdf", "output_dir");PDF به متن
PdfToTextConverter متن ساده را از صفحات PDF استخراج میکند.
var converter = new PdfToTextConverter();
converter.SaveAsText("input.pdf", "output.txt");سازگاری PDF/A
PdfFormatConversionOptions اسناد را اعتبارسنجی و به استانداردهای PDF/A تبدیل میکند.
using var doc = Document.Open(pdfBytes);
var options = new PdfFormatConversionOptions(
"log.xml",
PdfFormat.PDF_A_1B,
ConvertErrorAction.Delete);
doc.Convert(options);
doc.Save("pdfa.pdf");کنترل سطح عنوان
HeadingLevels پیکربندی میکند که کدام سطوح عنوان در طول تبدیل HTML یا Markdown شناخته شوند.
var levels = new HeadingLevels();
levels.AddLevels(1, 3); // Recognize H1 through H3نکات و بهترین شیوهها
- از
PdfToHtmlConverterبرای انتشار وب وPdfToMarkdownConverterبرای جریانهای کاری مستندسازی استفاده کنید. - تبدیل PDF/A ممکن است ویژگیهایی (JavaScript، رمزنگاری) که استاندارد را نقض میکنند حذف کند — از
ConvertErrorAction.DeleteیاConvertErrorAction.Noneاستفاده کنید. - برای اسناد بزرگ، برای مدیریت حافظه صفحه به صفحه تبدیل کنید.
HtmlSaveOptionsتعیین میکند که آیا تصاویر به صورت درونخطی جاسازی شوند یا به عنوان فایلهای خارجی ذخیره شوند.- خروجی SVG برای نمایش با وضوح بالا صفحات جداگانه ایدهآل است.
مشکلات رایج
| Issue | Cause | Fix |
|---|---|---|
| خروجی HTML تصاویر را نشان نمیدهد | تصاویر جاسازی نشدهاند؛ مسیرهای خارجی نادرست هستند | HtmlSaveOptions را برای تصاویر جاسازیشده پیکربندی کنید |
| تبدیل PDF/A حاشیهنویسیها را حذف میکند | حاشیهنویسیها در پروفایل هدف PDF/A مجاز نیستند | از PDF/A-2 یا PDF/A-3 که حاشیهنویسیها را اجازه میدهند استفاده کنید |
| استخراج متن قالببندی را از دست میدهد | خروجی متن ساده بهصورت پیشفرض بدون قالببندی است | بهجای آن از تبدیل به HTML یا Markdown استفاده کنید |
سوالات متداول
کدام پروفایلهای PDF/A پشتیبانی میشوند؟
پروفایلهای PDF/A-1A، PDF/A-1B، PDF/A-2A، PDF/A-2B، PDF/A-3A و PDF/A-3B از طریق مقادیر شمارشی PdfFormat پشتیبانی میشوند.
آیا میتوانم یک صفحهٔ تک را به HTML تبدیل کنم؟
بله. از PdfToHtmlConverter.SavePageAsHtml استفاده کنید.
آیا تبدیل Markdown جداول را حفظ میکند؟
مبدل سعی میکند ساختارهای جدول را بهصورت جداول Markdown رندر کند، اما طرحهای پیچیده ممکن است به پردازش پس از تبدیل نیاز داشته باشند.
API خلاصه مرجع
| Class / Method | Description |
|---|---|
PdfToHtmlConverter | تبدیل PDF به HTML |
PdfToHtmlConverter.SaveAsHtml | خروجی تمام سند به صورت HTML |
PdfToMarkdownConverter | تبدیل PDF به Markdown |
PdfToSvgConverter | تبدیل صفحات PDF به SVG |
PdfToTextConverter | استخراج متن ساده از PDF |
HtmlSaveOptions | گزینههای خروجی HTML (تصاویر، قلمها، چیدمان) |
HeadingLevels | پیکربندی سطوح سرعنوان شناساییشده |
PdfFormatConversionOptions | گزینههای اعتبارسنجی و تبدیل PDF/A |