تبدیل و بهینه‌سازی

تبدیل و بهینه‌سازی

تبدیل و بهینه‌سازی

Aspose.PDF FOSS for .NET مبدل‌هایی برای تبدیل PDFها به HTML, Markdown، SVG و متن ساده فراهم می‌کند. زیرسیستم بهینه‌سازی اندازه فایل را کاهش می‌دهد و سازگاری PDF/A را از طریق PdfFormatConversionOptions تضمین می‌کند.


PDF به HTML

PdfToHtmlConverter صفحات PDF را به‌عنوان اسناد HTML صادر می‌کند.

var converter = new PdfToHtmlConverter();
converter.SaveAsHtml("input.pdf", "output.html");

// Or save each page separately
converter.SaveAllPagesAsHtml("input.pdf", "output_dir");

HtmlSaveOptions کنترل بر پردازش تصویر، جاسازی قلم و استراتژی چیدمان را فراهم می‌کند.


PDF به Markdown

PdfToMarkdownConverter محتواي PDF را به صورت متن Markdown صادر می‌کند.

var converter = new PdfToMarkdownConverter("input.pdf");
converter.SaveAsMarkdown("output.md");

// Single page
converter.SavePageAsMarkdown(1, "page1.md");

PDF به SVG

PdfToSvgConverter هر صفحه را به‌صورت گرافیک برداری مقیاس‌پذیر رندر می‌کند.

var converter = new PdfToSvgConverter();
converter.SaveAllPagesAsSvg("input.pdf", "output_dir");

PDF به متن

PdfToTextConverter متن ساده را از صفحات PDF استخراج می‌کند.

var converter = new PdfToTextConverter();
converter.SaveAsText("input.pdf", "output.txt");

سازگاری PDF/A

PdfFormatConversionOptions اسناد را اعتبارسنجی و به استانداردهای PDF/A تبدیل می‌کند.

using var doc = Document.Open(pdfBytes);

var options = new PdfFormatConversionOptions(
    "log.xml",
    PdfFormat.PDF_A_1B,
    ConvertErrorAction.Delete);

doc.Convert(options);
doc.Save("pdfa.pdf");

کنترل سطح عنوان

HeadingLevels پیکربندی می‌کند که کدام سطوح عنوان در طول تبدیل HTML یا Markdown شناخته شوند.

var levels = new HeadingLevels();
levels.AddLevels(1, 3);  // Recognize H1 through H3

نکات و بهترین شیوه‌ها

  • از PdfToHtmlConverter برای انتشار وب و PdfToMarkdownConverter برای جریان‌های کاری مستندسازی استفاده کنید.
  • تبدیل PDF/A ممکن است ویژگی‌هایی (JavaScript، رمزنگاری) که استاندارد را نقض می‌کنند حذف کند — از ConvertErrorAction.Delete یا ConvertErrorAction.None استفاده کنید.
  • برای اسناد بزرگ، برای مدیریت حافظه صفحه به صفحه تبدیل کنید.
  • HtmlSaveOptions تعیین می‌کند که آیا تصاویر به صورت درون‌خطی جاسازی شوند یا به عنوان فایل‌های خارجی ذخیره شوند.
  • خروجی SVG برای نمایش با وضوح بالا صفحات جداگانه ایده‌آل است.

مشکلات رایج

IssueCauseFix
خروجی HTML تصاویر را نشان نمی‌دهدتصاویر جاسازی نشده‌اند؛ مسیرهای خارجی نادرست هستندHtmlSaveOptions را برای تصاویر جاسازی‌شده پیکربندی کنید
تبدیل PDF/A حاشیه‌نویسی‌ها را حذف می‌کندحاشیه‌نویسی‌ها در پروفایل هدف PDF/A مجاز نیستنداز PDF/A-2 یا PDF/A-3 که حاشیه‌نویسی‌ها را اجازه می‌دهند استفاده کنید
استخراج متن قالب‌بندی را از دست می‌دهدخروجی متن ساده به‌صورت پیش‌فرض بدون قالب‌بندی استبه‌جای آن از تبدیل به HTML یا Markdown استفاده کنید

سوالات متداول

کدام پروفایل‌های PDF/A پشتیبانی می‌شوند؟

پروفایل‌های PDF/A-1A، PDF/A-1B، PDF/A-2A، PDF/A-2B، PDF/A-3A و PDF/A-3B از طریق مقادیر شمارشی PdfFormat پشتیبانی می‌شوند.

آیا می‌توانم یک صفحهٔ تک را به HTML تبدیل کنم؟

بله. از PdfToHtmlConverter.SavePageAsHtml استفاده کنید.

آیا تبدیل Markdown جداول را حفظ می‌کند؟

مبدل سعی می‌کند ساختارهای جدول را به‌صورت جداول Markdown رندر کند، اما طرح‌های پیچیده ممکن است به پردازش پس از تبدیل نیاز داشته باشند.


API خلاصه مرجع

Class / MethodDescription
PdfToHtmlConverterتبدیل PDF به HTML
PdfToHtmlConverter.SaveAsHtmlخروجی تمام سند به صورت HTML
PdfToMarkdownConverterتبدیل PDF به Markdown
PdfToSvgConverterتبدیل صفحات PDF به SVG
PdfToTextConverterاستخراج متن ساده از PDF
HtmlSaveOptionsگزینه‌های خروجی HTML (تصاویر، قلم‌ها، چیدمان)
HeadingLevelsپیکربندی سطوح سرعنوان شناسایی‌شده
PdfFormatConversionOptionsگزینه‌های اعتبارسنجی و تبدیل PDF/A

همچنین ببینید

 فارسی