Penukaran dan Pengoptimuman
Penukaran dan Pengoptimuman
Aspose.PDF FOSS untuk .NET menyediakan penukar untuk menukar PDF kepada HTML,
Markdown, SVG, dan teks biasa. subsystem pengoptimuman mengurangkan saiz fail
dan memastikan pematuhan PDF/A melalui PdfFormatConversionOptions.
PDF ke HTML
PdfToHtmlConverter mengeksport halaman PDF sebagai dokumen HTML.
var converter = new PdfToHtmlConverter();
converter.SaveAsHtml("input.pdf", "output.html");
// Or save each page separately
converter.SaveAllPagesAsHtml("input.pdf", "output_dir");HtmlSaveOptions menyediakan kawalan ke atas pengendalian imej, penyematan fon, dan strategi susun atur.
PDF kepada Markdown
PdfToMarkdownConverter mengeksport kandungan PDF sebagai teks Markdown.
var converter = new PdfToMarkdownConverter("input.pdf");
converter.SaveAsMarkdown("output.md");
// Single page
converter.SavePageAsMarkdown(1, "page1.md");PDF ke SVG
PdfToSvgConverter memaparkan setiap halaman sebagai grafik vektor berskala.
var converter = new PdfToSvgConverter();
converter.SaveAllPagesAsSvg("input.pdf", "output_dir");PDF kepada teks
PdfToTextConverter mengekstrak teks biasa dari halaman PDF.
var converter = new PdfToTextConverter();
converter.SaveAsText("input.pdf", "output.txt");Pematuhan PDF/A
PdfFormatConversionOptions mengesahkan dan menukar dokumen kepada piawaian PDF/A.
using var doc = Document.Open(pdfBytes);
var options = new PdfFormatConversionOptions(
"log.xml",
PdfFormat.PDF_A_1B,
ConvertErrorAction.Delete);
doc.Convert(options);
doc.Save("pdfa.pdf");Kawalan tahap tajuk
HeadingLevels mengkonfigurasi tahap tajuk mana yang dikenali semasa penukaran HTML atau Markdown.
var levels = new HeadingLevels();
levels.AddLevels(1, 3); // Recognize H1 through H3Petua dan Amalan Terbaik
- Gunakan
PdfToHtmlConverteruntuk penerbitan web danPdfToMarkdownConverteruntuk aliran kerja dokumentasi. - Penukaran PDF/A mungkin mengeluarkan ciri (JavaScript, penyulitan) yang melanggar piawaian — gunakan
ConvertErrorAction.DeleteatauConvertErrorAction.None. - Untuk dokumen besar, tukar halaman demi halaman untuk mengurus memori.
HtmlSaveOptionsmengawal sama ada imej disematkan secara dalam baris atau disimpan sebagai fail luaran.- Output SVG adalah ideal untuk paparan resolusi tinggi halaman individu.
Isu Umum
| Issue | Cause | Fix |
|---|---|---|
| Output HTML tiada gambar | Imej tidak disematkan; laluan luaran tidak betul | Konfigurasikan HtmlSaveOptions untuk imej yang disematkan |
| Penukaran PDF/A menghapus anotasi | Anotasi tidak dibenarkan dalam profil PDF/A sasaran | Gunakan PDF/A-2 atau PDF/A-3 yang membenarkan anotasi |
| Pengekstrakan teks kehilangan pemformatan | Output teks biasa tidak mempunyai pemformatan secara reka bentuk | Gunakan penukaran HTML atau Markdown sebagai gantinya |
Soalan Lazim
Profil PDF/A mana yang disokong?
Profil PDF/A-1A, PDF/A-1B, PDF/A-2A, PDF/A-2B, PDF/A-3A, dan PDF/A-3B disokong melalui nilai enumerasi PdfFormat.
Bolehkah saya menukar satu halaman ke HTML?
Ya. Use PdfToHtmlConverter.SavePageAsHtml.
Adakah penukaran Markdown mengekalkan jadual?
Penukar cuba memaparkan struktur jadual sebagai jadual Markdown, tetapi susun atur yang kompleks mungkin memerlukan pemprosesan lanjutan.
Ringkasan Rujukan API
| Class / Method | Description |
|---|---|
PdfToHtmlConverter | Tukar PDF ke HTML |
PdfToHtmlConverter.SaveAsHtml | Eksport seluruh dokumen sebagai HTML |
PdfToMarkdownConverter | Tukar PDF ke Markdown |
PdfToSvgConverter | Tukar halaman PDF ke SVG |
PdfToTextConverter | Ekstrak teks biasa dari PDF |
HtmlSaveOptions | Pilihan untuk eksport HTML (imej, fon, susun atur) |
HeadingLevels | Konfigurasikan tahap tajuk yang dikenali |
PdfFormatConversionOptions | Pilihan pengesahan dan penukaran PDF/A |