변환 및 최적화
변환 및 최적화
Aspose.PDF FOSS for .NET은 PDF를 HTML,
Markdown, SVG 및 일반 텍스트로 변환하는 컨버터를 제공합니다. 최적화 서브시스템은 파일 크기를 줄이고
PdfFormatConversionOptions을 통해 PDF/A 준수를 보장합니다.
PDF를 HTML로
PdfToHtmlConverter PDF 페이지를 HTML 문서로 내보냅니다.
var converter = new PdfToHtmlConverter();
converter.SaveAsHtml("input.pdf", "output.html");
// Or save each page separately
converter.SaveAllPagesAsHtml("input.pdf", "output_dir");HtmlSaveOptions은 이미지 처리, 글꼴 포함 및 레이아웃 전략에 대한 제어를 제공합니다.
PDF를 Markdown으로
PdfToMarkdownConverter PDF 콘텐츠를 Markdown 텍스트로 내보냅니다.
var converter = new PdfToMarkdownConverter("input.pdf");
converter.SaveAsMarkdown("output.md");
// Single page
converter.SavePageAsMarkdown(1, "page1.md");PDF를 SVG로
PdfToSvgConverter 각 페이지를 스케일러블 벡터 그래픽으로 렌더링합니다.
var converter = new PdfToSvgConverter();
converter.SaveAllPagesAsSvg("input.pdf", "output_dir");PDF를 텍스트로
PdfToTextConverter PDF 페이지에서 일반 텍스트를 추출합니다.
var converter = new PdfToTextConverter();
converter.SaveAsText("input.pdf", "output.txt");PDF/A 준수
PdfFormatConversionOptions는 문서를 PDF/A 표준에 맞게 검증하고 변환합니다.
using var doc = Document.Open(pdfBytes);
var options = new PdfFormatConversionOptions(
"log.xml",
PdfFormat.PDF_A_1B,
ConvertErrorAction.Delete);
doc.Convert(options);
doc.Save("pdfa.pdf");제목 수준 제어
HeadingLevels는 HTML 또는 Markdown 변환 중에
인식되는 제목 수준을 구성합니다.
var levels = new HeadingLevels();
levels.AddLevels(1, 3); // Recognize H1 through H3팁 및 모범 사례
- 웹 게시에는
PdfToHtmlConverter를 사용하고 문서 작업 흐름에는PdfToMarkdownConverter를 사용합니다. - PDF/A 변환은 표준을 위반하는 기능(JavaScript, 암호화)을 제거할 수 있으므로
ConvertErrorAction.Delete또는ConvertErrorAction.None을 사용하십시오. - 큰 문서의 경우 메모리 관리를 위해 페이지별로 변환합니다.
HtmlSaveOptions은 이미지가 인라인으로 삽입될지 외부 파일로 저장될지를 제어합니다.- SVG 출력은 개별 페이지를 고해상도로 표시하는 데 이상적입니다.
일반적인 문제
| 문제 | 원인 | 해결책 |
|---|---|---|
| HTML 출력에 이미지가 누락됨 | 이미지가 삽입되지 않음; 외부 경로가 올바르지 않음 | HtmlSaveOptions을 구성하여 이미지를 삽입하도록 설정 |
| PDF/A 변환 시 주석이 제거됨 | 대상 PDF/A 프로파일에서 주석이 허용되지 않음 | 주석을 허용하는 PDF/A-2 또는 PDF/A-3 사용 |
| 텍스트 추출 시 서식이 손실됨 | 플레인 텍스트 출력은 설계상 서식이 없음 | 대신 HTML 또는 Markdown 변환 사용 |
자주 묻는 질문
지원되는 PDF/A 프로필은 무엇입니까?
PDF/A-1A, PDF/A-1B, PDF/A-2A, PDF/A-2B, PDF/A-3A 및 PDF/A-3B 프로파일은 PdfFormat 열거값을 통해 지원됩니다.
단일 페이지를 HTML로 변환할 수 있나요?
예. PdfToHtmlConverter.SavePageAsHtml을 사용하십시오.
Markdown 변환이 표를 보존합니까?
컨버터는 테이블 구조를 Markdown 테이블로 렌더링하려고 시도하지만, 복잡한 레이아웃은 후처리가 필요할 수 있습니다.
API 레퍼런스 요약
| Class / Method | Description |
|---|---|
PdfToHtmlConverter | PDF를 HTML로 변환 |
PdfToHtmlConverter.SaveAsHtml | 전체 문서를 HTML로 내보내기 |
PdfToMarkdownConverter | PDF를 Markdown으로 변환 |
PdfToSvgConverter | PDF 페이지를 SVG로 변환 |
PdfToTextConverter | PDF에서 일반 텍스트 추출 |
HtmlSaveOptions | HTML 내보내기 옵션(이미지, 글꼴, 레이아웃) |
HeadingLevels | 인식되는 제목 수준 구성 |
PdfFormatConversionOptions | PDF/A 검증 및 변환 옵션 |