변환 및 최적화

변환 및 최적화

변환 및 최적화

Aspose.PDF FOSS for .NET은 PDF를 HTML, Markdown, SVG 및 일반 텍스트로 변환하는 컨버터를 제공합니다. 최적화 서브시스템은 파일 크기를 줄이고 PdfFormatConversionOptions을 통해 PDF/A 준수를 보장합니다.


PDF를 HTML로

PdfToHtmlConverter PDF 페이지를 HTML 문서로 내보냅니다.

var converter = new PdfToHtmlConverter();
converter.SaveAsHtml("input.pdf", "output.html");

// Or save each page separately
converter.SaveAllPagesAsHtml("input.pdf", "output_dir");

HtmlSaveOptions은 이미지 처리, 글꼴 포함 및 레이아웃 전략에 대한 제어를 제공합니다.


PDF를 Markdown으로

PdfToMarkdownConverter PDF 콘텐츠를 Markdown 텍스트로 내보냅니다.

var converter = new PdfToMarkdownConverter("input.pdf");
converter.SaveAsMarkdown("output.md");

// Single page
converter.SavePageAsMarkdown(1, "page1.md");

PDF를 SVG로

PdfToSvgConverter 각 페이지를 스케일러블 벡터 그래픽으로 렌더링합니다.

var converter = new PdfToSvgConverter();
converter.SaveAllPagesAsSvg("input.pdf", "output_dir");

PDF를 텍스트로

PdfToTextConverter PDF 페이지에서 일반 텍스트를 추출합니다.

var converter = new PdfToTextConverter();
converter.SaveAsText("input.pdf", "output.txt");

PDF/A 준수

PdfFormatConversionOptions는 문서를 PDF/A 표준에 맞게 검증하고 변환합니다.

using var doc = Document.Open(pdfBytes);

var options = new PdfFormatConversionOptions(
    "log.xml",
    PdfFormat.PDF_A_1B,
    ConvertErrorAction.Delete);

doc.Convert(options);
doc.Save("pdfa.pdf");

제목 수준 제어

HeadingLevels는 HTML 또는 Markdown 변환 중에
인식되는 제목 수준을 구성합니다.

var levels = new HeadingLevels();
levels.AddLevels(1, 3);  // Recognize H1 through H3

팁 및 모범 사례

  • 웹 게시에는 PdfToHtmlConverter를 사용하고 문서 작업 흐름에는 PdfToMarkdownConverter를 사용합니다.
  • PDF/A 변환은 표준을 위반하는 기능(JavaScript, 암호화)을 제거할 수 있으므로 ConvertErrorAction.Delete 또는 ConvertErrorAction.None을 사용하십시오.
  • 큰 문서의 경우 메모리 관리를 위해 페이지별로 변환합니다.
  • HtmlSaveOptions은 이미지가 인라인으로 삽입될지 외부 파일로 저장될지를 제어합니다.
  • SVG 출력은 개별 페이지를 고해상도로 표시하는 데 이상적입니다.

일반적인 문제

문제원인해결책
HTML 출력에 이미지가 누락됨이미지가 삽입되지 않음; 외부 경로가 올바르지 않음HtmlSaveOptions을 구성하여 이미지를 삽입하도록 설정
PDF/A 변환 시 주석이 제거됨대상 PDF/A 프로파일에서 주석이 허용되지 않음주석을 허용하는 PDF/A-2 또는 PDF/A-3 사용
텍스트 추출 시 서식이 손실됨플레인 텍스트 출력은 설계상 서식이 없음대신 HTML 또는 Markdown 변환 사용

자주 묻는 질문

지원되는 PDF/A 프로필은 무엇입니까?

PDF/A-1A, PDF/A-1B, PDF/A-2A, PDF/A-2B, PDF/A-3A 및 PDF/A-3B 프로파일은 PdfFormat 열거값을 통해 지원됩니다.

단일 페이지를 HTML로 변환할 수 있나요?

예. PdfToHtmlConverter.SavePageAsHtml을 사용하십시오.

Markdown 변환이 표를 보존합니까?

컨버터는 테이블 구조를 Markdown 테이블로 렌더링하려고 시도하지만, 복잡한 레이아웃은 후처리가 필요할 수 있습니다.


API 레퍼런스 요약

Class / MethodDescription
PdfToHtmlConverterPDF를 HTML로 변환
PdfToHtmlConverter.SaveAsHtml전체 문서를 HTML로 내보내기
PdfToMarkdownConverterPDF를 Markdown으로 변환
PdfToSvgConverterPDF 페이지를 SVG로 변환
PdfToTextConverterPDF에서 일반 텍스트 추출
HtmlSaveOptionsHTML 내보내기 옵션(이미지, 글꼴, 레이아웃)
HeadingLevels인식되는 제목 수준 구성
PdfFormatConversionOptionsPDF/A 검증 및 변환 옵션

또 보기

 한국어