PDFAnnotations
소스: 하이라이트형식: JSON

PDF 하이라이트를 JSON으로 내보내기

하이라이트의 원본 데이터입니다. 나만의 앱, 대시보드 또는 NLP 파이프라인을 쉽게 구축하세요.

여기에 PDF 놓기

몇 초 만에 하이라이트와 코멘트를 안전하게 추출하세요.

Example Output
preview.json
[
{
"content": "Data privacy regulations have evolved...",
"page": 12,
"author": "Reviewer A"
}
]

개발자 및 데이터 과학자용

PDF 객체 파싱은 어렵기로 악명 높습니다. 저희는 PDF 사양의 복잡성을 추상화하여 깔끔하고 유효한 JSON을 제공합니다.

풍부한 메타데이터 추출

단순히 텍스트만 제공하는 것이 아닙니다. 저희 JSON 스키마에는 단순 복사 붙여넣기로는 얻을 수 없는 세부 정보가 포함되어 있습니다:

  • 기하학: 각 하이라이트에 대한 정확한 [x, y, w, h] 바운딩 박스 좌표(rect). 웹 앱에서 오버레이를 렌더링하는 데 유용합니다.
  • 색상: 정확한 RGB 또는 Hex 값으로 노트를 프로그래밍 방식으로 필터링할 수 있습니다.
  • 순서: 하이라이트는 출현 순서대로 정렬되어 내러티브 흐름을 보존합니다.

이 데이터를 사용하여 자연어 처리(NLP) 모델을 학습시키거나, 맞춤형 PDF 뷰어를 구축하거나, Python 또는 Node.js로 자동 아카이빙 스크립트를 작성하세요.

더 많은 형식이 필요하신가요?

Notion, Obsidian, JSON, CSV 및 텍스트 내보내기를 지원합니다.

모든 도구 보기

자주 묻는 질문

좌표를 제공하나요?

네. 모든 주석에 대해 `rect` 배열을 포함하며, 시각적 PDF에 다시 매핑하는 데 이상적입니다.

스키마는 안정적인가요?

네. 문서에 있는 엄격하게 유형화된 스키마를 사용합니다.

Python에서 사용할 수 있나요?

물론입니다. 표준 JSON입니다. `json.load()`로 로드하고 pandas로 즉시 분석을 시작하세요.