PDF 하이라이트를 JSON으로 | 개발자 API 및 스키마

개발자 및 데이터 과학자용

PDF 객체 파싱은 어렵기로 악명 높습니다. 저희는 PDF 사양의 복잡성을 추상화하여 깔끔하고 유효한 JSON을 제공합니다.

단순히 텍스트만 제공하는 것이 아닙니다. 저희 JSON 스키마에는 단순 복사 붙여넣기로는 얻을 수 없는 세부 정보가 포함되어 있습니다:

기하학: 각 하이라이트에 대한 정확한 [x, y, w, h] 바운딩 박스 좌표(rect). 웹 앱에서 오버레이를 렌더링하는 데 유용합니다.
색상: 정확한 RGB 또는 Hex 값으로 노트를 프로그래밍 방식으로 필터링할 수 있습니다.
순서: 하이라이트는 출현 순서대로 정렬되어 내러티브 흐름을 보존합니다.

이 데이터를 사용하여 자연어 처리(NLP) 모델을 학습시키거나, 맞춤형 PDF 뷰어를 구축하거나, Python 또는 Node.js로 자동 아카이빙 스크립트를 작성하세요.

Frequently Asked Questions

네. 모든 주석에 대해 `rect` 배열을 포함하며, 시각적 PDF에 다시 매핑하는 데 이상적입니다.

네. 문서에 있는 엄격하게 유형화된 스키마를 사용합니다.

물론입니다. 표준 JSON입니다. `json.load()`로 로드하고 pandas로 즉시 분석을 시작하세요.