개발자 및 데이터 과학자용
PDF 객체 파싱은 어렵기로 악명 높습니다. 저희는 PDF 사양의 복잡성을 추상화하여 깔끔하고 유효한 JSON을 제공합니다.
풍부한 메타데이터 추출
단순히 텍스트만 제공하는 것이 아닙니다. 저희 JSON 스키마에는 단순 복사 붙여넣기로는 얻을 수 없는 세부 정보가 포함되어 있습니다:
- 기하학: 각 하이라이트에 대한 정확한
[x, y, w, h]바운딩 박스 좌표(rect). 웹 앱에서 오버레이를 렌더링하는 데 유용합니다. - 색상: 정확한 RGB 또는 Hex 값으로 노트를 프로그래밍 방식으로 필터링할 수 있습니다.
- 순서: 하이라이트는 출현 순서대로 정렬되어 내러티브 흐름을 보존합니다.
이 데이터를 사용하여 자연어 처리(NLP) 모델을 학습시키거나, 맞춤형 PDF 뷰어를 구축하거나, Python 또는 Node.js로 자동 아카이빙 스크립트를 작성하세요.