開発者とデータサイエンティスト向け
PDFオブジェクトの解析は非常に困難なことで知られています。私たちはPDF仕様の複雑さを抽象化し、クリーンで有効な JSON を提供します。
リッチなメタデータ抽出
単にテキストを提供するだけではありません。当社のJSONスキーマには、単純なコピペでは取得不可能な詳細が含まれています:
- 幾何学的情報: すべてのハイライトの正確な
[x, y, w, h]バウンディングボックス座標(rect)。Webアプリでオーバーレイを表示するのに役立ちます。 - 色: 正確なRGBまたはHex値。これにより、プログラムでノートをフィルタリングできます。
- 順序: ハイライトは出現順に並べられ、物語の流れを保持します。
このデータを使用して、自然言語処理 (NLP) モデルへの入力、カスタムPDFビューアの構築、またはPythonやNode.jsでの自動アーカイブスクリプトの作成を行ってください。