PDFAnnotations
ソース: ハイライトフォーマット: JSON

PDFハイライトをJSONにエクスポート

ハイライトの生データ。独自のアプリ、ダッシュボード、NLPパイプラインを簡単に構築できます。

ここにPDFをドロップ

数秒で安全にハイライトとコメントを抽出します。

Example Output
preview.json
[
{
"content": "Data privacy regulations have evolved...",
"page": 12,
"author": "Reviewer A"
}
]

開発者とデータサイエンティスト向け

PDFオブジェクトの解析は非常に困難なことで知られています。私たちはPDF仕様の複雑さを抽象化し、クリーンで有効な JSON を提供します。

リッチなメタデータ抽出

単にテキストを提供するだけではありません。当社のJSONスキーマには、単純なコピペでは取得不可能な詳細が含まれています:

  • 幾何学的情報: すべてのハイライトの正確な [x, y, w, h] バウンディングボックス座標(rect)。Webアプリでオーバーレイを表示するのに役立ちます。
  • 色: 正確なRGBまたはHex値。これにより、プログラムでノートをフィルタリングできます。
  • 順序: ハイライトは出現順に並べられ、物語の流れを保持します。

このデータを使用して、自然言語処理 (NLP) モデルへの入力、カスタムPDFビューアの構築、またはPythonやNode.jsでの自動アーカイブスクリプトの作成を行ってください。

他のフォーマットが必要ですか?

Notion、Obsidian、JSON、CSV、テキスト形式へのエクスポートに対応しています。

すべてのツールを見る

よくある質問

座標は提供されますか?

はい。すべての注釈に `rect` 配列を含んでおり、視覚的なPDFへのマッピングに最適です。

スキーマは安定していますか?

はい。ドキュメントに記載されている厳密に型付けされたスキーマを使用しています。

Pythonで使用できますか?

もちろんです。標準的なJSONです。`json.load()` で読み込み、pandasですぐに分析を開始できます。