To Markdown To Obsidian To Notion To Excel / CSV To JSON To Plain Text

よくある質問

ソース: ハイライトフォーマット: JSON

PDFハイライトをJSONにエクスポート

ハイライトの生データ。独自のアプリ、ダッシュボード、NLPパイプラインを簡単に構築できます。

ここにPDFをドロップ

数秒で安全にハイライトとコメントを抽出します。

Example Output

preview.json

[

{

"content": "Data privacy regulations have evolved...",
"page": 12,
"author": "Reviewer A"

}

]

開発者とデータサイエンティスト向け

PDFオブジェクトの解析は非常に困難なことで知られています。私たちはPDF仕様の複雑さを抽象化し、クリーンで有効な JSON を提供します。

リッチなメタデータ抽出

単にテキストを提供するだけではありません。当社のJSONスキーマには、単純なコピペでは取得不可能な詳細が含まれています：

幾何学的情報： すべてのハイライトの正確な [x, y, w, h] バウンディングボックス座標（rect）。Webアプリでオーバーレイを表示するのに役立ちます。
色：正確なRGBまたはHex値。これにより、プログラムでノートをフィルタリングできます。
順序： ハイライトは出現順に並べられ、物語の流れを保持します。

このデータを使用して、自然言語処理 (NLP) モデルへの入力、カスタムPDFビューアの構築、またはPythonやNode.jsでの自動アーカイブスクリプトの作成を行ってください。

関連ツール

他のフォーマットが必要ですか？

Notion、Obsidian、JSON、CSV、テキスト形式へのエクスポートに対応しています。

すべてのツールを見る

よくある質問

座標は提供されますか？

はい。すべての注釈に `rect` 配列を含んでおり、視覚的なPDFへのマッピングに最適です。

スキーマは安定していますか？

はい。ドキュメントに記載されている厳密に型付けされたスキーマを使用しています。

Pythonで使用できますか？

もちろんです。標準的なJSONです。`json.load()` で読み込み、pandasですぐに分析を開始できます。