PDFAnnotations
来源: 高亮格式: JSON

导出 PDF 高亮到 JSON

您高亮的原始数据。轻松构建您自己的应用程序、仪表板或 NLP 管道。

将您的 PDF 拖放到此处

几秒钟内安全地提取高亮和评论。

Example Output
preview.json
[
{
"content": "Data privacy regulations have evolved...",
"page": 12,
"author": "Reviewer A"
}
]

针对开发者和数据科学家

解析 PDF 对象众所周知地困难。我们抽象了 PDF 规范的复杂性,并为您提供干净、有效的 JSON

丰富的元数据提取

我们不仅仅给您文本。我们的 JSON 模式包含简单的复制粘贴无法获取的细节:

  • 几何形状: 每个高亮的精确 [x, y, w, h] 边界框坐标 (rect)。对于在 Web 应用程序中渲染叠加层很有用。
  • 颜色: 精确的 RGB 或 Hex 值,允许您以编程方式过滤笔记。
  • 顺序: 高亮按出现顺序排列,保留叙事流程。

使用此数据来馈送 自然语言处理 (NLP) 模型,构建自定义 PDF 阅读器,或使用 Python 或 Node.js 创建自动归档脚本。

需要更多格式?

我们支持 Notion、Obsidian、JSON、CSV 和文本导出。

查看所有工具

常见问题解答

你们提供坐标吗?

是的。我们包含每个标注的 `rect` 数组,非常适合映射回可视 PDF。

Schema 稳定吗?

是的。我们使用文档中可查阅的严格类型化 Schema。

我可以在 Python 中使用它吗?

当然。它是标准 JSON。使用 `json.load()` 加载它并立即使用 pandas 开始分析。