针对开发者和数据科学家
解析 PDF 对象众所周知地困难。我们抽象了 PDF 规范的复杂性,并为您提供干净、有效的 JSON。
丰富的元数据提取
我们不仅仅给您文本。我们的 JSON 模式包含简单的复制粘贴无法获取的细节:
- 几何形状: 每个高亮的精确
[x, y, w, h]边界框坐标 (rect)。对于在 Web 应用程序中渲染叠加层很有用。 - 颜色: 精确的 RGB 或 Hex 值,允许您以编程方式过滤笔记。
- 顺序: 高亮按出现顺序排列,保留叙事流程。
使用此数据来馈送 自然语言处理 (NLP) 模型,构建自定义 PDF 阅读器,或使用 Python 或 Node.js 创建自动归档脚本。