完整数据图景
这是深度挖掘。虽然其他格式简化了内容,但 JSON 揭示了一切。
高级数据结构
我们公开底层的 PDF 标注模型:
- 子类型: 区分
Highlight(高亮)、Underline(下划线)、StrikeOut(删除线)、Text(便利贴)和FreeText(自由文本)。 - 关系: 查看链接简单文本回复与其父便利贴的
inReplyTo字段。 - 状态: 跟踪审阅状态(例如,“已接受”、“已拒绝”),如果 PDF 软件保存了它们。
这是构建分析文档情感的 机器学习 模型或企业自定义归档系统的原材料。