古籍PDF文件识别

将PDF文件拖到此处或

文本排版方向

识别版本选择

版面识别设置

是否自动插入空格

横排句子文字排序方向

竖排句子文字排序方向

TXT是否分页

页内文本是否合并

识别结果转简体

下载识别结果

任务ID：{{pdf_rec_task.task_id}}

任务：{{pdf_rec_task.title}}

页数：{{ pdf_rec_task.pages }}

识别状态：{{pdf_rec_task.is_finish}}

识别进度：{{pdf_rec_task.speed}} / {{pdf_rec_task.pages}}

上传时间：{{pdf_rec_task.created_on}}

结束时间：{{pdf_rec_task.finished_on}}

古籍数字化·PDF文件识别

上传PDF文件进行识别，完成后下载结果文件

使用说明

1、本站仅在识别过程中保存用户上传的文件，识别完成后两小时删除源文件和识别结果，不会存储和使用用户上传的文件，请及时下载识别后的结果文件；

2、本功能支持单个PDF的识别处理，其它文件格式暂不支持；

3、数字化识别机制采用即时处理机制，若文件较大，则识别耗时较长，本页面将不断更新状态直到识别完成；

4、识别过程中可不用停留在本页面，预估识别完成后返回本页面下载识别结果文件；

5、识别结果包含：汇总文档（Word文档）、TXT文本、JSON（含坐标信息）、图像文件共四个类型的文件，平均处理时间为1张/秒；

6、当前PDF文件页数限制为1000页，如需识别更大的文件，建议对文件切割后进行识别；

7、每位用户每日可免费识别2000页，注册多账号同时识别视为攻击行为，将进行封禁处理，不另行通知。

8、不合法律法规的文件禁止上传；

9、机器识别结果不具有权威性，仅可做参考使用；

10、查看在线文档《使用文档》

设置项解释

文本排版方向：图像中文字的排列方向，分为横向和竖向，可选自动识别将自动判断或者指定横竖排模式；

识别版本选择：识别算法的不同版本，不同版本识别结果会有差异；

版面识别设置：(V2版本)版面识别，可选是否排除：页眉/页脚/侧边标题/侧边页码/版心等类型的识别；

是否自动插入空格：(V2版本)按照句内文字的间距控制是否插入空格；

横排句子文字排序方向：(V2版本)指定横排句子内文字的排序顺序，默认为从左到右；

竖排句子文字排序方向：(V2版本)指定竖排句子内文字的排序顺序，默认为从上到下；

图像尺寸调整：过大的图像占用资源较多且对于识别结果差异不大，建议图像尺寸在1000-2000，可以根据不同的图像自主进行调整，为 0 时不调整图像尺寸；

TXT是否分页：导出的TXT文件按照PDF中每一页一个TXT文件，不分页则将TXT文件合并为一个TXT文件；

识别结果转简体：将识别结果转为简体文字；

页内文本是否合并：将一页内的文本行合并为一个文本段；

是否接收邮件通知：可选在识别完成后通过邮件进行提醒。

古籍图像识别

将图像文件拖到此处或

文本排版方向

识别版本选择

版面识别设置

是否自动插入空格

横排句子文字排序方向

竖排句子文字排序方向

识别模式选择

古籍数字化·古籍OCR-古籍图像文字识别

智能古籍OCR，所见即所得！

使用说明

1、本站仅在识别过程中使用上传的图像文件，识别完成后立即删除，不会存储和使用您上传的文件，请及时保存识别后的结果；

2、本功能支持单个图像文件的识别处理，其它文件格式暂不支持；

3、图像识别完成后结果将写入到右侧文本输入框中，您可以在此编辑修改；

4、不合法律法规的文件禁止上传；

5、机器识别结果不具有权威性，仅可做参考使用；

6、查看在线文档《使用文档》

设置项解释

文本排版方向：图像中文字的排列方向，分为横向和竖向，可选自动识别将自动判断或者指定横竖排模式；

识别版本选择：识别算法的不同版本，不同版本识别结果会有差异；

识别模式选择：可以指定用行检测识别模式或字符检测识别模式，字符模式下文本的顺序可能会有错误的情况；

图像尺寸调整：过大的图像占用带宽较多且对于识别结果差异不大，建议图像尺寸在1000-2000，可以根据不同的图像自主进行调整，为 0 时不调整图像尺寸；

识别结果

多图像文件识别

将多个图像文件拖到此处或

文本排版方向

识别版本选择

版面识别设置

是否自动插入空格

横排句子文字排序方向

竖排句子文字排序方向

TXT是否分页

页内文本是否合并

识别结果转简体

下载识别结果

任务ID：{{pdf_rec_task.task_id}}

任务：{{pdf_rec_task.title}}

页数：{{ pdf_rec_task.pages }}

识别状态：{{pdf_rec_task.is_finish}}

识别进度：{{pdf_rec_task.speed}} / {{pdf_rec_task.pages}}

上传时间：{{pdf_rec_task.created_on}}

结束时间：{{pdf_rec_task.finished_on}}

古籍数字化·多图像文件识别

上传图像文件批量进行识别，完成后下载结果文件

使用说明

2、本功能支持多个图像文件的识别处理，其它文件格式暂不支持；

3、数字化识别机制采用即时处理机制，若文件数量较多，则识别耗时较长，本页面将不断更新状态直到识别完成；

4、识别过程中可不用停留在本页面，预估识别完成后返回本页面下载识别结果文件；

5、识别结果包含：汇总文档（Word文档）、TXT文本、JSON（含坐标信息）、图像文件共四个类型的文件，平均处理时间为1张/秒；

6、当前图像文件数量限制为1000页，如需识别更多的文件，建议分批次进行识别；

7、每位用户每日可免费识别2000页，注册多账号同时识别视为不友好行为，将进行封禁处理，不另行通知。

8、不合法律法规的文件禁止上传；

9、机器识别结果不具有权威性，仅可做参考使用；

10、查看在线文档《使用文档》

设置项解释

文本排版方向：图像中文字的排列方向，分为横向和竖向，可选自动识别将自动判断或者指定横竖排模式；

识别版本选择：识别算法的不同版本，不同版本识别结果会有差异；

识别结果转简体：将识别结果转为简体文字；

页内文本是否合并：将一页内的文本行合并为一个文本段；

是否接收邮件通知：可选在识别完成后通过邮件进行提醒。

我的API

编号	Token	备注	状态	统计	操作
{{index}}	{{item.token}}		{{item.status}}	{{item.used_count}}/{{item.total_count}}

API记录

编号	操作	Token	备注	状态	统计	申请时间	通过时间
{{index}}	{{item.operate}}	{{item.token}}	{{item.apply_content}}	{{item.status}}	{{item.used_count}}/{{item.total_count}}	{{item.created_on}}	{{item.active_date}}

古籍数字化·古籍OCR API接口

使用说明

1、本功能是看典古籍古籍文字识别OCR系统的开放式API，依托云计算能够快速高效地完成古籍文字识别工作；

2、API接口接入方式简单便捷，可以快速上手并集成 OCR API 接口到其它应用程序或系统中；

3、接口开放程度更高，兼容大部分图像文件格式，通过请求参数控制响应内容；

4、识别处理速度快，平均识别速度在一秒以内；

5、API接口为实时识别模式，随调随用，快速方便；

6、搭配看典古籍OCR桌面软件和易校古籍软件，简单高效地完成古籍数字化录入工作；

7、申请提交后等待通过即可，无需多次提交，人工非实时处理，尽量在两小时内处理；

8、机器识别结果不具有权威性，仅可做参考使用；

9、平台免费额度有限，短期内大量申请将不会通过（七日内万次以上），请联系我们开通付费使用；

10、API调用文档《API接口使用文档》

11、如果我们的项目对您有帮助，希望您也能帮助我们

名词解释

新增Token：新增API Token身份标识，每个Token为独立的，额度不共享；

Token：用户身份标识符，API接口为免登录的，需要通过Token进行标记，提高账户安全性；

状态：标明Token是否可用，分为：可用（审核通过）/不可用（待审核、审核不通过）；

统计：已使用次数和总次数，表示API Token的额度使用情况；

续加额度：可以给指定Token增加可用额度，更加方便实用；

输入待转换的文字

转换结果

其它设置

古籍数字化·PDF文件识别

古籍数字化·古籍OCR-古籍图像文字识别

其它设置

古籍数字化·多图像文件识别

古籍数字化·古籍OCR API接口