古籍PDF文件识别

Captcha Image

下载识别结果

任务ID:{{pdf_rec_task.task_id}}

任务:{{pdf_rec_task.title}}

页数:{{ pdf_rec_task.pages }}

识别状态:{{pdf_rec_task.is_finish}}

识别进度:{{pdf_rec_task.speed}} / {{pdf_rec_task.pages}}

上传时间:{{pdf_rec_task.created_on}}

结束时间:{{pdf_rec_task.finished_on}}

古籍数字化·PDF文件识别

上传PDF文件进行识别,完成后下载结果文件


使用说明

1、本站仅在识别过程中保存用户上传的文件,识别完成后两小时删除源文件和识别结果,不会存储和使用用户上传的文件,请及时下载识别后的结果文件;

2、本功能支持单个PDF的识别处理,其它文件格式暂不支持;

3、数字化识别机制采用即时处理机制,若文件较大,则识别耗时较长,本页面将不断更新状态直到识别完成;

4、识别过程中可不用停留在本页面,预估识别完成后返回本页面下载识别结果文件;

5、识别结果包含:汇总文档(Word文档)、TXT文本、JSON(含坐标信息)、图像文件共四个类型的文件,平均处理时间为1张/秒;

6、当前PDF文件页数限制为1000页,如需识别更大的文件,建议对文件切割后进行识别;

7、每个用户每日可免费识别2000页,注册多账号同时识别视为攻击行为,将进行封禁处理,不另行通知。

8、不合法律法规的文件禁止上传;

9、机器识别结果不具有权威性,仅可做参考使用;

10、查看在线文档《使用文档》

设置项解释

文本排版方向:图像中文字的排列方向,分为横向和竖向,可选自动识别将自动判断或者指定横竖排模式;

识别版本选择:识别算法的不同版本,不同版本识别结果会有差异;

图像尺寸调整:过大的图像占用资源较多且对于识别结果差异不大,建议图像尺寸在1000-2000,可以根据不同的图像自主进行调整,为 0 时不调整图像尺寸;

TXT是否分页:导出的TXT文件按照PDF中每一页一个TXT文件,不分页则将TXT文件合并为一个TXT文件;

识别结果转简体:将识别结果转为简体文字;

页内文本是否合并:将一页内的文本行合并为一个文本段;

是否接收邮件通知:可选在识别完成后通过邮件进行提醒。

古籍图像识别

古籍数字化·图像文件识别

智能古籍OCR,所见即所得!


使用说明

1、本站仅在识别过程中使用上传的图像文件,识别完成后立即删除,不会存储和使用您上传的文件,请及时保存识别后的结果;

2、本功能支持单个图像文件的识别处理,其它文件格式暂不支持;

3、图像识别完成后结果将写入到右侧文本输入框中,您可以在此编辑修改;

4、不合法律法规的文件禁止上传;

5、机器识别结果不具有权威性,仅可做参考使用;

6、查看在线文档《使用文档》

设置项解释

文本排版方向:图像中文字的排列方向,分为横向和竖向,可选自动识别将自动判断或者指定横竖排模式;

识别版本选择:识别算法的不同版本,不同版本识别结果会有差异;

识别模式选择:可以指定用行检测识别模式或字符检测识别模式,字符模式下文本的顺序可能会有错误的情况;

图像尺寸调整:过大的图像占用带宽较多且对于识别结果差异不大,建议图像尺寸在1000-2000,可以根据不同的图像自主进行调整,为 0 时不调整图像尺寸;

图像

多图像文件识别

Captcha Image

下载识别结果

任务ID:{{pdf_rec_task.task_id}}

任务:{{pdf_rec_task.title}}

页数:{{ pdf_rec_task.pages }}

识别状态:{{pdf_rec_task.is_finish}}

识别进度:{{pdf_rec_task.speed}} / {{pdf_rec_task.pages}}

上传时间:{{pdf_rec_task.created_on}}

结束时间:{{pdf_rec_task.finished_on}}

古籍数字化·多图像文件识别

上传图像文件批量进行识别,完成后下载结果文件


使用说明

1、本站仅在识别过程中保存用户上传的文件,识别完成后两小时删除源文件和识别结果,不会存储和使用用户上传的文件,请及时下载识别后的结果文件;

2、本功能支持多个图像文件的识别处理,其它文件格式暂不支持;

3、数字化识别机制采用即时处理机制,若文件数量较多,则识别耗时较长,本页面将不断更新状态直到识别完成;

4、识别过程中可不用停留在本页面,预估识别完成后返回本页面下载识别结果文件;

5、识别结果包含:汇总文档(Word文档)、TXT文本、JSON(含坐标信息)、图像文件共四个类型的文件,平均处理时间为1张/秒;

6、当前图像文件数量限制为1000页,如需识别更多的文件,建议分批次进行识别;

7、每个用户每日可免费识别2000页,注册多账号同时识别视为不友好行为,将进行封禁处理,不另行通知。

8、不合法律法规的文件禁止上传;

9、机器识别结果不具有权威性,仅可做参考使用;

10、查看在线文档《使用文档》

设置项解释

文本排版方向:图像中文字的排列方向,分为横向和竖向,可选自动识别将自动判断或者指定横竖排模式;

识别版本选择:识别算法的不同版本,不同版本识别结果会有差异;

图像尺寸调整:过大的图像占用资源较多且对于识别结果差异不大,建议图像尺寸在1000-2000,可以根据不同的图像自主进行调整,为 0 时不调整图像尺寸;

识别结果转简体:将识别结果转为简体文字;

页内文本是否合并:将一页内的文本行合并为一个文本段;

是否接收邮件通知:可选在识别完成后通过邮件进行提醒。

我的API


编号 Token 备注 状态 统计 操作

API记录


编号 操作 Token 备注 状态 统计 申请时间 通过时间

古籍数字化·古籍OCR API接口


使用说明

1、本功能是看典古籍古籍文字识别OCR系统的开放式API,依托云计算能够快速高效地完成古籍文字识别工作;

2、API接口接入方式简单便捷,可以快速上手并集成 OCR API 接口到其它应用程序或系统中;

3、接口开放程度更高,兼容大部分图像文件格式,通过请求参数控制响应内容;

4、识别处理速度快,平均识别速度在一秒以内;

5、API接口为实时识别模式,随调随用,快速方便;

6、搭配看典古籍OCR桌面软件和易校古籍软件,简单高效地完成古籍数字化录入工作;

7、每个用户注册后默认拥有初始Token和2000次可用额度;

8、申请提交后等待通过即可,无需多次提交,人工非实时处理,尽量在两小时内处理;

9、机器识别结果不具有权威性,仅可做参考使用;

10、API调用文档《API接口使用文档》

11、如果我们的项目对您有帮助,希望您也能 帮助我们

名词解释

新增Token:新增API Token身份标识,每个Token为独立的,额度不共享;

Token:用户身份标识符,API接口为免登录的,需要通过Token进行标记,提高账户安全性;

状态:标明Token是否可用,分为:可用(审核通过)/不可用(待审核、审核不通过);

统计:已使用次数和总次数,表示API Token的额度使用情况;

续加额度:可以给指定Token增加可用额度,更加方便实用;

Loading...
Bootstrap Check Bootstrap