古籍PDF文件识别
数字化任务进度
任务名称:{{pdf_rec_task.title}}
任务ID:{{pdf_rec_task.task_id}}
总页数:{{ pdf_rec_task.pages }}
创建
{{pdf_rec_task.progress.create.date}}
PDF处理
用时 {{(pdf_rec_task.progress.pdf_process.end-pdf_rec_task.progress.pdf_process.start).toFixed(2)}} 秒
{{pdf_rec_task.progress.pdf_process.error}} / {{pdf_rec_task.progress.pdf_process.pages}}
{{pdf_rec_task.progress.pdf_process.date}}
OCR识别
用时 {{(pdf_rec_task.progress.pdf_ocr.end-pdf_rec_task.progress.pdf_ocr.start).toFixed(2)}} 秒
平均 {{(pdf_rec_task.progress.pdf_ocr.avg_time).toFixed(2)}} 秒/页
平均 {{(pdf_rec_task.progress.pdf_ocr.avg_time_quick).toFixed(2)}} 秒/页
预计需要 {{(pdf_rec_task.progress.pdf_ocr.estimated).toFixed(0)}} 秒
{{pdf_rec_task.progress.pdf_ocr.date}}
打包
用时 {{(pdf_rec_task.progress.result_process.end-pdf_rec_task.progress.result_process.start).toFixed(2)}} 秒
{{pdf_rec_task.progress.result_process.date}}
识别状态:{{pdf_rec_task.is_finish}}
创建时间:{{pdf_rec_task.created_on}}
结束时间:{{pdf_rec_task.finished_on}}
上传PDF文件进行识别,完成后下载结果文件
使用说明
1、本站仅在识别过程中保存用户上传的文件,识别完成后两小时删除源文件和识别结果,不会存储和使用用户上传的文件,请及时下载识别后的结果文件;
2、本功能支持单个PDF的识别处理,其它文件格式暂不支持;
3、识别过程中可不用停留在本页面,预估识别完成后返回本页面下载识别结果文件;
4、识别结果包含:汇总文档(换行/不换行.docx文档)、文本文档(.txt文件)、格式化数据(.json文件含文字坐标信息)、分页图像文件;
5、单PDF页数限制:普通用户500页,会员用户2000页,如需识别更多页面的PDF文件,请对文件分割后进行识别;
6、识别额度:普通用户500页/天 10000页/30天,会员用户2000页/天 40000页/30天,注册多账号同时识别视为不友好行为,将进行封禁处理,不另行通知。
7、请不要上传含有加密的PDF文件,网站识别时无法解密;
8、机器识别结果不具有权威性,仅可做参考使用;
9、查看在线文档《使用文档》
10、遇到上传很慢,上传卡顿时先刷新页面停止上传,重新选择文件后选择上传线路2后再试!
11、建议您绑定通知邮箱,在任务识别完成后将收到邮件提醒!如何绑定
设置项解释
文本排版方向:图像中文字的排列方向,分为横向和竖向,可选自动识别将自动判断或者指定横竖排模式;
识别版本选择:识别算法的不同版本,不同版本识别结果会有差异;
版面识别设置:(V2版本)版面识别,可选是否排除:页眉/页脚/侧边标题/侧边页码/版心等类型的识别;
是否自动插入空格:(V2版本)按照句内文字的间距控制是否插入空格;
横排句子文字排序方向:(V2版本)指定横排句子内文字的排序顺序,默认为从左到右;
竖排句子文字排序方向:(V2版本)指定竖排句子内文字的排序顺序,默认为从上到下;
图像尺寸调整:过大的图像占用资源较多且对于识别结果差异不大,建议图像尺寸在1000-2000,可以根据不同的图像自主进行调整,为 0 时不调整图像尺寸;
TXT是否分页:导出的TXT文件按照PDF中每一页一个TXT文件,不分页则将TXT文件合并为一个TXT文件;
识别结果转简体:将识别结果转为简体文字;
页内文本是否合并:将一页内的文本行合并为一个文本段;
是否接收邮件通知:可选在识别完成后通过邮件进行提醒。
古籍图像识别
智能古籍OCR,所见即所得!
使用说明
1、本站仅在识别过程中使用上传的图像文件,识别完成后立即删除,不会存储和使用您上传的文件,请及时保存识别后的结果;
2、本功能支持单个图像文件的识别处理,其它文件格式暂不支持;
3、图像识别完成后结果将写入到右侧文本输入框中,您可以在此编辑修改;
4、不合法律法规的文件禁止上传;
5、机器识别结果不具有权威性,仅可做参考使用;
6、查看在线文档《使用文档》
设置项解释
文本排版方向:图像中文字的排列方向,分为横向和竖向,可选自动识别将自动判断或者指定横竖排模式;
识别版本选择:识别算法的不同版本,不同版本识别结果会有差异;
识别模式选择:可以指定用行检测识别模式或字符检测识别模式,字符模式下文本的顺序可能会有错误的情况;
图像尺寸调整:过大的图像占用带宽较多且对于识别结果差异不大,建议图像尺寸在1000-2000,可以根据不同的图像自主进行调整,为 0 时不调整图像尺寸;
多图像文件识别
数字化任务进度
任务名称:{{pdf_rec_task.title}}
任务ID:{{pdf_rec_task.task_id}}
总页数:{{ pdf_rec_task.pages }}
创建
{{pdf_rec_task.progress.create.date}}
OCR识别
用时 {{(pdf_rec_task.progress.pdf_ocr.end-pdf_rec_task.progress.pdf_ocr.start).toFixed(2)}} 秒
平均 {{(pdf_rec_task.progress.pdf_ocr.avg_time).toFixed(2)}} 秒/页
平均 {{(pdf_rec_task.progress.pdf_ocr.avg_time_quick).toFixed(2)}} 秒/页
预计需要 {{(pdf_rec_task.progress.pdf_ocr.estimated).toFixed(0)}} 秒
预计需要 {{(pdf_rec_task.progress.pdf_ocr.estimated_quick).toFixed(0)}} 秒
{{pdf_rec_task.progress.pdf_ocr.date}}
打包
用时 {{(pdf_rec_task.progress.result_process.end-pdf_rec_task.progress.result_process.start).toFixed(2)}} 秒
{{pdf_rec_task.progress.result_process.date}}
识别状态:{{pdf_rec_task.is_finish}}
创建时间:{{pdf_rec_task.created_on}}
结束时间:{{pdf_rec_task.finished_on}}
上传图像文件批量进行识别,完成后下载结果文件
使用说明
1、本站仅在识别过程中保存用户上传的文件,识别完成后两小时删除源文件和识别结果,不会存储和使用用户上传的文件,请及时下载识别后的结果文件;
2、本功能支持多个图像文件的识别处理,PDF文件请使用PDF识别功能;
3、识别过程中可不用停留在本页面,预估识别完成后返回本页面下载识别结果文件;
4、识别结果包含:汇总文档(换行/不换行.docx文档)、文本文档(.txt文件)、格式化数据(.json文件含文字坐标信息)、分页图像文件;
5、单次上传图像数量限制:普通用户500张,会员用户2000张;
6、识别额度:普通用户500页/天 10000页/30天,会员用户2000页/天 40000页/30天,注册多账号同时识别视为不友好行为,将进行封禁处理,不另行通知。
7、机器识别结果不具有权威性,仅可做参考使用;
8、查看在线文档《使用文档》
9、遇到上传很慢,上传卡顿时先刷新页面停止上传,重新选择文件后选择上传线路2后再试!
10、建议您绑定通知邮箱,在任务识别完成后将收到邮件提醒!如何绑定
设置项解释
文本排版方向:图像中文字的排列方向,分为横向和竖向,可选自动识别将自动判断或者指定横竖排模式;
识别版本选择:识别算法的不同版本,不同版本识别结果会有差异;
图像尺寸调整:过大的图像占用资源较多且对于识别结果差异不大,建议图像尺寸在1000-2000,可以根据不同的图像自主进行调整,为 0 时不调整图像尺寸;
识别结果转简体:将识别结果转为简体文字;
页内文本是否合并:将一页内的文本行合并为一个文本段;
是否接收邮件通知:可选在识别完成后通过邮件进行提醒。
我的API Token
| 编号 | API Token | 账号 | 备注 | 状态 | 统计(已用/共计) | 操作 |
|---|---|---|---|---|---|---|
| {{index}} | {{item.token}} | {{item.account}} | {{item.status}} | {{item.used_count}}/{{item.total_count}} |
API Token记录
| 编号 | 操作 | API Token | 备注 | 状态 | 额度 | 申请时间 | 通过时间 | 操作 |
|---|---|---|---|---|---|---|---|---|
| {{index}} | {{item.operate}} | {{item.token}} | {{item.apply_content}} | {{item.status}} | {{item.total_count}} | {{item.created_on}} | {{item.active_date}} |
使用说明
1、本功能是看典古籍古籍文字识别OCR系统的开放式API,依托云计算能够快速高效地完成古籍文字识别工作;
2、API接口接入方式简单便捷,可以快速上手并集成 OCR API 接口到其它应用程序或系统中;
3、接口开放程度更高,兼容大部分图像文件格式,通过请求参数控制响应内容;
4、识别处理速度快;
5、API接口为实时识别模式,随调随用,快速方便;
6、搭配看典古籍OCR桌面软件和易校古籍软件,简单高效地完成古籍数字化录入工作;
7、申请提交后等待通过即可,无需多次提交,人工非实时处理,尽量在两小时内处理;
8、机器识别结果不具有权威性,仅可做参考使用;
9、可用额度限制:普通用户500次/天 10000次/30天,会员用户4000次/天 40000次/30天;
10、若申请额度已超过当日可申请的上限,当日内后续申请需单独付费;
11、使用教程《看典古籍OCR API Token》;
12、API调用文档《API接口使用文档》
13、如果我们的项目对您有帮助,希望您也能 帮助我们
名词解释
新增Token:新增API Token身份标识,每个Token为独立的,额度不共享;
API Token:用户身份标识符,API接口为免登录的,需要通过Token进行标记,提高账户安全性;
状态:标明API Token是否可用,分为:可用(审核通过)/不可用(待审核、审核不通过);
统计:已使用次数和总次数,表示API Token的额度使用情况;
续加额度:可以给指定API Token增加可用额度,更加方便实用;