TrWebOCR开源的离线OCR

发表于 2021-08-09 更新于 2026-04-04 分类于各种折腾 Waline：阅读次数：本文字数： 977 阅读时长 ≈ 1 分钟

TrWebOCR 是开源、易用的中文离线 OCR 。

什么是 OCR ？

OCR（optical character recognition）文字识别是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，然后用字符识别方法将形状翻译成计算机文字的过程；即，对文本资料进行扫描，然后对图像文件进行分析处理，获取文字及版面信息的过程。【百度百科】

什么是 Tr ？

TR（Text Recognition）是一款针对扫描文档的离线文本识别 SDK，核心代码全部采用 C++ 开发，并提供 Python 接口。

什么是 TrWebOCR ？

TrWebOCR 是基于开源项目 Tr（Text Recognition）构建的开源、易用的中文离线 OCR，识别率媲美大厂，并且提供了易用的 web 页面及 web 的接口，方便日常工作使用或者其他程序来调用。

这是热心的网友推荐的，正好老苏整理小人书的时候用的着，有时候想从防拷贝的网页上抓些文字也是很方便的（当然你也可以安装 Simple Allow Copy 这样的 Chrome 插件）。

安装

在群晖上以 Docker 方式安装。

在注册表中搜索 TrWebOCR ，选择第一个 mmmz/trwebocr，版本选择 latest。

端口

端口不冲突就行

本地端口	容器端口
8089	8089

运行

在浏览器中输入 http://群晖IP:8089，就看到主界面

文字识别

打开小人书直接用截图工具框选要识别的部分

粘贴图片到网页中

点 识别 按钮

即便有些倾斜，但是识别率也是非常准确的

图文混排

粘贴图片到网页中

原始结果中正确的识别了文字，但是 识别的文字 中是空的

看来图片还是会对识别形成干扰

竖排文字

粘贴图片到网页中

有点混乱

基本上谈不上识别了，看来对于竖排文字有点无能为力

繁体中文

网上随便搜的一张名片

只有个别字识别存在错误，而且繁体识别出来的文字还是繁体

总体效果还是很不错的

小结

TrWebOCR 识别速度非常快，而且准确率很高，虽然代码已经一年没更新了，但对老苏来说绝对够用了

参考文档

alisen39/TrWebOCR: 开源易用的中文离线OCR，识别率媲美大厂，并且提供了易用的web页面及web的接口，方便人类日常工作使用或者其他程序来调用~
地址：https://github.com/alisen39/TrWebOCR

myhub/tr: Free Offline OCR 离线的中文文本检测+识别SDK
地址：https://github.com/myhub/tr

0%