新翼OCR-3.1.0——离线加在线图像识别,,AI图像描述
这是一个提供离线和在线OCR识别的NVDA插件。离线识别基于PaddleOCR_json组件而开发。
本插件目前提供PaddleOCR_json的离线OCR识别引擎和在线百度通用版、高精度版识别引擎,安装插件后会自动安装PaddleOCR_json组件。后续会逐步接入更多的其他离线、在线OCR识别引擎。
此外,本插件还提供图像描述功能,可针对图片内容进行识别。
插件优点
- 识别速度快,离线识别大约100ms左右,实际情况因计算机性能配置而异。
- 强悍的离线识别准确度,媲美在线识别。
- 识别结果文字坐标精准,结果文字点击响应准确。
键盘快捷键
- 导航对象OCR识别:NVDA+ALT+O
- 剪贴板OCR识别:NVDA+ALT+SHIFT+O
- 切换OCR识别引擎:NVDA+ALT+9
- 图像描述:NVDA+ALT+P
- 剪贴板图像描述:NVDA+ALT+SHIFT+P
快捷键设置:可在“按键与手势”设置中针对“新翼OCR”分类下各命令设置快捷键。
反馈联络
有任何意见建议欢迎沟通:
- 项目地址:https://github.com/huaiyinfeilong/xyocr
- 电子邮箱:huaiyinfeilong@163.com
- QQ:354522977
- 微信:huaiyinfeilong
升级日志
Version 3.1.0
- 新增图片描述功能,支持讯飞图片理解API。
- 移除百度OCR共享密钥。
- 更新配置字段,需手动重新填写百度OCR密钥。
- 增加俄语本地化支持。
- 修复无论是否选中“定期刷新识别结果”OCR都自动刷新的问题。
Version 3.0.3
- 移除图片描述功能。
Version 3.0.2
- 适配NVDA 2024.1版本。
Version 3.0.1
- 新增图片描述黑屏检测:如果在黑屏功能开启状态下进行图片描述操作,将给出提示。
Version 3.0
- 新增图像内容识别功能,可针对浏览到的图片和剪贴板中的图片进行识别描述。
Version 2.0.2
- 修复在离线OCR不可用的机器上在线OCR可能也无法使用的问题。
Version 2.0.1
- 修复在网络代理环境中不稳定的问题。
Version 2.0
- 新增百度在线OCR识别引擎,支持通用版识别和高精度版识别,可以使用共享密钥和自己的私有密钥。如使用自己的私有密钥,需在设置中进行配置。
- 新增黑屏检测功能,若当黑屏开启时进行OCR识别,将给出提示。
- 去除安装时64位系统检测,但非64位系统安装后,仅能使用在线OCR识别而无法使用离线识别。
Version 1.3
- 修复在NVDA2023.1以下版本无法安装的问题。
Version 1.2
- 新增安装时环境检测,对于非64位系统环境给出无法完成安装提示。
- 修复当NVDA异常退出后,PaddleOCR_json.exe不会自动退出,继续存活的问题。
- 修复OCR识别随着识别次数增加而占用内存过大的问题。
- 修复OCR识别过程中NVDA假死问题。
Version 1.1
- 增加剪贴板识别功能,热键:NVDA+SHIFT+ALT+O
这个插件装完按快捷键怎么没反应啊?而且打开输入帮助后这个快捷键是没有的,根本用不了啊!
请说明系统版本: 包括操作系统体系(32位还是64位),仅兼容64位操作系统。
我的系统是Windows 10 家庭版 22H2 64位,NVDA版本是 2023.1,心翼OCR版本是1.3但为什么还是用不了啊!也尝试了重新启动读屏但按快捷键还是没反应。插件更新日志里不是说了能支持NVDA 2023.1吗?
Win +R 打开运行,粘贴以下内容回车看看什么反应: %appdata%\nvda\addons\xyOCR\globalPlugins\models\PaddleOCR-json\PaddleOCR_json.exe
另外,建议在群里进一步讨论,评论不一定能及时回复。
输入完您提供的命令后电脑跳出了个对话框内容是这样的:PaddleOCR_json.exe - 应用程序错误 对话框 应用程序无法正常启动(0xc0000142)。请单击“确定”关闭应用程序。
初步判断为系统组件缺失或损坏,暂未找到解决办法,您可以尝试以下文章中提供的解决思路(不保证有效):
http://www.lotpc.com/dngz/8910.html
建议利用离线识别增加字幕识别功能。
为什么没有本地识别啊。只有百度高精度和百度通用。而且之前是提示识别失败的,升级了百度网盘之后就能用了。但是那个所谓的本地识别怎么没有啊!
而且我的系统还是Windows 10 64位的呢。
离线引擎对系统版本和cpu架构都有限制,新版在不支持的环境下不会显示。愿意的话,可以提供你的 CPU 型号,更详细的推荐去群里讨论。谢谢
建议加入lion插件那样的可调整的自动识别功能和播报。原本那个插件说实话有点水土不服,中文识别的准确度上有些堪忧。这个插件如果加上那个功能的话就圆满了。
如果添加识别PDF文件的功能就好了,毕竟原来的那款识别PDF的插件,接口是系统自带的,精准度很差。
比如原来那款PDF识别插件在识别中英文混合或者识别数学公式或者编程代码,识别出来的东西基本上不能看。所以希望加入PDF识别功能。
还有啊NVDA并不是所有数学公式都支持朗读,比如百度百科那边的公式只能用OCR识别才能看,所以如果可以的话也希望加入识别数学公式的功能。
识别结果鼠标放上去是不读的,能不能支持下用鼠标阅读识别结果呢
识别结果视觉可见么?
这个功能对低视力的用户挺重要的,如果可以最好在来一个鼠标框选识别
太棒了
为啥突然下不了了。我这edge提示嗯,无法加载此页面。
请问百度文字识别的API Key和Secret Key该怎样获取?具体步骤是什么?