在线图像描述OCR插件-0.23
简介
该插件为NVDA添加了在线图像识别引擎。
有两种类型的识别引擎。OCR和图像描述器。OCR:从图像中提取文本。
图像描述器,以文本形式描述图像中的视觉特征。例如一般性描述,颜色类型地标等。使用此插件需要Internet连接,
因为图像描述服务是由Internet上的 API 提供的。在此插件中,它们称为“引擎”。
本版更新
- 增加了在黑屏状态下使用识别的提醒;
- 完善了翻译;
- 添加了简体中文说明文档;
- 兼容 NVDA2021.1;
- 其他的一些细节优化。
说明
该插件目前包含三种识别引擎:
- 在线OCR引擎;
- 在线图像描述引擎;
- Windows 10 OCR(离线引擎)
您还需要选择识别图像的来源:
- 当前的导航对象;
- 当前窗口;
- 整个屏幕;
- 剪贴板中的图像数据或图像文件;
- 剪贴板中的图像文件路径名或图像URL;
热键首饰
选择了识别类型后,您可以用一个热键开始识别:
NVDA + Alt + P根据图像来源和引擎类型设置执行识别,然后读取结果。如果连按两次,则打开虚拟文档结果。
还有四个其他快捷键未分配。请在使用前打开“NVDA” ➡ “选项” ➡ “输入首饰”手动分配:
- 循环浏览不同的识别引擎类型;
- 循环浏览不同的识别来源;
- 取消当前识别(如果您认为等待时间过长而想取消,则此热键很有用,同样,有时您也不想被识别信息打扰,因为您或许需要查看识别后的某些更重要的信息)。
- 在虚拟文档中显示上一次识别结果,虽然具有将结果复制到剪贴板的功能,但字符位置信息无法保留,因此添加了此热键来解决此问题。
对于喜欢以前版本中操作方式的用户,还有四个热键未分配(建议使用新的热键手势并根据需要切换引擎类型):
-
使用在线OCR引擎识别当前导航对象的内容,然后读取结果。如果按两次,则打开虚拟文档结果。
-
使用在线OCR引擎识别剪贴板内的图像。然后读取结果。如果按两次,则打开虚拟文档结果。
-
使用在线图像描述引擎识别当前导航对象的内容。然后读取结果,如果按两次,则打开虚拟文档结果。
-
使用在线图像描述引擎识别剪贴板内的图像。然后读取结果,如果按两次,则打开虚拟文档结果。
引擎配置
您可以选择识别引擎并在 “NVDA菜单” ➡ “设置” ➡ “选项” ➡ “打开在线图像描述设置”对话框中进行详细设置。
插件的作者已经注册了具有免费API配额的帐户,并在 www.nvdacn.com 上设置了代理服务器,以使该插件更易于测试。测试配额是有限的,且 API提供商可以随时取消。所以,强烈建议根据每个引擎中的指南注册您自己的密钥。
以下设置适用于所有引擎:
-
识别后将结果文本复制到剪贴板:
如果启用,识别结果文本将在识别后复制到剪贴板。 -
使用弹出对话框展示识别结果:
如果启用,识别结果文本将显示在弹出窗口中,而不是语音或盲文消息。 -
交换重复手势的效果:
默认情况下,仅当您连按两次相应的热键时才会显示虚拟文档结果,如果您经常使用该功能,则可以启用此选项,启用后只需按一次即可打开虚拟文档结果。 -
启用更详细的日志记录方便调试:
一些日志对于开发调试是必不可少的,但这样会影响性能并占用大量空间。仅在插件作者或NVDA开发人员明确要求的情况下才打开此功能。 -
代理类型:
您正在使用哪种类型的代理。如果您不知道什么是代理,请保持默认。 -
代理地址:
代理的完整URL。如果您不知道什么是代理,请保持默认。
如果选择使用代理,则将在保存前对代理进行验证,验证后,将提示您验证结果。
以下设置在所有引擎中的含义相同
-
API访问类型:
控制了您如何访问相应的API服务。
如果选择“使用公共免费 api 配额”,表明您正在使用插件作者注册的帐户中的免费配额。
如果您选择“使用您自己注册的 api 密钥”,则该插件将使用您自己帐户中的配额。 -
APP ID,API密钥或API秘密密钥:
如果要使用自己帐户中的配额,则需要相应的访问令牌。一些引擎只需要API密钥。
一些引擎需要两个令牌。
这些选项仅在您选择了“使用您自己注册的 api 密钥”时才有效。
请注意,识别结果的质量和准确性受许多因素影响。
- 引擎提供商使用的模型和技术;
- 上传图片的质量;
- 导航对象是否被其他对象遮挡;
- 屏幕分辨率;
在线图片描述
这是三个可用的引擎。
Microsoft Azure图像分析器
该引擎根据图像内容提取丰富的视觉功能。
该引擎仅支持英语。如果要使用其他语言进行描述,则可以使用Microsoft Azure Image Describer
视觉功能包括:
检测成人内容。
- 检测图像中的各种品牌, 包括大致位置 复选框 已选择 未选中
- 根据文档中定义的分类对图像内容进行分类。
- 用完整句子描述图像内容。
- 确定强调色、主导色以及图像是否为黑白。
- 使用与图像内容相关的标签描述图像。
- 人脸-检测图像上是否有人脸。如果存在, 则生成坐标、性别和年龄。
- 检测图像是剪贴画还是简笔画。
- 检测图像中的各种对象, 包括大致位置,仅支持英语。
一些功能还提供其他详细信息:
- 如果在图像中检测到名人,给出详细信息。
- 如果在图像中检测到地标时,给出详细信息。
- 识别地标和名人的详细信息。
Microsoft Azure映像描述器
该引擎以人类可读的语言生成带有完整句子的图像描述。
该描述基于内容标签的集合,可以为每个图像生成一个或多个描述。描述按其置信度得分排序。
此引擎有两个设置。
-
识别语言
服务返回图像描述结果的语言。默认情况下为英语。 -
最多返回多少个结果:
返回的描述结果最大数量。预设值为1。
维护
- 作者: Larry Wang larry.wang.801@gmail.com
兼容性
- 兼容2019.3及以上版本的NVDA