在线图像描述OCR插件-0.23

简介

该插件为NVDA添加了在线图像识别引擎。
有两种类型的识别引擎。OCR和图像描述器。OCR：从图像中提取文本。
图像描述器，以文本形式描述图像中的视觉特征。例如一般性描述，颜色类型地标等。使用此插件需要Internet连接，
因为图像描述服务是由Internet上的 API 提供的。在此插件中，它们称为“引擎”。

本版更新

增加了在黑屏状态下使用识别的提醒；
完善了翻译；
添加了简体中文说明文档；
兼容 NVDA2021.1；
其他的一些细节优化。

说明

该插件目前包含三种识别引擎：

在线OCR引擎；
在线图像描述引擎；
Windows 10 OCR（离线引擎）

您还需要选择识别图像的来源：

当前的导航对象；
当前窗口；
整个屏幕；
剪贴板中的图像数据或图像文件；
剪贴板中的图像文件路径名或图像URL；

热键首饰

选择了识别类型后，您可以用一个热键开始识别：
NVDA + Alt + P根据图像来源和引擎类型设置执行识别，然后读取结果。如果连按两次，则打开虚拟文档结果。

还有四个其他快捷键未分配。请在使用前打开“NVDA” ➡ “选项” ➡ “输入首饰”手动分配：

循环浏览不同的识别引擎类型；
循环浏览不同的识别来源；
取消当前识别（如果您认为等待时间过长而想取消，则此热键很有用，同样，有时您也不想被识别信息打扰，因为您或许需要查看识别后的某些更重要的信息）。
在虚拟文档中显示上一次识别结果，虽然具有将结果复制到剪贴板的功能，但字符位置信息无法保留，因此添加了此热键来解决此问题。

对于喜欢以前版本中操作方式的用户，还有四个热键未分配（建议使用新的热键手势并根据需要切换引擎类型）：

使用在线OCR引擎识别当前导航对象的内容，然后读取结果。如果按两次，则打开虚拟文档结果。
使用在线OCR引擎识别剪贴板内的图像。然后读取结果。如果按两次，则打开虚拟文档结果。
使用在线图像描述引擎识别当前导航对象的内容。然后读取结果，如果按两次，则打开虚拟文档结果。
使用在线图像描述引擎识别剪贴板内的图像。然后读取结果，如果按两次，则打开虚拟文档结果。

引擎配置

您可以选择识别引擎并在 “NVDA菜单” ➡ “设置” ➡ “选项” ➡ “打开在线图像描述设置”对话框中进行详细设置。

插件的作者已经注册了具有免费API配额的帐户，并在 www.nvdacn.com 上设置了代理服务器，以使该插件更易于测试。测试配额是有限的，且 API提供商可以随时取消。所以，强烈建议根据每个引擎中的指南注册您自己的密钥。

以下设置适用于所有引擎：

识别后将结果文本复制到剪贴板：
如果启用，识别结果文本将在识别后复制到剪贴板。
使用弹出对话框展示识别结果：
如果启用，识别结果文本将显示在弹出窗口中，而不是语音或盲文消息。
交换重复手势的效果：
默认情况下，仅当您连按两次相应的热键时才会显示虚拟文档结果，如果您经常使用该功能，则可以启用此选项，启用后只需按一次即可打开虚拟文档结果。
启用更详细的日志记录方便调试：
一些日志对于开发调试是必不可少的，但这样会影响性能并占用大量空间。仅在插件作者或NVDA开发人员明确要求的情况下才打开此功能。
代理类型：
您正在使用哪种类型的代理。如果您不知道什么是代理，请保持默认。
代理地址：
代理的完整URL。如果您不知道什么是代理，请保持默认。
如果选择使用代理，则将在保存前对代理进行验证，验证后，将提示您验证结果。

以下设置在所有引擎中的含义相同

API访问类型：
控制了您如何访问相应的API服务。
如果选择“使用公共免费 api 配额”，表明您正在使用插件作者注册的帐户中的免费配额。
如果您选择“使用您自己注册的 api 密钥”，则该插件将使用您自己帐户中的配额。
APP ID，API密钥或API秘密密钥：
如果要使用自己帐户中的配额，则需要相应的访问令牌。一些引擎只需要API密钥。
一些引擎需要两个令牌。
这些选项仅在您选择了“使用您自己注册的 api 密钥”时才有效。

请注意，识别结果的质量和准确性受许多因素影响。

引擎提供商使用的模型和技术；
上传图片的质量；
导航对象是否被其他对象遮挡；
屏幕分辨率；

在线图片描述

这是三个可用的引擎。

Microsoft Azure图像分析器

该引擎根据图像内容提取丰富的视觉功能。
该引擎仅支持英语。如果要使用其他语言进行描述，则可以使用Microsoft Azure Image Describer

视觉功能包括：
检测成人内容。

检测图像中的各种品牌, 包括大致位置复选框已选择未选中
根据文档中定义的分类对图像内容进行分类。
用完整句子描述图像内容。
确定强调色、主导色以及图像是否为黑白。
使用与图像内容相关的标签描述图像。
人脸-检测图像上是否有人脸。如果存在, 则生成坐标、性别和年龄。
检测图像是剪贴画还是简笔画。
检测图像中的各种对象, 包括大致位置，仅支持英语。

一些功能还提供其他详细信息：

如果在图像中检测到名人，给出详细信息。
如果在图像中检测到地标时，给出详细信息。
识别地标和名人的详细信息。

Microsoft Azure映像描述器

该引擎以人类可读的语言生成带有完整句子的图像描述。
该描述基于内容标签的集合，可以为每个图像生成一个或多个描述。描述按其置信度得分排序。
此引擎有两个设置。

识别语言
服务返回图像描述结果的语言。默认情况下为英语。
最多返回多少个结果:
返回的描述结果最大数量。预设值为1。

维护

作者: Larry Wang larry.wang.801@gmail.com

兼容性

兼容2019.3及以上版本的NVDA

下载地址

点此下载