当随时随地可以唤起AI助手，我偷了多少懒——从 Gemini In Chrome 说起

在阅读该文章之前，请了解 NVDA 中文社区发起的翻译插件众筹项目。

或许有了你的参与，就可以让这个项目成为可能。如需了解项目详情及参与方式请访问： https://nvdacn.com/index.php/archives/1483/

面对又臭又长的技术文档、GitHub 上几百层楼的激辩（Issue Comments），还有那些永远回不完的邮件 Threads，你曾经是如何在信息的汪洋大海中“大浪淘沙”的？

网页上的数据零零散散，难道只能靠无数次切换窗口，机械地复制粘贴来汇总成表？

还记得 BBS 时代那个拯救了无数人的“只看楼主”和“脱水阅读”功能吗？

还有那些让人哭笑不得的“机翻”事故：把 "Spring Boot" 翻译成 "弹簧靴"，把 "Driver" 翻译成 "司机"，看着这些不知所云的文字，你浪费了多少脑细胞去猜谜？

当遇到晦涩难懂的新技术名词，除了无奈地 Ctrl+T 新开标签页去搜索，打断原本流畅的阅读思路，还有别的办法吗？

更别提那些排版混乱的网页，对于像我这样依赖屏幕阅读器的用户来说，多少次因为找不到焦点、听不懂逻辑而想“疯狂砸键盘”。

有了 Gemini In Chrome，上面这些曾经让我头大的问题，似乎一夜之间就发生了改变。

什么是 Gemini In Chrome？

这是一项Chrome浏览器内置功能，它会利用打开的标签页作为上下文，可以更准确地提供回答。比如汇总摘要、澄清新概念、翻译网页等。这不同于直接访问网页版或在地址栏输入 @gemini。它更像是一个随时待命的 AI 助理，当你需要的时候它就在那里。

Chrome 浏览器上的 Gemini 入口

作为一名码农，同时也是一名依赖屏幕阅读器的重度用户，我对工具的“效率”极其敏感。Gemini In Chrome 并不是简单的在浏览器里加个聊天框，它通过侧边栏（Side Panel）的形态，似乎悄悄地融入了我的工作流。

在分享具体的使用场景前，我想先聊聊它最基础、但也是最重要的交互逻辑——Alt + G。

核心交互：Alt + G 与焦点保留

对于键盘用户和读屏用户来说，频繁在标签页/窗口之间切换，往往意味着焦点的丢失和思路的断层。但 Gemini In Chrome 的体验非常连贯：

一键唤起：在浏览任意网页时，按下 Alt + G，侧边栏滑出，焦点自动进入输入框，我可以立刻提问。
无缝返回：问完问题，再次按下 Alt + G，焦点直接跳回网页。
阅读进度保持：这是最关键的细节——当我切回网页时，NVDA的浏览模式焦点依然停留在刚才阅读的段落，而不是跳回页面顶部。

这种“呼之即来，挥之即去”且不打断阅读进度的体验，是我愿意高频使用该功能的前提。

正在使用 Gemini In Chrome 功能总结其官方文档页面

1. 长篇累牍的终结：智能摘要与关键信息提取

痛点：
在 GitHub Issue 或长篇技术文档中，为了找到一个解决方案或最终结论，我需要在数百条评论中不断跳转标题（H键），还得在大段的争论中筛选有效信息。

Gemini 的解法：
现在，我只需呼出面板，输入：“总结这个页面的核心争议点，并列出最终被采纳的解决方案。”

Gemini 会直接读取当前标签页的内容上下文。它不是简单地截取前两段，而是通过语义分析告诉我：用户 A 提出了什么问题，最终 Maintainer 在某条评论给出了最终采纳的，什么方案。这省去了我几百次的键盘操作，直接获取结果。

2. 告别复制粘贴：非结构化数据的瞬间结构化

痛点：
网页上经常散落着我们需要的数据，比如电商页面的产品参数，或者技术博客中的方案对比。以前想要将这些数据保存下来，往往需要手动建立表格，反复 Alt + Tab 切换窗口进行复制粘贴，效率极低。

Gemini 的解法：
停留在该页面，我告诉 Gemini：“请基于当前页面内容，帮我整理出一张表格，包含产品名称、价格、核心参数，并以 Markdown 格式输出。”

几秒钟后，一张标准的表格就生成了。Markdown 对于技术人员和读屏软件都非常友好，渲染后我可以轻松导航读取，或者直接将其复制到笔记软件中，导入到 Google 生态的应用中。将“非结构化文本”瞬间转化为“结构化数据”，这是生产力的一大提升。

3. 复刻 BBS 时代的“脱水阅读”：语义级降噪

痛点：
现代网页充斥着广告、侧边栏推荐、页眉页脚的无关链接。对于屏幕阅读器用户，我们可能需要听完大量“噪音”才能接触到正文。这让人怀念以前 BBS 客户端的“脱水模式”或“只看楼主”。

Gemini 的解法：
在浏览充满干扰项的新闻或论坛时，我会输入指令：“只保留正文逻辑，告诉我这件事的来龙去脉，忽略所有广告和无关评论。”

Gemini 此时充当了一个语义过滤器。它直接提取核心内容并重新组织语言，屏蔽了页面上的 DOM 噪音。这比浏览器自带的“阅读模式”更进一步，因为我可以对“脱水”后的内容进行追问。

4. 拒绝生硬机翻：基于技术语境的深度翻译

痛点：
传统的网页翻译往往是字面对应的。例如把 "Driver" 翻译成 "司机"，或者在技术文档中把 "Run this function" 翻译成 "跑这个功能"，不仅怪异，甚至会产生误导。

Gemini 的解法：
现在的翻译可以基于上下文。我可以询问 Gemini：“请结合技术文档的语境翻译这段话。”

Gemini 不仅能给出准确的翻译，还会解释诸如 "K8s"这类术语的实际含义。这种带有注释的翻译，让阅读外文技术资料变得更加通顺。

5. 沉浸式概念查询：不再多开标签页

痛点：
阅读文章时遇到新概念（例如 "Vector Database"），以前的做法是 Ctrl + T 新开标签页搜索，阅读完再关掉。这个过程非常打断心流，对于读屏用户，管理大量标签页也是一种负担。

Gemini 的解法：
我只需要 Alt + G 切换焦点问：“这一段提到的 Vector Database 是什么？请用我奶奶都能听得懂的比喻解释。”

Gemini 会在侧边栏直接给出解释。阅读完毕后，再次按下 Alt + G 回到文章继续阅读。

6. 重塑信息呈现：应对混乱排版的“神器”

痛点：
很多网页排版混乱，或者是动态加载的 <div> 堆叠，没有清晰的标题层级（Heading Structure）。读屏软件只能按 DOM 顺序朗读，用户很难建立起页面的空间概念，经常陷入“我是谁？我在哪？”的困惑。

Gemini 的解法：
Gemini In Chrome 在这里起到了无障碍重构的作用。

当我遇到一个结构混乱的网页，我会问 Gemini：“描述这个网页的视觉布局和主要功能区。如果是表单，帮我检查有哪些字段漏填了？”

Gemini 能够理解页面结构，它能把一个无障碍支持较差的网页，转化为逻辑清晰的文字描述。它不再只是呈现页面信息，而是在解释界面，帮我快速建立起对页面的整体认知。

小结

Gemini In Chrome 带来的改变，本质上是信息处理权的转移。通过 Alt + G 这个简单的入口，我们将处理杂乱信息、筛选噪音、翻译语境的工作交给了 AI，而让自己专注于阅读和决策本身。无论你是屏幕阅读器用户还是普通用户，这种从“繁琐操作”中偷懒出来的精力，才是最宝贵的资源。

不过有一点需要说明：根据 Google 官方文档，Gemini In Chrome 是一项逐步开放的功能，所以，正在读文章的你，可能还用不了这项功能，但你可以根据文档中的要求自查一下，或许某一天幸运就悄悄的降临了呢！

最后，可能算不上剧透，在 Gemini In Chrome 的回答中，经常会询问：“需要我帮你直接回复评论吗？需要我帮你填入吗？需要我帮你添加到日历中吗？”，据此，我们或许可以期待一下，真正的 Computer Use 的到来。

还有一种语音交互形态，本文未曾提及，也就是 Live mode 我个人还是不太习惯对着电脑哇啦哇啦的讲，尤其我那些尴尬的 prompt，不足为外人道也。