当随时随地可以唤起AI助手,我偷了多少懒——从 Gemini In Chrome 说起

在阅读该文章之前,请了解 NVDA 中文社区发起的翻译插件众筹项目

或许有了你的参与,就可以让这个项目成为可能。如需了解项目详情及参与方式请访问: https://nvdacn.com/index.php/archives/1483/


面对又臭又长的技术文档、GitHub 上几百层楼的激辩(Issue Comments),还有那些永远回不完的邮件 Threads,你曾经是如何在信息的汪洋大海中“大浪淘沙”的?

网页上的数据零零散散,难道只能靠无数次切换窗口,机械地复制粘贴来汇总成表?

还记得 BBS 时代那个拯救了无数人的“只看楼主”和“脱水阅读”功能吗?

还有那些让人哭笑不得的“机翻”事故:把 "Spring Boot" 翻译成 "弹簧靴",把 "Driver" 翻译成 "司机",看着这些不知所云的文字,你浪费了多少脑细胞去猜谜?

当遇到晦涩难懂的新技术名词,除了无奈地 Ctrl+T 新开标签页去搜索,打断原本流畅的阅读思路,还有别的办法吗?

更别提那些排版混乱的网页,对于像我这样依赖屏幕阅读器的用户来说,多少次因为找不到焦点、听不懂逻辑而想“疯狂砸键盘”。

有了 Gemini In Chrome,上面这些曾经让我头大的问题,似乎一夜之间就发生了改变。

什么是 Gemini In Chrome?

这是一项Chrome浏览器内置功能,它会利用打开的标签页作为上下文,可以更准确地提供回答。比如汇总摘要、澄清新概念、翻译网页等。这不同于直接访问网页版或在地址栏输入 @gemini。它更像是一个随时待命的 AI 助理,当你需要的时候它就在那里。

Chrome 浏览器上的 Gemini 入口

作为一名码农,同时也是一名依赖屏幕阅读器的重度用户,我对工具的“效率”极其敏感。Gemini In Chrome 并不是简单的在浏览器里加个聊天框,它通过侧边栏(Side Panel)的形态,似乎悄悄地融入了我的工作流。

在分享具体的使用场景前,我想先聊聊它最基础、但也是最重要的交互逻辑——Alt + G

核心交互:Alt + G 与焦点保留

对于键盘用户和读屏用户来说,频繁在标签页/窗口之间切换,往往意味着焦点的丢失和思路的断层。但 Gemini In Chrome 的体验非常连贯:

  1. 一键唤起:在浏览任意网页时,按下 Alt + G,侧边栏滑出,焦点自动进入输入框,我可以立刻提问。
  2. 无缝返回:问完问题,再次按下 Alt + G,焦点直接跳回网页。
  3. 阅读进度保持:这是最关键的细节——当我切回网页时,NVDA的浏览模式焦点依然停留在刚才阅读的段落,而不是跳回页面顶部。

这种“呼之即来,挥之即去”且不打断阅读进度的体验,是我愿意高频使用该功能的前提。

正在使用 Gemini In Chrome 功能总结其官方文档页面

1. 长篇累牍的终结:智能摘要与关键信息提取

痛点:
在 GitHub Issue 或长篇技术文档中,为了找到一个解决方案或最终结论,我需要在数百条评论中不断跳转标题(H键),还得在大段的争论中筛选有效信息。

Gemini 的解法:
现在,我只需呼出面板,输入:“总结这个页面的核心争议点,并列出最终被采纳的解决方案。

Gemini 会直接读取当前标签页的内容上下文。它不是简单地截取前两段,而是通过语义分析告诉我:用户 A 提出了什么问题,最终 Maintainer 在某条评论给出了最终采纳的,什么方案。这省去了我几百次的键盘操作,直接获取结果。

2. 告别复制粘贴:非结构化数据的瞬间结构化

痛点:
网页上经常散落着我们需要的数据,比如电商页面的产品参数,或者技术博客中的方案对比。以前想要将这些数据保存下来,往往需要手动建立表格,反复 Alt + Tab 切换窗口进行复制粘贴,效率极低。

Gemini 的解法:
停留在该页面,我告诉 Gemini:“请基于当前页面内容,帮我整理出一张表格,包含产品名称、价格、核心参数,并以 Markdown 格式输出。

几秒钟后,一张标准的表格就生成了。Markdown 对于技术人员和读屏软件都非常友好,渲染后我可以轻松导航读取,或者直接将其复制到笔记软件中,导入到 Google 生态的应用中。将“非结构化文本”瞬间转化为“结构化数据”,这是生产力的一大提升。

3. 复刻 BBS 时代的“脱水阅读”:语义级降噪

痛点:
现代网页充斥着广告、侧边栏推荐、页眉页脚的无关链接。对于屏幕阅读器用户,我们可能需要听完大量“噪音”才能接触到正文。这让人怀念以前 BBS 客户端的“脱水模式”或“只看楼主”。

Gemini 的解法:
在浏览充满干扰项的新闻或论坛时,我会输入指令:“只保留正文逻辑,告诉我这件事的来龙去脉,忽略所有广告和无关评论。

Gemini 此时充当了一个语义过滤器。它直接提取核心内容并重新组织语言,屏蔽了页面上的 DOM 噪音。这比浏览器自带的“阅读模式”更进一步,因为我可以对“脱水”后的内容进行追问。

4. 拒绝生硬机翻:基于技术语境的深度翻译

痛点:
传统的网页翻译往往是字面对应的。例如把 "Driver" 翻译成 "司机",或者在技术文档中把 "Run this function" 翻译成 "跑这个功能",不仅怪异,甚至会产生误导。

Gemini 的解法:
现在的翻译可以基于上下文。我可以询问 Gemini:“请结合技术文档的语境翻译这段话。

Gemini 不仅能给出准确的翻译,还会解释诸如 "K8s"这类术语的实际含义。这种带有注释的翻译,让阅读外文技术资料变得更加通顺。

5. 沉浸式概念查询:不再多开标签页

痛点:
阅读文章时遇到新概念(例如 "Vector Database"),以前的做法是 Ctrl + T 新开标签页搜索,阅读完再关掉。这个过程非常打断心流,对于读屏用户,管理大量标签页也是一种负担。

Gemini 的解法:
我只需要 Alt + G 切换焦点问:“这一段提到的 Vector Database 是什么?请用我奶奶都能听得懂的比喻解释。

Gemini 会在侧边栏直接给出解释。阅读完毕后,再次按下 Alt + G 回到文章继续阅读。

6. 重塑信息呈现:应对混乱排版的“神器”

痛点:
很多网页排版混乱,或者是动态加载的 <div> 堆叠,没有清晰的标题层级(Heading Structure)。读屏软件只能按 DOM 顺序朗读,用户很难建立起页面的空间概念,经常陷入“我是谁?我在哪?”的困惑。

Gemini 的解法:
Gemini In Chrome 在这里起到了无障碍重构的作用。

当我遇到一个结构混乱的网页,我会问 Gemini:“描述这个网页的视觉布局和主要功能区。如果是表单,帮我检查有哪些字段漏填了?

Gemini 能够理解页面结构,它能把一个无障碍支持较差的网页,转化为逻辑清晰的文字描述。它不再只是呈现页面信息,而是在解释界面,帮我快速建立起对页面的整体认知。

小结

Gemini In Chrome 带来的改变,本质上是信息处理权的转移。通过 Alt + G 这个简单的入口,我们将处理杂乱信息、筛选噪音、翻译语境的工作交给了 AI,而让自己专注于阅读和决策本身。无论你是屏幕阅读器用户还是普通用户,这种从“繁琐操作”中偷懒出来的精力,才是最宝贵的资源。

不过有一点需要说明: 根据 Google 官方文档,Gemini In Chrome 是一项逐步开放的功能,所以,正在读文章的你,可能还用不了这项功能,但你可以根据文档中的要求自查一下,或许某一天幸运就悄悄的降临了呢!

最后,可能算不上剧透,在 Gemini In Chrome 的回答中,经常会询问:“需要我帮你直接回复评论吗?需要我帮你填入吗?需要我帮你添加到日历中吗?”,据此,我们或许可以期待一下,真正的 Computer Use 的到来。

还有一种语音交互形态,本文未曾提及,也就是 Live mode 我个人还是不太习惯对着电脑哇啦哇啦的讲,尤其我那些尴尬的 prompt,不足为外人道也。

标签: Gemini In Chrome, Gemini, 浏览器, 效率, AI

添加新评论