被重复工作逼疯的打工人,终于等来了能自己干活的“ai浏览器代理”

小编头像

小编

管理员

发布于:2026年04月20日

5 阅读 · 0 评论

上个礼拜三下午,我又双叒叕陷入了那种“眼睛盯着屏幕,脑子已经转不动”的状态。

手头压着三件事:要把上个季度的竞品数据整理成表格,得去五个不同平台扒拉人家的定价和功能;要填一堆烦人的报销单,每个系统账号密码都不一样;还要抽空订下个月去出差的机票酒店。浏览器开了二十多个标签页,电脑风扇嗡嗡响得跟要起飞似的。我端着咖啡靠在椅背上,心里头只有一个念头:

这踏马能不能有个东西替我干啊?

结果你猜怎么着?还真有。

这礼拜我狠下心来折腾了一下最近圈里都在聊的“ai浏览器代理”,试了试美团光年之外刚公测的Tabbit,还有开源的BrowserOS。怎么说呢,那种感觉吧,就有点像你雇了个脑子不太好使但手脚贼勤快的实习生——

你只要把话说明白,他真能颠颠儿地跑去给你把所有脏活累活全干了。 -1-8

从“我自己干”到“你替我干”,这不只是爽

我以前觉得,所谓的AI浏览器顶多就是个高级点的框,我问你答,顶多帮我总结总结网页。但我发现我格局小了。现在的 ai浏览器代理,它已经不是光动嘴皮子了,它是真动手

我就拿那个Tabbit举例子啊。这玩意儿是美团那边搞出来的,今年3月刚公测 -1。我试了试让它帮我做个市场调研,就是看看最近各家大模型API降价降成啥样了。以前我自己咋干?打开Google,搜“GPT-4o价格”、“DeepSeek-V3价格”,然后挨个点进网页,找到定价页,复制粘贴到Excel里。累不累?烦不烦?

现在呢?我在Tabbit那个“全能输入框”里直接敲:“给我把GPT-4o和DeepSeek-V3每百万token的价格整成个表格,顺便看看谁的上下文窗口大。” -1

然后我就把窗口切到旁边刷手机去了。没一会儿,我眼睁睁看着这浏览器自己动起来了:它自己打开引擎,自己点进OpenAI的官网,自己在那找定价页面,甚至自己在那滚动鼠标滑轮往下翻 -8。我当时那表情就跟见了鬼似的,这玩意儿怎么比我还会用电脑? 更搞笑的是,它中间卡在一个需要登录的页面上,愣了两秒,然后又在对话框里问我:“需要登录才能查看详情,要不要接着搞?”

那一刻我真是哭笑不得。这哪里还是个浏览器啊,这分明就是个坐在我对面工位、帮我干活的同事啊!虽然有时候脑子轴了点,但那股子“你不喊停我就继续干”的傻劲儿,还挺招人稀罕的。

我这暴脾气,还真被它治愈了

我这人有个毛病,特别烦填表。不管是OA系统的报销单,还是电商后台的商品上架,那些密密麻麻的文本框看着就头疼,填错一个还得倒回去找,尴尬得要死

用上这个ai浏览器代理之后,我算是彻底解脱了。我看网上教程说,这东西能自动填表单,甚至能跨系统流转数据 -7。我试了试那个开源的BrowserOS,让它去某个购物网站上找一件黑色T恤加进购物车 -5。这家伙真就一步一步操作:输入网址、输入账号密码登录、找到T恤点详情、加到购物车。整个流程行云流水,比我这老眼昏花的找得都快。

我现在最常用的场景啥呢?写周报!每周五下午要交周报,我得从飞书、钉钉、Gitlab、还有那个破Jira里到处翻我这周干了啥。现在我用Tabbit的“妙招”功能,把这几个网址和“提取我本周完成的任务”这个指令存成了一个快捷方式 -7。每到周五,我只要敲个“/周报”,它自己就去那几个系统里扒拉信息,然后给我吐出来一个条理清楚的草稿。

这哪是浏览器啊,这踏马是我的“赛博打工人”啊!

别把这玩意儿想得太神,它也有犯傻的时候

不过话说回来,这东西也没那么完美。有时候你指令给得稍微模糊点,它就开始给你表演“原地转圈”。比如我让它“帮我看看机票”,它真就只看看,也不告诉我从哪到哪,啥时候的。所以现在我学乖了,跟它说话得像吩咐刚来的实习生一样,把话掰碎了说:“帮我查下下周一从北京到上海的往返机票,要东航的,价格截图给我。”

另外,我这人有点强迫症,看它在那自动操作,总想上手去抢鼠标。有两次它点错了地方,我那个急啊,差点一巴掌把电脑拍死。后来我琢磨明白了,这东西就是个工具,你得学会“放手”。你把任务交给它,该摸鱼摸鱼,该喝咖啡喝咖啡,等它搞不定喊你的时候你再上 -2你要是一直盯着它干活,那比你自己干还累!

还有个事儿,就是这玩意儿现在卷得厉害。OpenAI出了个Atlas,Opera搞了个Neon,国内还有Tabbit,免费开源的有BrowserOS -4-10-8。眼花缭乱。我反正是哪个免费用哪个,现阶段谁也别想从我兜里掏钱。你们这些大厂不是打架吗?打呗!我们用户正好趁这机会白嫖,多爽!

用了这几天,我最大的感受就是:咱打工人被这些重复、枯燥的“脏活累活”绑架太久了。现在终于有了能替咱们干活的工具,哪怕它偶尔犯点小错,偶尔理解不了人话,但这种“把时间还给自己”的感觉,真踏马好。

下班前,我泡了杯茶,看着Tabbit在那替我填周报,我就在旁边刷着手机看八卦。夕阳照在屏幕上,我第一次觉得,这班上的,好像也没那么苦大仇深了。


好了,我跟这玩意儿的故事就唠到这儿。我知道看这篇文章的各位,有的可能是技术大神,有的可能是跟我一样被重复工作折磨的普通打工人。关于这个“ai浏览器代理”,我估摸着你们心里肯定有不少问题。我在几个群里也瞅了瞅,挑了三个问得最多的,咱们一起聊聊。

网友“搬砖的小松鼠”问:

这玩意儿看起来挺高大上,但对我这种电脑都不太会用的“小白”友好吗?会不会设置起来特别麻烦,最后没省事儿反而更费劲?

我的回答:
兄弟,你这问题问到点子上了!我一开始也怕这个,我这人最烦看说明书。但我跟你掏心窝子说,现在这些工具,尤其是国内这些团队做的,已经挺“傻瓜”了。

我拿Tabbit举例啊,它就跟装个QQ似的,下载、安装、下一步完事儿。不用你敲一行代码,也不用你设置什么乱七八糟的环境变量 -1。装好后,它就跟你现在用的浏览器长得差不多,顶多侧边多了个输入框。

你咋用?就像你平时跟你同事聊天一样,用大白话吩咐它。比如你想让它帮你订机票,你就直接在对话框里打字:“帮我订下周二从深圳去杭州的机票,要便宜点儿的。”它听不懂?它听得懂!它要是遇到拿不准的,比如有两个航班价格差不多,它会问你“选哪个”,你点一下就行 -7

你要是实在懒得打字,它那输入框还能识别你当前打开的网页、你截的图,甚至你收藏夹里的东西 -1。你就把它当成一个“长在你浏览器里的实习生”,这实习生虽然刚来,但手脚麻利,你只要别给它说文言文,用最土的大白话吩咐,它绝对比你自己跑腿强。别怕,整就完了!

网友“代码敲不完”问:

我是做开发的,比较关心技术实现。我看到Browser Use这种框架,也看到Tabbit这种集成产品。它们本质上有什么区别?我们自己能不能在现有Chrome基础上“拼”出这种能力?

我的回答:
嘿,你这问题一看就是懂行的。我最近也瞎研究了一下,跟你分享分享我的看法。

你说的Browser Use,它其实更像是一个“发动机”或者“骨架”,是一个底层的Python框架,专门为了让AI能控制浏览器设计的 -2-5。开发者可以用它来造车。而Tabbit或者BrowserOS这些,它们就是造好的“整车”,你直接上去开就行 -1-8

至于能不能在Chrome上“拼”出来?理论上可以!现在很多AI浏览器代理的核心逻辑,就是把一个大语言模型(比如DeepSeek、GPT-4o)跟一个能控制浏览器的“手”连起来。这个“手”能看见网页上的按钮在哪儿(通过看HTML代码,甚至看图),然后决定先点哪儿、再输入什么 -10

你想啊,现在有些浏览器插件其实已经有点这个意思了。但要拼出个完整的、好用的,难点在于“稳不稳”。自己拼的容易遇到那种情况:AI脑子一抽,点错了地方,或者网页稍微变个样它就找不着北了。而那些专门的AI浏览器,它们做了很多优化,比如能记录你的操作习惯,遇到错误能自己试着挽回,还能在一个地方把好几个大模型的能力整合起来给你用 -1-2。所以,折腾着玩可以自己拼,真想省心干活,还是用人家调教好的整车吧!

网友“躺平发育”问:

我看你说它能自己填表单、自己登录账号。我的账号密码都在里面,这安全吗?会不会我让它订个票,结果它把我银行卡信息给泄露出去了?

我的回答:
(先叹口气)嗐,这个问题,说实话,是所有想用这玩意儿的人心里最大的一块石头,也是我自己到现在还在嘀咕的。

我跟你说,但凡涉及钱和敏感信息,千万别撒手! 现在的AI浏览器代理在设计的时候,也想到这点了。很多都有“人工确认”这道坎。比如那个Browser Use的教程里就专门强调,涉及到结账、提交订单这种关键步骤,一定要设个“需要人类点头”的检查点 -2。也就是说,它帮你把购物车装满,把地址填好,到最后一步付款了,它必须得喊你:“老板,输密码!”

另外,现在这些大厂出的东西,像美团、Opera、OpenAI,它们在隐私方面肯定会有所顾忌,不敢瞎搞 -10。比如Opera那个Neon,它说处理某些任务是在你电脑本地完成的,不把数据传回服务器,就是为了保护隐私 -10

但说一千道一万,我的建议是:你把它当个干杂活的助手,别当管钱的管家。 像查资料、比价格、填周报、整理数据这些不涉及核心机密的,放心大胆交给它。但如果涉及到银行卡密码、身份证照片,或者需要你支付确认的,必须自己亲自上。咱们可以懒,但不能傻,对吧?这跟咱在网上任何一个地方保护自己信息是一个道理,多留个心眼总没错。

标签:

相关阅读