
作者:杨乃悟
乃悟日常生活中经常会用AI,看到舆论说这玩意儿能替代人我就想笑,给大家举个很简单的严肃应用场景,我让AI给我分析一下某上市公司的年报,它像模像样地给我分析半天,我留了个心眼在搜索引擎里查了一下,这家公司当时还没发年报呢……
是,我指出之后AI认错了,但下次我问同样问题它还是会错。
这种问题有时候可以怪那些故意污染AI的人,比如2024年3月,瑞典哥德堡大学的一名医学研究员闲着没事儿干,编造了两篇医学论文,详细描述了一种叫做蓝光狂躁症的病症。
整个论文看起来像模像样,什么症状、致病原因,甚至还有流行病学调查,多少人患病的数据等等。
写完之后,她还把这两篇论文上传到了预印本平台。这种东西拿给人看,基本都能一眼看出来。因为她写的作者单位是:
星际舰队学院。
有意思的是,包括ChatGPT、Gemini等一众主流AI全部采信了她的论文,并一本正经地告诉用户你得了蓝光狂躁症,赶紧就医。
大语言模型从原理上就是个接收器,你输入啥,它就输出啥,无法分辨内容是否真实。
甚至你都不用输入虚假信息,AI就会乱编,也就是大家说的产生幻觉。比如刚才说的,连上市公司年报都敢自己编,亿万股民肯定盼着它们上岗呢。
为什么AI会自己编呢?因为AI在被调教时,倾向于为用户带来帮助。不管对不对,先给个答案再说,这就是幻觉的来源。
这就是Agent诞生的原因,程序员希望Agent帮助AI像人一样,认真去检索这些资料,甚至交叉对比、核验。
举个例子,同样的年报问题,没有Agent的AI直接搜索发现没有媒体报道,然后就胡编乱造一通,而有Agent的AI则不一样,它会像人一样去上市公司信息披露网站翻年报,如果没找到,它会直接告诉你对不起,没找到。
现在美国那边Grok、Claude等AI都有Agent模式,国内也有如Kimi等AI装有Agent,但收取会员费。
前一段龙虾爆火后,乃悟观察到一个很有意思的细节。简单介绍下,龙虾相当于一个有超级权限的Agent,用户玩它的时候需要给它装一些“APP”或者叫Skill(技能)。
在龙虾市场里,有两三万个不同功能的APP,有的可以帮你自动发朋友圈,有的能帮你监控网页,即时了解新闻热点,有的还可以自动编程。
刚才说了,搜索是AI最重要的功能起点,相当于它的眼睛和大脑,那么大家一起来猜一下,龙虾用户安装最多的Skill是什么?
你们一定想不到,是:
百度搜索 Skill
我当时看到这个结果的时候,怎么说呢,平时又打又骂的孩子你们怎么又抱上了?!
为啥这些游走在AI前沿的用户都要装百度搜索Skill呢,愿意很简单,百度搜索AI的准确率是国内最高的。
今天的百度万象大会上,百度详细介绍了百度AI在引入Agent能力后的变化。首先是有了两个Agent,可以更深入查找资料,还能交叉验证,相互独立搜索,对比,大大降低了AI胡编乱造或者信息的虚假性。
除了这些,还因为百度有个拳头产品:
百度百科。
对于所有想污染信息的人来说,百度百科绝对是他们的严父。现在的百科,所有词条必须标注权威引用源,自媒体和UGC内容都无法进入,而且是先发后审。
特别是科学类相关词条,百度联合国科大等学术机构,对20多万科学词条进行了审定,覆盖100%的自然科学领域词条。
乃悟前段时间听人大教授宋瞳讲明史。宋教授在讲到史料的选择上时说,如果大家不是专业研究历史,只是要了解的话,最好的史料就是:
百度百科。
百度百科里甚至能看到很多压根没有出版和刊印的孤本。比如明代许士德的《戎车日记》等等。
果壳网曾经做过实验。他们找来8家主流AI,用2000道测试题的双盲测试显示,发现,在接⼊百度百科作为参考信源后,AI综合准确度平均提升38%以上,关键事实偏离率从26.4%骤降至4.1%以内,专家认可度高达:
91.5%。
交叉验证、深度搜索、权威信源,除了这些之外,百度还最后加了一道锁链,就是系统的秒级巡查和纠错,在发现有问题后,会有人工介入干预。不再像以前一样,同一个问题,第一次回答错误。一个月后再问,还是错误回答。
当然,还不只是严谨,因为agent存在,AI能更好理解用户的需求。比如你问他月球的问题,它会生成可以移动的月球模型给你观看。你问它黄河的知识,它会生成黄河流经过的城市,带你一个个看过去……
这就超脱了过去AI问啥答啥的呆板,变成开始主动理解用户需求的小机灵鬼。
我一点也不怀疑这些用户数据是百度刷的,因为用龙虾的人很可能会让龙虾帮自己研究欧洲顶级联赛,然后下注,历史数据,球队信息那是一点也不能错的,别说AI给他们瞎编了,那可是真金白银的游戏,什么好用,什么不好用,大家的钱包门清呢。
(图片来自机器之心)