说真的,咱们先来想一个有点意思的事儿。如果你家孩子天天泡在网上,看的净是些乱七八糟的东西,你是不是得操碎了心?担心他学坏,担心他被带偏。其实吧,现在的顶级人工智能,比如那个火遍全球的ChatGPT,它的情况也差不多。它那“聪明的大脑”可不是凭空变出来的,是靠“吃”海量的网络数据“喂”大的。那么问题来了,网上啥都有,要是它“吃”进去的“粮食”本身就不干净,它会不会也跟着“学坏”呢?或者说,这会不会影响它跟我们好好说话?
这事儿啊,还真不是瞎操心。最近就有一些顶尖大学的研究团队,专门去“检查”了ChatGPT的“词汇库”。你猜怎么着?结果有点让人吃惊。他们发现,在一些版本的ChatGPT里,中文词汇表里有将近一半的词汇,都或多或少有点“问题”。这些词不是什么正经八百的日常用语,而是一些涉及成人内容、在线赌博,或者奇奇怪怪的网络用语。
想想看,这感觉就像一本教人说话写字的字典里,混进了一堆不该出现的词儿。虽然字典本身可能没坏心眼,但用这本字典学习的人,难免会接触到这些词,甚至可能产生误解。对AI来说,也是一样的道理。
那么,这些“脏数据”是怎么混进去的呢?
这事儿,说来也简单。ChatGPT这类大模型的“启蒙老师”,是一个超级庞大的网络文本库,可以把它想象成一个巨大的、没有分类的“互联网档案馆”。这里面当然有维基百科
