不知道你有没有想过这样一个问题——ChatGPT这样的AI,到底是怎么“吃饭”的?它既没有嘴巴,也没有肠胃,却似乎“吃”下了海量的知识,还能跟你聊哲学、写代码、编故事。今天,咱们就来好好扒一扒,这个看不见摸不着的智能体,它的“一日三餐”到底是怎么解决的。
首先得明确一点,ChatGPT的“饭”,可不是我们吃的米饭面条。它的食物是数据,而且是结构化的文本数据。这些数据来自互联网上公开的网页、书籍、文章、论坛讨论、代码仓库等等。想象一下,如果把整个互联网比作一个超级大食堂,那么ChatGPT就是在里面自助取餐的“大胃王”。
等等,这里你可能要问了:它怎么知道哪些“食物”有营养,哪些是“垃圾食品”呢?好问题。其实在“烹饪”(也就是训练)之前,研发团队会对数据进行清洗和筛选。比如,去掉重复内容、过滤低质量文本、剔除有害信息……这个过程,有点像我们买菜后要择菜、洗菜。
为了更直观地理解它的“食谱”,我们可以看看下面这个表格,它展示了ChatGPT主要的数据“食材”构成:
| 数据类别 | 具体来源举例 | 在“饮食”中的作用 | 占比(估算) |
| :--- | :--- | :--- | :--- |
|网页内容| 维基百科
