说到底,人工智能就是想让机器模仿甚至超越人类的某些智能行为。那人类的智能体现在哪儿呢?简单说,无非是“能看、能听、能说、能思考、能行动”。所以,AI技术的大分类,基本也是围着这几个能力转的。
为了让你有个更直观的印象,咱们先看个简单的对比表,看看人类能力和对应的AI技术大概是怎么对应的:
| 人类核心能力 | AI主要模仿的技术方向 | 你身边常见的例子 |
|---|---|---|
| :--- | :--- | :--- |
| 视觉(看) | 计算机视觉(CV) | 手机人脸解锁、美颜相机、停车场车牌识别 |
| 听觉(听)&语言(说) | 语音技术&自然语言处理(NLP) | 智能音箱(小度、天猫精灵)、微信语音转文字、Siri |
| 学习与思考(想) | 机器学习(ML)/深度学习(DL) | 购物APP的“猜你喜欢”、短视频平台的推荐算法 |
| 行动与决策(做) | 机器人技术&强化学习 | 扫地机器人、工厂里的机械臂、自动驾驶汽车 |
怎么样,是不是感觉亲切多了?原来我们早就在用AI了。下面,咱们就一个个拆开,仔细聊聊。
这部分技术主要负责从物理世界获取信息,就像给机器装上了感官。
1. 计算机视觉:让机器“看懂”世界
这是AI的“眼睛”。它的目标是让计算机能像人一样,识别、理解和处理图像和视频。
*图像识别:这是最基础的。比如,你上传一张猫的照片到社交平台,它能自动给你打上“猫咪”的标签。
*人脸识别:这个大家太熟了,手机解锁、支付验证、甚至一些景区入园都用它。它的核心是找到人脸并确认这是谁。
*目标检测:不仅要认出是什么,还要知道它在哪儿。比如自动驾驶汽车,需要同时检测出前方的车辆、行人、红绿灯都在什么位置。
*图像生成:哎,这个近几年火得不得了。就是根据一段文字描述,让AI“画”出一幅画来。你肯定听说过Stable Diffusion、Midjourney这些名字吧?它们就是干这个的。
2. 语音技术:让机器“听清”和“说话”
这是AI的“耳朵”和“嘴巴”。它又主要分两块:
*语音识别:把你说的话变成文字。你微信里发的语音转文字,开会用的录音转写工具,靠的都是它。它的难点在于要克服口音、背景噪音这些干扰。
*语音合成:把文字变成听起来自然的语音。地图导航里的播报、有声书朗读,很多都是合成的。现在技术好了,有些合成的声音你几乎听不出是机器。
聊到“听”和“说”,就自然引出了一个更复杂的问题:机器怎么理解我们说的话呢?这就进入了下一个大领域。
自然语言处理,简称NLP,这是让AI具备“语言智能”的关键。它处理的是文字(文本)信息,目标不仅是看懂字面意思,还要理解背后的意图、情感。
这里我得停下来问自己一个问题,可能也是你正想问的:“自然语言处理和前面说的语音技术,还有后面要说的机器学习,它们到底是什么关系?会不会很乱?”
嗯,这是个好问题。咱们这么理解:
*语音技术是前台接待员,负责把声音信号和文字信号互相转换。
*NLP是办公室里的文员,专门处理已经变成文字的内容,进行分析、理解、撰写。
*而机器学习呢,是给这位文员进行岗前培训、让她变得更聪明的方法论。
所以,NLP具体做什么呢?
*机器翻译:像百度翻译、谷歌翻译,能把一种语言自动转换成另一种语言。
*情感分析:分析一段评论是好评还是差评。这对企业监控品牌口碑特别有用。
*智能问答与聊天机器人:比如一些客服机器人,或者……没错,就像你现在正在对话的“我”。我们能对话的基础,就是NLP技术。
*文本摘要:自动把一篇长文章浓缩成几百字的要点,帮你快速获取信息。
*文本生成:这个现在特别热。给定一个开头或者主题,AI能帮你续写文章、写邮件、甚至写代码。ChatGPT、文心一言这类大语言模型,最惊艳的能力之一就是文本生成。
说到大语言模型和生成能力,就不得不提支撑它们的、更底层、更核心的技术了。
前面说的所有“能力”,无论是看、听还是理解语言,背后几乎都离不开一套共同的方法——机器学习。你可以把它理解为AI的“学习方法论”。
机器学习的核心思想是:不直接给机器编好死规则,而是给它大量数据和一个学习目标,让它自己从数据里找出规律来。就像教小孩认猫,不是告诉他“猫有胡子、三角耳”,而是给他看一万张猫的图片,他自己就能总结出猫的特征。
机器学习里又有很多分支,最重要的一个是深度学习。
*深度学习:你可以把它想象成机器学习里一种特别强大、但结构也更复杂的“学习方法”。它模仿人脑的神经元网络,构建了多层的“神经网络”。正是深度学习的突破,才让计算机视觉、语音识别、NLP这些领域在近十年取得了飞跃式发展。它现在是AI领域的主流工具,甚至很多人一提到AI,脑子里想的就是深度学习模型。
在机器学习里,还有一种很有趣的学习方式叫强化学习。它的思路不一样:让AI像玩游戏一样,通过不断“试错”和“奖励”来学习最佳策略。比如训练一个AI玩围棋,它自己跟自己下几百万盘,赢了就奖励,输了就惩罚,最后就学会了高超的棋艺。AlphaGo打败人类棋手,强化学习立了大功。自动驾驶汽车在模拟环境中学习如何安全行驶,也用到了这个思路。
聊了这么多,你可能感觉信息量有点大。没关系,这些东西本来就不是一下子能消化完的。我的看法是,作为新手,你不用去深究每一个算法的数学公式(那是科学家和工程师的事),但建立起这样一个“感知-理解-学习-行动”的技术框架认知,非常重要。
这就像你有了一个地图,知道AI这个王国里有哪些主要城市(计算机视觉、NLP),以及连接这些城市的交通要道(机器学习)。下次再听到什么“大模型”、“AIGC”、“自动驾驶”这些热词,你就能大概知道它属于地图上的哪个区域,在解决“看”、“听”、“想”、“做”里面的哪个问题。
AI没有那么神秘,它就是一整套试图模仿和延伸我们人类自身能力的工具集。现在,你对这个工具集的概貌,是不是稍微清晰一点了?
