为什么AI本质上就是个“压缩机”?

2025-4-25 11:34| 发布者: 互联网| 查看: 41| 评论: 0|来自: 第一财经

摘要: 谷歌最近发了篇论文,重申了一个来自信息论的观点——“压缩即智能”。当然,论文的新意,在于通过对“压缩率”的定义并提出相关计算方法,从而可以尝试对“压缩即智能”给出一个定量的解释,并将其与人工智能大模型 ...

谷歌最近发了篇论文,重申了一个来自信息论的观点——“压缩即智能”。当然,论文的新意,在于通过对“压缩率”的定义并提出相关计算方法,从而可以尝试对“压缩即智能”给出一个定量的解释,并将其与人工智能大模型联系起来。

所谓“压缩”,全称当然是“数据压缩”。正如一本写得相当生动有趣的普及读物《数据压缩入门》所指出的:

“我们需要知道这样一件事:我们当下生活在其中的这个计算世界,完全建立在数据压缩算法之上。

是的,每个部分都是如此。

每个网页、每个图像、每首歌、每个关于猫的视频、每部流媒体网络电影、每张自拍照、每次电子游戏下载、每个微型交易,甚至是操作系统的每次更新,所有这一切都得益于压缩算法。事实上,哪怕只是想通过互联网传输一个二进制位的数据,也离不开压缩的内容。

数据压缩技术最让人惊异之处在于,它与过去40年里个人计算的很多重大改变有关,但很少有人知道这一点。”

信息论创始人克劳德·香农在为传输信息进行压缩编码的过程中,意识到这种压缩是有一个极限阈值的,超过这个阈值,被压缩编码的信息就无法通过解码,复原为原始信息了,而是有相当一部分信息就此被损失掉,比如作为“有损压缩”的MP3音乐格式,听上去效果就要比CD差不少。这个阈值被命名为“香农熵”。相应地,“无损压缩”就是压缩率控制在“香农熵”以下,比如解码后可以比较好地恢复到CD音质的APE、FLAC等格式。所有的现代压缩算法,可以说都是在顽强地与“香农熵”作斗争,希望开发出以尽可能高的压缩率来“高保真”地保存、传输和复制信息的技术。

但其实数据压缩远不只是算法问题,而是涉及人类对世界根本的认知方式。

我们且撇开数据压缩算法中的数学原理,单就“压缩即智能”这一观点,其实和我在某篇机器学笔记里所说的“模型即智能”,完全是等价的,因为所谓模型,就是给无限变量的复杂世界建一个有限变量的模,通过被大大压缩的变量数量,及其相互作用的结构,来有效模拟复杂世界在某一特定时空中的运作模式(用本届诺奖得主杰弗里·辛顿的术语来说,就叫做“泛化”,即通过少量已知数据准确预知大量未知数据),从而让我们可以作出预测和决策。

事实上,所有的科学公式都不外乎是一种模型,因此也不外乎是一种数据压缩方式。模型总是只能在一定时空中起作用,哪怕它是牛顿定律,因为模型对数据的压缩根本来说总是为了拟合眼前的“事实”——这正是“实验科学”的本质。更高的压缩率一般意味着更好的模型,也就意味着更高的智能,就好比万有引力定律对近代的观测宇宙有最高的压缩率(也就是用最精炼的公式定义了这一宇宙的运作方式),因此牛顿不仅比绝大多数人,而且比绝大多数科学家有更高的智能。

为什么我们可以说“压缩即智能”或“模型即智能”?因为压缩变量数据或者建模,就意味着“主动”地挑选出一部分被认为是关键的变量,而舍弃绝大多数被认为是冗余的信息,来为这个看上去无比复杂的世界建模,这种认知的“主动性”、这种应对世界的“主动性”——而不是像(我们所以为的)石头那样被动接受一切——不正是当我们谈及“智能”的时候,真正让我们感觉make sense的东西吗?

并且智能和学习能力高度相关。什么是学习?无论人的学习还是机器学习,本质不都是学习用建立在有限数据集基础上的模型去应对这个无限世界,并在应对的过程中根据反馈不断调整以至迭代模型吗?所以“学习即智能”很大程度上也与“压缩即智能”等价,人工智能大语言模型,正如“GPT之父”伊尔亚·苏茨克维多次强调的,本质上就是个效率极高的数据压缩机。

《数据压缩入门》

[美]柯尔特·麦克安利斯 亚历克斯·海奇 著

人民邮电出版社2020年3月版


鲜花

握手

雷人

路过

鸡蛋