现在 AI 的大语言模型最初起源自 Transformer, 提出的一种注意力机制,其实最早是用于翻译领域的
翻译,大家可以看作是一个符号空间根据一定的规则映射到另一个符号空间,比如从中文的词库映射到英文词库上去。大语言模型的翻译方法本质就是进行猜测,比如“中”后面大概率会是出现“间”,“国”,“部”,中间映射为英文就是 middle,中国映射为英文就是 China,诸如此类
这个过程它不关心语法关系,默认认为只要训练集足够大,语法关系就已经体现在预测中了。扩大一些,那就变成了一种检索能力,即提一个问题,这个问题映射的最可能的字符串会是什么,你要说这个过程是不是推理,应该是和推理关系不大,当然,现在有人在试图在其中加入所谓推理的逻辑链,但是这都是人定义的,基于语言描述的,本身也是一种字符串的统计和预测,和严谨的逻辑推理和判断还是有很大差别的,所以我认为,用在翻译和客服上还可以,但是不要把它当成一种知识库,否则可能会被灌了很多屎而不自知
现在流行的 AI 主要集中在图像和文字处理上,为什么? 这些数据其实都具有同一个特点,就是规则复杂多样,表象众多繁杂,而他们的数据本质是稀疏低秩的,也即是有可能对他们进行非常高压缩率的压缩,同时利用贝叶斯概率对训练集进行训练预判的权重,这样,你给一个信息,它就可以输出一个信息,这个信息就是预测出来的
预测不准有没有关系?没有关系,因为你对图像和文本不会有很高的要求对吧?
但是数据处理就不会这么低要求了,比如 3.1415926, 你如果搞错了一位,可能累积误差就大了去了,包括逻辑判决, 3.9 和 3.11 哪个大,如果判断错了,那就进入完全不同甚至相反的分支了
AI 算法本来非常多,每个算法解决不同的问题,不存在一个银弹,解决所有问题
你要针对不同问题进行具体分析,可不要囫囵吞枣,啥啥分不清楚,混淆一起,那是儒家特征,完全不懂何为格物,何为致知
.