石锋:语言之谜——来自人工智能的挑战

石锋:语言之谜——来自人工智能的挑战

文章图片



石锋 , 南开大学荣休教授 , 南开大学语言研究所名誉所长 , 国际中国语言学学会会长 , 主要研究领域为实验语言学、语言演化、语言接触与语言习得 , 出版论著20余种 , 论文260余篇 , 提倡语言学者走进社会 , 走进田野 , 走进实验室 , 把语言学建立在科学的客观实证基础上 。
最近 , ChatGPT来了 。 这是一个现象级的事件 , 这是颠覆性的进展 , 这开启了人类社会的一个新的时代 。 这是自人类第一次工业革命以来 , 影响最大的科学技术革命 。 比第一次还要大 , 那就比第二次、第三次、第四次影响更大 , “震动朝野” 。 它对于人类历史的意义 , 目前还难以估量 。 可能越到后来 , 我们对它的意义就将有更清楚的认识 。 现在我们可以说 , 至少它在人类的历史发展上 , 是一个特别的奇点 。
人工智能是高级的工具最近乔姆斯基和两位合作者在《纽约时报》发表文章“ChatGPT的虚假承诺”讲到:人工智能和人类在思考方式、学习语言与生成解释的能力 , 以及道德思考方面有着极大的差异 。 并提醒读者:如果ChatGPT式机器学习程序继续主导人工智能领域 , 那么人类的科学水平以及道德标准都可能因此降低 。 我同意前半段 。 人工智能和人类智能确实有着根本性质的不同 , 而很多人却把二者混淆在一起 。 乔姆斯基在这一点上很清醒 。 他面对人工智能表现出情绪低落 , 是可以理解的 。
毕竟人工智能绕过他的理论 , 而又取得了巨大的成功 。 然而 , 乔姆斯基也应该感到欣慰 , 他的理论在计算机世界(程序语言)中仍是畅通无阻的 。 这已经是很值得骄傲的事情 。 同时 , 马斯克等1000多名高管和专家呼吁:所有人工智能实验室应立即暂停训练至少6个月 。 只有在我们确信其效果是积极的 , 风险是可控的情况下 , 才应该开发强大的人工智能 。
其实这是杞人忧天 , 大可不必 , 而且也不会有任何效果 。 人工智能不过是高级工具 , 又不是核武器 。 哪个实验室会坐等别人赶到前面 , 而自己却按兵不动呢?人们对于一种工具 , 首先是学会使用 , 然后看使用的效果 。 使用效果是积极还是消极 , 决定于使用的人 。
一把锤子 , 可以用来打铁 , 也可以用来打碎玻璃窗 。 人工智能作为一种高级的工具 , 是积极的还是消极的 , 它的效果由谁决定?不决定于人工智能 , 而是决定于使用人工智能的人 。 这应该是常识 。 专家常常误导我们 , 有时是他们自己就糊涂 , 有时是为作秀的需要 , 所以不要轻信他们 。

本文收录于《ChatGPT来了——语言科学如何看待ChatGPT》(杨旭 / 罗仁地主编;上海教育出版社 , 2024年)人工智能不会做什么?人工智能不会无中生有很多人在关注人工智能会做什么 , 我们却是反其道而行之 , 要看一看它不会做什么 。 人工智能的基本原理就是基于大数据的概率匹配 。 所以人工智能不可以从无中生出有 , 即它不可能产生出大数据里没有的内容 。
它不会做那种从零到一的心智创新型的事情 。 例如 , 它不可以创造新词 , 也不会创造新的句法结构 。 而我们在互联网上不断创造新的词语和新的用法 。 因为只有人的心智才能够创新 , 而人工智能并不是真的智能 。 英语artificial的意思是“人工的、假的” , 所以人工智能就是假智能 。 这一点常常被人们忘记了 。 作为一种工具 。 它不可以做具身性的任务 , 即身体参与度高的事情 。
它不可以做非经验性的预测 , 就是以前没有做过的事情 。 对于有些例如红烧蚊子腿之类非常识性的挖坑问题 , 它经常答错 。 为什么呢?因为数据库里面没有这些东西 。 跟概率无关的事情上 , 它肯定要出问题 。 人工智能只能够被动回应因为人工智能是一种工具 , 所以它不会做主动性的工作 , 只会被动地回应 。 例如 , 它可以回答问题 , 但不可以提出问题 。 提出问题就是主动;回答问题就是被动 。 它可以做被试参加考试、接受实验 , 不可以做主试提出问题去考别人 。
有一个实验室用人工智能做了12项心理实验 , 其中有10项它都做对了 , 只有两项不对 。 为什么呢?因为那10项都跟词频有关 , 而这两项跟词频没有关系 。 一个是预测词的长短 , 一个是消解句法歧义 , 都要靠背景知识 , 用脑去判断 , 人工智能就做不好了 。 只要和频率相联系的它都没有问题 , 因为数据库里都有;只要是靠人去判断、去选择的 , 它都不行 , 因为数据库里没有 。 例如 , 它不可以理解正话反说的情况(如“这就是你干的好事!”);它不可以理解多重否定的复杂否定句(如“我不是不知道你不能不去做这件事 。 ”);它不可以理解驴子句(如“谁爱来谁来 。 ”) 。 凡是需要人为选择的 , 都有问题;凡是跟概率相联系的 , 都没问题 。
人工智能没有个性还有最为重要的一点:人工智能没有个性 , 因为ChatGPT的大数据库是跨社区、跨年龄、跨性别、跨文化、跨职业、跨学科的 。 数据库不可能把输入这些语料的人的背景都分类出来 , 这些数据都是混在一起的 。 所以 , 人工智能不可能有个性 , 只能是千人一面;而人是有个性的 , 每个人的经历和概率匹配的环境都各不相同 , 每个人都是独特的“这一个” 。 这是人工智能和人之间根本性的差别 。 因此 , 人工智能不会懂得价值观 , 不会判断真假和好坏 , 没有正义感 , 没有立场 , 没有道德观念 , 没有守法观念 。 人工智能不懂得什么是诚实 , 什么是欺骗 , 不懂得人际交往远近亲疏的原则 。
它只会“人机对话” , 回答人的问题 , 不可以“机机对话” 。 人工智能可以从规则世界到概率世界 , 这是数学上的清晰数学到模糊数学 , 从静态的数学到动态的数学 。 但是人工智能不可以从无生命到有生命 , 从无意识到有意识 , 从无思维到有思维 , 从无感情到有感情 。 人工智能永远是供人类驾驭的工具 , 这一个属性永远不会变 。 当然 , 就像开汽车和开飞机一样 , 驾驭工具需要知识和技能 , 驾驭高级工具需要高级的知识和技能 。 语言学家应该和人工智能合作从前面讨论的内容我们可以知道 , 人工智能现在做的正是语言学家早就应该做的事情——概率匹配 。
语言学家应该正确认识人工智能的性质 , 跟人工智能合作 , 把人工智能作为语言研究的利器来解释语言当中的各种疑难 , 来探索语言当中的终极奥秘 。 美国语言学家德怀特·伯林格(Dwight Bolinger)说过:“没有哪一个科学领域像语言学那样 , 存在着如此之多的谬误 , 不仅存在着 , 而且还继续被当作真理传授着 。 ”这当然是讲西方语言学的情况 。 中国的情况不会有太多差别 , 但是因为华夏的朴学传统这是应用 , 应该好一些 。 在人工智能研究中 , 同一个杰里内克(Fred Jelinek) , 一方面说:“每次我炒掉一位语言学家 , 言语识别器的表现就会提升” , 另一方面又说:“我可以跟语言学家很好地合作 。 ”这是分别指不同的语言学家 。 前者是指脱离实际的语言学家 , 后者是指面向实际的语言学家 。
这位人工智能冲击的正是脱离实际的语言学研究 。 当前 , 不管是形式语言学、功能语言学还是认知语言学的学者 , 都在日益重视经验和实验 , 越来越多地引证并参与语言实验研究 。 这是语言研究向科学道路进展的大势所趋 。 各种语言学流派、理论、观点 , 都在人工智能面前得到检验和更新 , 调整方向 , 改进方法 , 凤凰涅槃 , 焕然一新 。 迎接人工智能的新时代 。 在这方面 , 我很同意美国惠特曼教授的呼吁:“当代语言学研究日益重视经验和实验 。 学者们将会越来越多地使用形式的、量化的、实验的方法进行语言学研究 。 这一趋势会越来越明显 。 我们需要为学生提供实验语言学和计算语言学训练 。 ”
这是真正考虑到学生的未来发展 , 而不是误人子弟 。 因为 , 即使现在有的语言学者不做语言实验 , 他的学生 , 学生的学生 , 将来也必定会走上实验语言学和计算语言学的道路 。 青年学子拥有未来 , 而未来二三十年之后的语言学研究面貌 , 必是实验语言学和计算语言学的研究方法大行于天下 。 这不只是全新的方法论和全新的研究范式 , 更会有全新的研究理念 。 希望寄于青年学子 。
时代已经变了 , 科学在飞跃前进 。 语言田野调查是现代语言学者的基本功 , 语言实验分析是当代语言学者的必修课 。 人工智能不会田野调查 , 人工智能不会语言实验 。 实践是真正的权威 。 什么是语言?不能只从书上看 , 听老师讲 , 那是别人的认识 , 吃别人的馍没有味道 。 只有亲身去调查 , 去实验 , 才能真正认识什么是语言 。
【石锋:语言之谜——来自人工智能的挑战】新时代的语言学者要走向社会 , 走向田野 , 走向实验室 , 走向互联网 。 马克思说:“最先朝气蓬勃地投入新生活的人 , 他们的命运是令人羡慕的 。 ”新时代的语言学就是新的学术生活 , 希望我们大家一起 , 投入新的学术生活 , 满怀信心 , 迎接未来 。

    推荐阅读