当前位置：首页 > DeepSeek技术交流 > 正文内容

互联网正在沦为“信息垃圾场”，真的是DeepSeek们的错吗？

7天前DeepSeek技术交流56

“那是最美好的时代，那是最糟糕的时代；那是智慧的年头，那是愚昧的年头……”一百多年前，狄更斯在《双城记》开篇写下的句子，精准描绘出两次工业革命交替之际希望与危机并存的矛盾局面。如今，在人工智能的浪潮中，这句话呈现的图景依然成立，而危机比以往更为隐秘深远。

同传统环境污染不同，信息的污染渗入无形的知识领域，通过数据和算法悄然重塑我们对知识的理解。“某地洪灾致多人死亡”“80后死亡率突破5.2%”……此类看似细节精确、实则无信息来源的谣言频繁登上热搜，不少已被证实由AI生成。

随着AI的崛起，AI与人类之间形成了信息的污染循环，宛如一条不断吞噬自身的衔尾蛇，在高速而庞大的信息流中循环往复、变异生长。

《年会不能停》剧照

AI：污染者与受害者的双重身份

作为如今最为强大的内容生成工具，各类AI在信息生态循环中扮演着双重角色，它们既被认定为当今信息环境中最为活跃的污染源，却又是信息污染的隐藏受害者。

生成式AI作为污染源饱受诟病，其无法去除的“幻觉”问题使其经常一本正经地胡说八道，凭空创造出看似合理却完全虚构的信息，如不存在的历史事件，虚假的研究论文或是编造的名人名言。这类编造并非出于恶意，而是必然的缺陷。大语言模型的核心算法目标是预测和生成“最可能”的内容。这些错误往往还被包装在流畅的语言与结构化的逻辑中，极具欺骗性，让缺乏相关知识的用户难以察觉。

如果说文本回答的污染已经足以令用户担忧。那么AI在图像、音频、视频方面的多媒态生成则让信息污染的范围扩大了几个维度。

过去我们常说“眼见为实”，照片和视频天生会比文本更具有可信度。如今在生成式AI的辅助下，曾经需要数天甚至数周才能完成的专业创作，只需要一段文本提示词就能迅速生成。“驮着小猫头鹰飞行的雪鸮妈妈”“可爱婴儿熟练使用筷子吃面”“雷军AI配音骂人”，这些超出现实的想象都能以图片或视频的形式呈现，在社交平台上被疯狂传播，令不少人信服。突破了感官维度后，理性判断与事实核查也变得更为困难。在历史上，每一次传播媒介技术的进步都在改变着人类获取信息的方式，而这种多模态生成的污染则可能让之后我们感知真实的本能也被迫发生改变。

AI生成的雪鸮驮着小雪鸮飞行的图片

或许会有人说，这些能看出“假”的污染其实也不足为惧嘛，毕竟只要有鸟类自然常识的人一看，就知道雪鸮不可能驮着小雪鸮飞行，但这种乐观的判断建立在具有权威信息源的基础上。传统来说，我们将某些信息源视作权威：出版书籍、学术论文、专业机构、资深专家。在互联网时代，一个可行的媒体来源和能被检索到的内容也成为我们判断真伪的标准。但这些权威与标准也在遭遇AI辅助或完全生成的内容的侵蚀：一旦引入了部分污染数据，就会被权威自然背书。

举个简单的例子，如果几大权威媒体公众号都引用了同一段鲁迅对陀思妥耶夫斯基的小说评论，那么你能一开始就怀疑这段话并非鲁迅所说吗？其实，这段话来源于知乎上某用户利用AI生成的虚假语录，而当它骗过了职业编辑后，更多普通读者大概率会失去警惕。

更麻烦的是，AI也开始渗透到了评审机制的内部。为提高效率，许多期刊和学术会议开始使用AI来初步筛选和评估投稿内容。但这类评审也并非完全靠谱，AI的评论倾向很容易被各种手段影响，例如放大作者自己所说的方法局限性或者优越性，或是对某类作者和机构有明显的权威偏好等。这种可被操纵且带有固有偏见的评审机制，也对学术界的权威构建造成了不小的挑战。

事实上，只将AI认定为污染制造者也过于片面了，AI也是信息污染的重要受害者。

计算机科学领域有句习语——“垃圾进，垃圾出”（Garbage in, garbage out），表示如果将错误的数据输入计算机系统，其结果也会受到影响。或者说，模型的准确率受限于数据的准确率和模式。

我们在之前的科普文章中提过，生成式AI的本质是模仿训练集中的文本进行文字续写，因此会表现出和训练集文本相似的特性。例如，由于大多数文本在描述医生时都是男性，而描述护士则为女性。因此训练出的AI也会包含同样的偏见。当我让AI描述一段医生的相貌时，它使用了男性代词“他”；而描述护士时，则使用了女性代词“她”。

由于大多数AI都使用了历史和网络中的大量文本进行训练，这类历史偏见很容易被吸收进模型的训练集中。虽然近年来人们对例如性别平等的关注度大大提高，相关文献也越来越多，但由于历史中大部分文字记录都带有明显的性别、种族和阶级偏见，因而AI的输出也仍然避免不了出现这些偏见的痕迹。

对文本进行人工标注和精调可以一定程度上修正这些偏误。但一方面对如此大量的训练文本进行人工标注需要大量成本，另一方面这种批改错题式的解决方案无法彻底解决所有可能出现的问题。

而更令人担忧的是，随着高质量的人类原创内容被AI大量消耗，AI想要获得新的数据进行训练，就不得不从互联网上爬取新的内容。而AI生成内容越来越多地充斥着互联网，未来AI的训练数据将不可避免地包含AI生成的垃圾内容。

当这类生成的数据污染了后续模型的训练集时，会让模型逐渐丢失掉真实数据中的概率相对较低的的信息，发生退化。比如前文是 “猫吃了……”，原本的真实信息下文概率分布从高到低可能是“鱼”“罐罐”“老鼠”“毛团”“一惊”等，但在模型反复以自己的输出为训练集进行训练后，概率较低的“毛团”和“一惊”可能就会丢失，模型的输出将会趋近于同质化。加上幻觉的污染，模型也会在训练中接触到更多完全错误的数据，迭代多次后，模型生成的内容可信度也会越来越低。这就是所谓的“模型崩溃”（Model collapse）。

这种模型崩溃是AI作为污染受害者的最终体现，当AI逐渐远离人类原创的高质量内容，它的输出也会逐步同质化和平庸化，就像一幅不断被复制的画作，每一次复制都失去一些细节与神韵，而当AI不再能提供更多更好的创作时，它的生命周期也将随着这个污染怪圈走向尽头。

人类：盲从与操控的闭环生态

如果说AI是信息污染的污染源与受害者，那么在这个污染系统的另一端，人类既是无意识的盲从者，也是幕后精明的操控者。

人类的大脑天生有着认知偏差，这是我们处理复杂信息流做出决策的基础。面对无边的信息海洋，我们本能地寻找认知的捷径。其中之一就是诉诸权威。而AI以表面的客观性和无可比拟的知识面广度，正在成为新的信息权威，“AI说的”正在替代“百度说的”，被用作论据的权威依据。

这种对AI的盲从源于多重的心理机制，例如自动化偏差：我们总是相信机器比人更为客观更为可靠。又比如认知负担转移：信息量如此庞大，将判断的责任交给AI可以减轻我我们的决策压力。而媒体和市场为了追求热度对AI能力的不断神化，也让公众对AI有了过度的期待。

从众心理和随之而来的信息茧房，则成为了人类身为盲从者和操控者的交汇点。一方面，我们倾向于相信高点赞多转发的内容，将数据量视为可信度的证明，另一方面，一部分人利用这种倾向，制造虚假的从众假象，诱导流量。算法推荐系统则顺应了人类的弱点并为之推波助澜——根据用户已有偏好不断推送相似内容。这种双向互动使信息污染有了稳定的生态循环，让用户不自觉地陷入信息茧房。

对AI神化的舆论趋势背后，是更为根本的经济驱动力。训练大语言模型和多模态生成模型的训练成本高昂，当前任何一个AI服务商都很难有自信表示自己已经找到了合适的商业模式去盈利，而与之对比的是绝大多数用户使用AI的成本几乎等于0。这背后的商业逻辑非常清晰，AI直接服务于用户最需要的内容生成，因此文本生成、以文生图、以文/图生视频等功能被迅速推进，公司能以此吸引到用户，而用户数量在如今的商业环境中则是吸引资本投资的重要筹码。

当商业估值模型更看重用户数量时，提升内容准确性就不如提供更多内容生成的功能来得更为紧迫。企业为了满足投资者预期而加速开发并不算完善的生成功能，部分媒体为流量而持续炒作AI能力，用户使用并传播AI内容，形成了一个由资本力量主导的生态圈。

腾讯元宝的推广广告

理解了这种机制后，一些人开始更为主动地操控信息生态。由于很多互联网内容平台都设置了所谓的“流量激励”机制，有人就从中嗅到商机——使用AI批量生成吸引眼球的内容，是一种低成本、高回报的商业策略。当广告收入主要依赖点击量和停留时间时，内容的真实性往往让位于其吸引力。内容农场们借助AI，每天能生成数百篇不同主题的文章，只为赚取流量和广告费。而起号的各类抖音小红书账号，也不惜利用AI撰写假新闻，来获得点赞和转发。这些利益上的动机都进一步推动了信息污染的传播。

一篇典型的使用AI生成的内容农场号文章

在这个复杂的信息生态系统中，盲从与操控并非截然对立的两极，而是相互强化的闭环。人类既是算法推荐和AI生成内容的被动消费者，又在不断学习如何利用和操纵这些技术为己所用。这种复杂的共生关系，正是当代信息污染如此难以治理的核心原因。

难解的戈尔迪俄斯之结

可当我们回头来看，信息污染也并不是AI时代的特有现象，纵观历史，人类其实一直在有意无意制造、传播与消费失真的信息。从记史以来便有的增删篡减，到诸如历经数千年的古文《尚书》争议案，再到舆论战与阴谋论。信息污染其实与人类文明史相伴而生，从未间断。

但每一次媒介技术的变革，都会带来信息污染现象的质变。例如印刷术的发明虽然促进了书籍价格的降低与知识的传播，却也因为印刷品《女巫之锤》让人们关于巫术的恐慌能快速蔓延开，从而间接导致了长达三百年的猎巫运动。广播与电视的普及则让信息传播速度更快，范围更广，视觉信息拥有了前所未有的影响力。而互联网则更是打破了传播的时间限制，让信息数量与密度有了数量级的提升。

而AI时代的信息污染相对之前，则呈现出几个新的特征。首先是创作门槛的下降与生产规模的扩大，曾经需要专业技能才能完成的内容创作，如今在AI的辅助下，人人都可以参与，甚至是工业级别的速度来生成内容。其次是污染清理的难度，AI制造的多媒态信息污染，使得事实核查（fact-check）的难度骤然提升，需要更具有专业知识的人才能识别真伪，而生成污染的速度也远超过人类验证的能力。最后传播方式也在算法推荐系统的辅助下发生了变化，错误的信息或者被刻意制造的信息能更精准的找到目标人群，形成茧房内的快速传播。

图 / 视觉中国

所以，当我们试图分析当今的信息污染，会发现它的复杂性远超表面的“AI制造了信息污染”这种单一现象。每一个污染环节都互相依赖，互相强化，AI需要人类创造的内容去强化自身，人类需要AI生成的内容满足需求，而两者之间的互动又产生了新的污染。污染系统中的每一方都有着强大的经济激励与社会动机来维持需求。这种循环不仅难以有自我纠正的清洁机制，反而很容易因为技术和商业模式的固化而变得更为难缠。任何的单点干预，无论是专家核查、改进AI技术、提升用户素养、修改平台激励机制，还是增强法律法规建设，都很难切断这场信息污染的自我强化闭环。

这种复杂的状态，与其说我们面临的是噬身之蛇，不如说AI与人类的相互污染已经变成了一个更为复杂的戈尔迪俄斯之结困境，这个绳结由技术的飞速发展，人类的固有认知，经济的异化激励甚至社会的结构交织而成，无法解开。传说中，亚历山大大帝面对这个绳结，选择了一刀两断的解决方案。而我们的手中暂时并没有那把能同时切断技术、认知与商业纠葛的锋利宝剑。