2025年4月22日星期二

当大模型创作的内容又反过来被大模型当做训练语料,大模型是否会成为一个回音壁?

大模型创作的内容充斥互联网,被其他大模型当做语料,这种现象是否会抑制大模型的能力发展?破局思路如何?

前段时间知乎热榜上已经有过类似的情况,可以作为非常鲜活形象的例子,让大家理解,我还专门写文章分析过。


即之前已经有大模型生成的内容被大量发布在互联网上,再次用大模型进行联网检索的时候,优先检索到的链接里面,排名靠前的内容,正是之前大模型生成的。


当时在知乎热榜上有个非常火的问题:DeepSeek 评中国最宜居城市是"珠海",怎么看这个结果?


底下的回答要么在论证珠海城市如何好,要么根据自己的生活经历提出质疑,但是几乎没人注意到:


——这就是非常典型的大模型合成数据污染问题。


比如我用腾讯部署的deepseek R1 + 联网搜索功能,输入问题"中国最宜居城市是哪里",结果搜出的6个来源新闻几乎都是这一条"deepseek 评最宜居城市是珠海",罪魁祸首就是使用了联网搜索功能:



如果基于这些来源推断,结果必然还是珠海。


原因很简单,因为之前大模型生成的数据再次作为新闻被大模型联网功能检索到之后,又一次被用作输入,形成一个自我循环。基于之前推导的结果再次用来推导,那必然还是相同的结果。


相当于左脚踩右脚,最后竟然登月成功了。。


这里联网搜索功能最大的问题是结果可能受到数据源和搜索排名的影响。例如,如果某些信息在网络上被广泛传播(可能是由于大模型生成的合成内容被多次引用),DeepSeek R1可能会优先获取这些信息,而忽略其他更客观或多样化的数据源。


上面的例子可以看出来,大模型的合成数据污染有一个很明显的特点就是偏见放大。如果数据最初来源于某个单一的、不全面的数据源,那随着大量的AI合成数据被生成,模型可能会在后续的推理中不断强化这一观点,导致输出结果的偏差越来越大。


于是大家将来联网搜索中国最宜居城市,出现珠海的概率越来越高,就像我上面演示的那样,几乎新闻源都告诉大模型最宜居城市是珠海。。


一个简单的对比试验,我们如果不打开联网搜索功能,那结果就有可能会不同,这个还是在腾讯部署的deepseek R1上跑同样的prompt提示语,最宜居城市前三都没有珠海:


当然,也可以看看deepseek官网结果(联网搜索没有使用),最宜居城市前三仍然没有珠海:

要解决这种合成数据污染的问题,大模型应该在基于搜索结果进行推理前,尽量加强数据验证,要多一点多元化数据源,减少或者筛选掉合成数据污染,确保模型的推理结果更加客观。


同样的道理,如果这些已经被大模型生成内容,再被用于预训练,必然也需要数据清洗,把低质量、带有明显偏见的大模型合成内容筛选出来,避免这种低质量有偏见的内容被进一步强化。


没有评论:

发表评论

放弃了1400+的大毛,希望不会失望

纸上得来终觉浅,绝知此事要躬行,期待我们躬身入局,愿每位老铁都能在Web3中收获满满空投大毛哦! 前言-------------------------------------- Web3撸空投是投入产出比较高的一种方式。它主打一个以小搏大,风险小,收益高,花少量的 gas ...