论文天价售AI，出版商暴富，作者零收益！

我们深知，大型语言模型（LLM）的培育离不开海量数据的滋养，而这些数据主要通过网络的大规模搜集获得。 Nature杂志最新的一篇文章揭露了一个不容忽视的现象：即便是科研论文，也未能逃脱成为人工智能训练素材的命运。学术论文以其长篇大论和密集的信息量，成为了滋养LLM的宝贵数据资源。据透露，许多学术出版商已经向技术企业敞开了大门，授权它们使用其旗下的论文资源来训练AI模型。英国出版商Taylor & Francis近期与微软签订了一笔价值1000万美元的合同，允许微软利用其数据来提升AI系统。同样，美国的一家出版商在6月份通过将其内容授权给某企业用于模型训练，实现了惊人的2300万美元利润。然而，这些丰厚的收益，论文的原创作者却未能分享到一分一毫。华盛顿大学的AI研究员Lucy Lu Wang还提醒，即便那些不在开放获取存储库中的内容，只要它们能够在线被查阅，很可能已经悄无声息地被纳入了大型语言模型（LLM）的训练数据集。这种做法对学术界的版权保护提出了严峻挑战。面对不断升温的版权争议，众多模型公司开始不惜重金，购买高质量的数据集以提升AI模型的性能。今年，金融时报已经将其内容以高价出售给了OpenAI；Reddit也与谷歌签订了类似的合作协议。可以预见，这样的数据交易将会更加频繁，成为行业内的一种新常态。在这样的背景下，如何保障学术论文作者的权益，成为了亟待解决的问题。

魔女团新闻

论文天价售AI，出版商暴富，作者零收益！

智能真的很好说