论文天价售AI,出版商暴富,作者零收益!

智能真的很好说 2024-08-16 14:04:49
我们深知,大型语言模型(LLM)的培育离不开海量数据的滋养,而这些数据主要通过网络的大规模搜集获得。 Nature杂志最新的一篇文章揭露了一个不容忽视的现象:即便是科研论文,也未能逃脱成为人工智能训练素材的命运。学术论文以其长篇大论和密集的信息量,成为了滋养LLM的宝贵数据资源。 据透露,许多学术出版商已经向技术企业敞开了大门,授权它们使用其旗下的论文资源来训练AI模型。 英国出版商Taylor & Francis近期与微软签订了一笔价值1000万美元的合同,允许微软利用其数据来提升AI系统。同样,美国的一家出版商在6月份通过将其内容授权给某企业用于模型训练,实现了惊人的2300万美元利润。 然而,这些丰厚的收益,论文的原创作者却未能分享到一分一毫。 华盛顿大学的AI研究员Lucy Lu Wang还提醒,即便那些不在开放获取存储库中的内容,只要它们能够在线被查阅,很可能已经悄无声息地被纳入了大型语言模型(LLM)的训练数据集。 这种做法对学术界的版权保护提出了严峻挑战。面对不断升温的版权争议,众多模型公司开始不惜重金,购买高质量的数据集以提升AI模型的性能。 今年,金融时报已经将其内容以高价出售给了OpenAI;Reddit也与谷歌签订了类似的合作协议。 可以预见,这样的数据交易将会更加频繁,成为行业内的一种新常态。在这样的背景下,如何保障学术论文作者的权益,成为了亟待解决的问题。
0 阅读:0