时间:2026年6月14日(6月20日更新)
地点:美国
人物:大西洋月刊调查记者Alex Reisner、Suno、谷歌、Stability AI
事件详情:大西洋月刊调查记者Alex Reisner近日发现四个被AI开发社区广泛共享的音乐数据集,总计包含超过2100万首歌曲。其中最大的数据集有1200万首歌曲,其次为900万首,另外两个较小数据集各有超过10万首曲目。这些数据集包含了Bad Bunny、Nirvana等主流流行歌手的作品,已被下载数千次。谷歌和Stability AI均已在其研究论文中确认使用过这些数据集。Reisner已将这些数据集制作成可搜索的形式,供公众查阅。
背景:AI音乐生成器(如Suno、Google Lyria、Udio等)需要大量人类音乐录音作为训练数据。AI公司一直声称这些数据是专有的,拒绝公开具体使用的曲目。然而,Reisner的调查揭露了这些隐藏在AI开发社区中的大规模未经授权的数据集。目前,主要唱片公司正在对Suno等AI音乐公司提起版权诉讼。此次发现的数据集中,部分来源(如Free Music Archive)允许免费试听但不允许用于AI训练。
影响:
- 为正在进行的AI音乐版权诉讼提供了关键证据,唱片公司可据此主张AI公司使用了未经授权的受版权保护音乐进行训练
- 揭露了AI公司「训练数据保密」说法的虚假性——这些数据实际在AI开发社区内被广泛共享
- 推动AI音乐行业的透明度改革,公众可以自行查询自己喜爱的艺术家的作品是否被用于训练
- 谷歌和Stability AI等科技巨头被证实使用了这些数据集,可能面临更大的版权索赔和监管压力
总结:大西洋月刊调查记者Alex Reisner的这一发现是AI训练数据透明度领域的重大突破。通过发现并公开这四个包含数千万首歌曲的数据集,Reisner不仅揭示了AI音乐生成模型背后庞大且未经授权的训练数据规模,也为外界理解AI与版权法之间的冲突提供了前所未有的透明度。随着AI音乐产业快速发展,这些数据集的曝光可能推动更严格的训练数据使用和披露规范建立。尽管Suno声称其平台有保护措施防止未经授权的分发,但Reisner的调查显示大量受版权保护的歌曲已经被用于训练AI模型,且相关数据集仍在AI社区内广泛传播和使用。
参考来源:
- https://www.theatlantic.com/technology/2026/06/ai-music-generators-suno-google-udio/687485/
- https://www.theverge.com/ai-artificial-intelligence/953183/the-atlantic-searchable-database-music-ai-training-data









