“大模型数据被盗第一案”和解

6月13日，笔神作文宣布对学而思提起诉讼，称其涉嫌通过爬虫技术盗取数据，成为国内首例涉及大型模型数据盗窃的案件。然而，近日笔神作文表示双方已经解决了矛盾，不再对学而思的数据调取事件进行法律追究。

6年的辛勤努力，笔神作文收集了超过200万次的数据被爬取，赔偿1元。

此前在6月13日下午，笔神作文通过自己的微信公众号、微博和第三方媒体发布消息称，他们与多年合作的“学而思”背叛了他们，指控学而思“盗取了我们的作文库存”，并称4月的数据被窃取，而学而思在5月就宣布开始研发数学大模型-MathGPT，这“未免也太过于‘巧合’了”。

对此，学而思方面回应称，他们对笔神作文接口的调用属于双方合同约定的正常合作范围，对笔神素材内容的使用均符合合同要求，并未用于合同以外的任何用途。

笔神作文在文章中表示，“我们的案件可能将会成为‘AI大模型数据被盗第一案’。”并表达了他们的诉求，包括公开致歉、删除非法获取的数据并中止应用、以及求偿1元。

笔神作文解释道：“数据是有价值的，但我们心血更是无价，索赔 1 元是因为公平公正并不能用金钱衡量，我们希望通过诉讼告诉社会这种行为是错误的。人工智能行业的发展，靠的是共同创造，而非觊觎和剽窃他人的成果。”

公开资料显示，笔神作文是北京一笔两划科技有限公司开发的智能写作平台，提供语文作文写前指导、作文批改评测等服务。

笔神作文在文章中透露，过去6年里，他们每个月都会收到30万篇作文投稿和超过四十万的点赞。总共积累了超过500万篇作文素材，月批改量超过3万篇。然而，在4月的一个周末，这些数据资源被爬虫爬取了超过两百万次。

文章中还揭示出笔神作文与学而思的合作关系，“虽然我们的产品已经设置了完备的数据安全机制，然而学而思利用了我们对合作伙伴的信任，利用了我们对接口不设防的情况。”

笔神作文表示，在数据窃取事件发生后，他们向学而思求证时，对方直接承认是他们的算法组在爬取数据并作为己用。

此前，好未来公司（前身为学而思）在5月5日的官方微信公众号发文表示： “学而思正在进行数学大模型-MathGPT的研发使用，学而思学习机近期将上线一款‘AI助手’，涵盖作文助手等相关功能。”

笔神作文直接指出：“4月我们的‘作文库’数据被窃取，5月‘学而思’的‘作文AI助手’新产品即将上线了，这样‘巧合’未免也太过于‘巧合’了。”

笔神作文还表示，团队多次向学而思发出律师函，但对方始终没有给出实质性答复。

不久之后，针对笔神作文的这篇“征讨檄文”，学而思发布声明否认了笔神作文的说法，并称“对方在公开声明中提及学而思正在研发的数学大模型MathGPT以及学而思学习机‘作文AI助手’，并主观揣测我方使用其数据用于两款产品的训练和研发，这与事实严重不符”。

学而思针对笔神作文的指控，从三个方面进行了回应：

1、学而思和笔神作文的合作始于2020年12月，并且双方在合作协议中明确约定了笔神作文为学而思提供“笔神作文范文素材服务接口”，用于学而思的相关服务。根据合同约定，每月保底费用包含的调用次数为百万次量级。合作期间，双方一直按照调用量进行正常结算。

2、对于笔神作文接口的调用，学而思方面表示这属于双方合同中约定的正常合作范围，并且对笔神素材内容的使用都符合合同要求，并未用于合同范围以外的任何用途。

3、在公开声明中，笔神作文指责学而思正在研发数学大模型MathGPT以及学而思学习机的“作文AI助手”，并猜测学而思使用了他们的数据进行这两款产品的训练和研发。然而，学而思方面对此进行了澄清，指出MathGPT是专注于数学领域的自研大模型，并没有与作文相关的数据；同时，“作文AI助手”目前仍处于开发阶段，尚未发布，该服务并未使用过笔神作文的任何数据。

笔神作文的作文素材超过500万篇，这些数据从何而来呢？

根据笔神作文和世纪天鸿的披露，笔神作文积累的大数据来自自身累积。世纪天鸿之前在互动平台上表示，笔神作文的算法模型是由公司自主研发并进行训练的。

然而，在5月8日，深交所向世纪天鸿发出了一封关注函，要求公司解释是否向一笔两划提供了训练“笔神作文”AI模型所需的数据，并说明获取、处理和使用数据的合法性。此外，还需要澄清关于数据资产产权的问题，以及是否存在潜在纠纷和其他协议或利益安排。

世纪天鸿回复了关注函，表示经核实，一笔两划训练“笔神作文”AI模型所需的数据都是一笔两划在自身经营过程中积累的。目前，公司没有使用“笔神作文”向客户提供服务，也没有向一笔两划提供“笔神作文”AI模型训练所需的数据。如果一笔两划有数据采购需求，公司将严格按照相关规定采集、处理和使用数据，并确保数据获取、处理和使用合法，确保数据资产产权清晰无争议。

笔神作文向《科创板日报》表示：“在使用我们的服务时，根据协议，我们会积累大量用户的原始作文素材作为我们的资产。这也是学而思与我们合作的原因之一，因为如果学而思从头开始积累数据，时间成本会非常高，短期内无法达到相同数量级的数据。”

据悉，根据笔神作文的用户服务协议，用户发表在笔神作文上的内容授予笔神作文免费且不可撤销的非独家使用许可。

笔神作文与学而思之间的纠纷揭示了AI大模型的一个“秘密角落”：用于训练这些大模型的数据来源是否合法合规？实际上，关于大型数据集的争议在国内外已经频繁发生。

今年1月，海外图片供应商华盖创意（Getty Images）起诉AI绘画工具Stable Diffusion的开发者Stability AI，称其侵犯了版权。华盖创意称，Stability AI“非法”从网站上窃取了数百万张图片。

2月，《华尔街日报》的一名记者在网上公开表示，他向ChatGPT索取了一份用来训练它的新闻来源清单，收到的回复列出了20家媒体，但并不清楚OpenAI是否与所列出版商都达成了协议。

6月，美国一家律师事务所在加州一家联邦法院向OpenAI提起集体诉讼。根据诉状，OpenAI大规模盗取互联网用户与该公司产品的互动信息，及集成ChatGPT的应用中的隐私数据，并将这些信息用于该公司产品的模型训练。受害者据称可能多达数百万人，潜在损失高达30亿美元。

自去年底ChatGPT迅速走红，人工智能领域迎来了高速发展的“狂飙”时刻。AI生成内容（AIGC）领域也取得了迅猛进展。然而，与此同时，数据泄露、电信诈骗、个人隐私风险、著作权侵权以及虚假信息等问题层出不穷，带来了一系列挑战。

随着问题日益凸显，各国开始将监管人工智能提上日程。斯坦福大学发布的《2023年人工智能指数报告》显示，对127个国家的立法记录进行调研后发现，从2016年的仅1个包含“人工智能”法案通过成为法律的数量增长到2022年的37个。报告还分析了81个国家自2016年以来的人工智能法律法规记录，表明全球立法程序中提及人工智能的次数增加了近6.5倍。

在新一轮人工智能飞速发展的背景下，如何平衡发展与安全已成为发展过程中必须面对的重要议题。