【当前热闻】AI契约论⑥：一方水土养一方AI？数据合规对人工智能训练意味着什么

来源：21世纪经济报道时间：2023-06-06 17:09:07

南方财经全媒体吴立洋 21世纪经济报道郑雪实习生阳飘飘上海、北京报道

编者按：

(资料图片仅供参考)

在2023年过去的几个月里，各大公司抢滩大模型、GPT商用化探索、算力基础设施看涨……如同15世纪开启的大航海时代，人类交往、贸易、财富有了爆炸性增长，空间革命席卷全球。变革同时，也带来了秩序的挑战，数据泄露、个人隐私风险、著作权侵权、虚假信息......此外，AI带来的后人类主义危机已然摆在桌面，人们该以何种姿态迎接人机混杂带来的迷思？

此刻，寻求AI治理的共识、重塑新秩序成了各国共同面对的课题。南财合规科技研究院将推出AI契约论系列报道，从中外监管模式、主体责任分配、语料库数据合规、AI伦理、产业发展等维度，进行剖析，以期为AI治理方案提供一些思路，保障负责任的创新。

随着AI产业的快速发展，被用于训练的数据集规模亦呈指数级上升趋势，人类在漫长历史中积累的经验与文化正快速被人工智能这一新兴智能形态所汲取，岁月的积累成为培养未来科技的基底，知识的璀璨星光同时照亮了文明的过去、现在与未来。

随着越来越多的数据被AI所学习乃至理解，人们欣喜地看到，人工智能的智慧与能力正发生翻天覆地的变化，这种进化速度远超已知的任何一种自然或人类造物，但同样也带来了社会对未知的隐忧。

难以完全确认的是，在人工标识和清洗那些被AI所汲取的数据和文本时，那些同样根植于历史的系统性恶意与偏见能够被抹去。人们不可避免地发问，当似乎有着无限潜能的AI在仰望亘古以来的知识星空时，是否应同时对其教化以人类社会的精神和道德法则。

善意、德行与律法，当从AI生成与成长的源头追溯是什么塑造了人工智能的形态，似乎仍需回到由人类所生产与处理的数据本身，而如何在数据的构建和使用中建立规则，同样蕴含着我们与AI这一内容、工具抑或是伙伴真正的相处模式，以及互相影响的未来。

在数据的合规标准中，个人隐私与版权是当前已具备一定实践标准的监管领域，但面对AIGC庞大的数据需求量和生产的“黑箱化”，隐私与版权合规在人工智能爆发期仍面临很多难以完全依据过往经验解决的新问题。

数据的源头

根据自第一代发布的GPT训练数据库至GPT-3的数据库总量，有观点推测，ChatGPT的基础GPT-4模型使用的训练数据量已超过10TB，1.8万亿参数。

（表1：历代CPT数据库构成及大小

数据来源：CPT论文、Alan D. Thompson）

如表1所示，在对第一代GPT模型进行训练时，OpenAI仅使用了4.6GB的书籍数据，随着版本的更新迭代，维基百科、期刊、Reddit链接、Common Crawl等其他数据被逐渐加入到训练数据中。

选择书籍作为数据库基础的原因也并不难理解——作为一种精炼且结构化的内容，书籍文本所具备的信息量和逻辑性高，非常适合人工智能进行学习。

“除数据规模外，决定数据集对模型训练效果的因素还包括数据的准确度和数据分布。”绿盟科技天枢实验室主任顾杜鹃在接受南方财经全媒体记者采访时表示，数据集在收集阶段会集合大量冗余数据、缺失数据和有毒数据，需要贴合目标任务对数据进行选择和预处理；而数据集合中不同类型的数据分布（例如正常/不正常数据的黑样本与白样本比例）同样会影响模型训练的效果。

除数据质量外，从当前各公司大模型研发实践来看，可得性亦是其构建训练数据集时需要重点考虑的因素。今年4月，作为GPT模型训练数据的重要来源之一，拥有5000多万DAU、3.66亿帖子数量的社交新闻站点Reddit宣布将针对AI大模型训练，对其企业级API收费，这无疑将抬高数据的获得门槛。

多位业内人士在与记者交流时指出，以数据质量和可得性为主要衡量维度，当前AIGC厂商的数据来源大致可分为三个面向：

其一是各个厂商历史积累的数据，数据的具体类型和质量取决于厂商的主营业务情况；其二是公开渠道爬取的数据，受限于当前各类反爬取技术和规则，此类数据获取将愈加困难；其三则是各类免费或付费的第三方数据库与数据集，例如GPT数据来源中全球最大的免费网页数据库Common Crawl，各类高校，以及企业科研机构所搜集和处理的开源数据集如WikiQA（微软研究院发布）、EXEQ-300K（北京大学、宾夕法尼亚大学、中山大学发布）、ArxivPapers（Facebook、伦敦大学学院、DeepMind发布）等。

不同数据来源的特征与实际应用需求间的耦合性，则形成了开发者不同的数据集构建策略，而合规，则是其中重要的原则之一。

顾杜鹃指出，开发者在制定数据收集策略时，需综合衡量在数据收集上的预算限制、数据质量、数据合规性以及数据源可靠性，对比各收费和免费数据源是否具备多样性、准确性、合法合规性等，结合开发目标，最终决定AI开发项目的数据源构成。

隐私保护与版权

在数据成为企业重要竞争力的今天，摆在企业面前的，除了回答如何获取数据的问题之外，最为直接的问题是，如何确保来源繁杂且格式不一的AI训练数据在个人隐私与版权层面的合规。

国内大模型方面，百度、阿里、科大讯飞等积累了丰富数据资源的企业纷纷加入大模型之战。其中，隐私数据成为数据治理和使用中不可逾越的红线。

一位不愿具名的算法工程师对记者介绍称，近些年来，企业对于隐私数据进行专门治理，公司内部所积累的相关数据很难接触，相关数据需要经过脱敏等措施才可使用。“从技术上来说，不会故意使用相关数据；如果发现相关漏洞，第一选择一定是堵上漏洞，现在谁都不敢去踩红线。”

大模型自身“大力出奇迹”的暴力美学，拥有的数据越多、质量越高，大模型的能力也就愈加强大。如上文所言，除企业本身所积累的数据之外，公开数据、开源数据集等也构成大模型数据来源的一部分。

某互联网大厂人工智能架构师对记者表示，“对于大模型来说，数据集的范围肯定是越多越好，覆盖的领域越广越好。开源的数据集的使用则会根据哪部分数据的适用途径进行匹配。”

但其中，随着数据来源的扩大，如何解决人工智能模型训练数据中的可版权性问题，成为关注的焦点。即便是号称“开源”的各类数据库，也并非意味着完全不存在版权层面的合规问题，当前各类开源平台往往以开放数据共享、社区数据许可协议等协议方式规范相关内容的署名权、继承权、盈利权、演绎权等权益。

具体到开发层面，我国的AIGC领域的版权规制亦存在争议。上海大邦律师事务所高级合伙人游云庭在接受记者采访时表示，根据相关法律，利用数据训练人工智能实际上存在“先上车再买票”的问题：“我国著作权法并没有规定合理使用的相关情况。线上线下的声音文字图片，如果有独创性，是个人创作的，就构成受著作权法保护的作品，未经著作权人许可进行使用，涉嫌侵权。”

值得关注的是，传统的“授权许可模式”对于大模型的数据训练存在天然困境，不仅在于实操层面难以落地，更在于对产业研发的长期影响。业界有观点认为，需将数据纳入合理使用的范畴进行规制。

可以看到，日本、英国、欧盟等已对将数据挖掘作为合理使用的情形进行了立法确认：日本以“计算机信息分析”的名义规定了文本数据挖掘的著作权例外，英国同样引入文本和数据挖掘的版权许可或例外情况，欧盟则选择“非科研目的”例外的谨慎方案……这些监管举措的背后，则是各国对AIGC规制路径的探索。

规则实践

梳理近期不同国家和地区对AIGC的立法不难发现，基于不同的法律体系和产业发展愿景，不同国家选取的实践路径亦各有侧重。

以近期刚刚在欧洲议会通过《人工智能法案》谈判授权草案的欧盟为例，这部于2021年正式成为欧盟委员会提案的法案中规定，人工智能大模型的创建者需要在人工智能使用之前进行评估并减轻各种风险。相关公司必须公开训练人工智能使用的数据，以确保其使用受版权法保护的数据训练。

而随着立法期间ChatGPT的横空出世，欧洲立法者很快对法案增添了修正案，扩大了AI开发者的禁止行为清单，其中包括“禁止从社交媒体或监控摄像头中抓取生物特征数据以创建面部识别数据库（侵犯人权和隐私权）”。

在立法层面的法律法规不断推进的同时，司法层面的案例亦开始涌现，今年1月，三名艺术家联合对Stability Al、DeviantArt和Midjourney发起集体诉讼，指控其训练数据侵害了艺术家版权。

作为全球首例知名的AIGC商业化应用领域，算法模型及训练数据版权侵权案，原告认为Stable Diffusion等AI模型“将无数受版权保护的图像存储和合并为训练图像后……生成完全基于训练图像的‘新’图像”，从而获得商业利润，挤占了原作品的交易市场。

虽然Stable Diffusion案距尘埃落定无疑还将面临长久的诉讼过程，但在部分国家，为AI产业大开绿灯已成为重要的政策指引方向。

近日，日本最高教育行政长官、文部科学大臣在会议上重申，日本政府不会对人工智能训练过程中使用的数据实施版权保护。上海大邦律游云庭告诉南方财经全媒体记者，根据日本著作权法第30条第4款规定，如果不以欣赏作品中表达的思想或情感为目的，且没有不合理地损害著作人权益的，可以合理使用他人享有著作权的作品。

“考虑到立法已经先行，虽然会有动漫，影视制作的利益群体的游说，个人认为这个事情法律上的争议还是会比较小。”游云庭表示。

“整体来看，各国都在基于自身人工智能产业发展的不同定位和战略诉求，设计和实现自身的治理框架和治理主张，并引入与之匹配的治理机制。”

北京师范大学法学院博士生导师、中国互联网协会研究中心副主任吴沈括指出，以欧盟为例，基于其强调数字主权的立场，其更倾向于从数据治理角度强化与AI相关的数据流转利用规则，日本则表现出以产业数据促进流转利用的治理思路。“我国强调的是一种以风险为导向的综合治理思路。”他进一步表示。

某种程度上，隐私与版权仍是沿用人类已有的法律体系对AI利用生产资料的方式加以监督，而如何保证AI这一新兴事物的“思考”与“输出”符合人类的伦理和道德，却是一项几无先例可循的监管实践。在本专题的下一篇，我们将进一步探讨如何由从数据角度对AI生成与训练加以梳理和监管，以打造真正“向善”的下一代人工智能。

统筹：王俊

记者：吴立洋郑雪阳飘飘

关键词：