行政命令鼓励监管机构强调人工智能模型的透明

作者:UED 日期:2026-02-12 浏览: 来源:UED官网

  

行政命令鼓励监管机构强调人工智能模型的透明度要求

  现有追踪人工智能数据来源的规范存在显著缺陷,热门智能系统甚至不披露其训练数据的基本信息。业界呼吁进行更系统、更全面的数据文档记录体系,然而从实际落地情况来看,这些呼吁的采纳程度与执行标准存在显著差异。对于所谓的“数据集的数据集”,其文档记录问题尤为突出,这类大规模集合包含数百个数据集,由于缺乏标准结构,原始来源信息往往被忽视或丢失。同时,从业者呼吁提高数据透明度、加强数据供应链和生态系统监测、进行内容真实性验证、为可重复、可解释和可信的智能系统提供详细的来源追踪,并专门建立一个标准化数据库来记录可信数据。这些需求引起许多国家的监管机构和立法者的广泛关注并积极响应。美国和欧盟已在数据透明度方面采取了重要措施,所颁布的系列政策中均包含与透明度、来源追踪以及深入了解人工智能模型输入相关的条款。其中,《欧盟人工智能法案》特别明确了基础模型提供商在训练数据来源追踪方面的具体要求。加拿大当局提出的自愿行为准则呼吁模型开发者发布训练数据描述,联合国机构也建议制定关于数据权利的国际法规,将透明度纳入其中。研究人员和立法者的关注,推动了本文关于数据来源追踪和透明度统一框架的研究。虽然此类标准不能直接解决人工智能风险,但它们是评估风险和促进更负责任的人工智能发展的关键前提。

  人工智能模型可能通过两种方式侵犯版权权益。一是训练模型可能侵犯训练数据中作品的创作者或训练数据语料库创建者的版权;二是人工智能模型的特定输出可能侵犯训练数据中单个作品相关的版权。人工智能模型有时会产生与预训练数据中的内容高度相似的输出,从而可能侵犯这些作品创作者的权利,而这些创作者很少同意其内容被使用。需要强调的是,尽管预训练数据的使用可能受合理使用原则保护,但这并不意味着特定输出不会构成版权侵权。同时,指令微调和平行数据集的使用方式往往不符合其许可协议,这些数据集包含专为训练机器学习模型而创建的表达元素,因此其用于该目的不太可能受合理使用原则保护。强大的数据来源追踪标准有助于解决与人工智能训练中使用受版权保护材料相关的诸多重要问题。对于预训练和微调而言,标准的数据来源追踪框架能帮助降低法律风险,助力版权权益的执行。版权侵权的关键在于是否接触过受保护作品,因此了解训练模型所使用的数据集以及这些数据集中包含的作品,对于评估版权问题至关重要。

  《欧盟人工智能法案》和拜登发布的《关于安全、可靠和负责任地发展和使用人工智能的行政命令》均直接或间接地强调了人工智能系统透明度的必要性。两份文件都要求向消费者明确传达人工智能系统的局限性。法案要求高风险人工智能系统披露其训练、验证和测试数据集的相关信息,以及基础模型所使用的受版权保护训练数据的摘要,其中的技术规范包括数据获取、标注和处理方式等具体的来源追踪信息。同时,行政命令鼓励监管机构强调人工智能模型的透明度要求,以保护消费者。

  本文呼吁数据集创作者、模型开发者、研究人员和立法者采取行动。通过了解人工智能生态系统的本质,立法者可以制定激励措施,鼓励更好地记录新数据集和审计现有数据。尽管“透明度”在人工智能监管中往往定义不明确,但监管机构可以利用透明度义务,鼓励模型开发者记录其训练数据的相关信息。此外,政策制定者可以为数据来源追踪相关研究提供资金支持。目前,存在一些不合理的激励因素阻碍许多公司披露其数据集信息,因为这样做可能会增加面临法律诉讼的概率。立法机关可以考虑为向监管机构和公众提供其数据集必要信息的组织提供安全港保护。

  当前不存在完整的来源追踪系统,解决方案分为四类,均存在不足:一是内容真实性技术。此类技术通过嵌入信息验证数据来源,应对虚假信息风险。例如C2PA联盟通过加密方式在媒体中嵌入可验证来源信息,数字水印则用于标识机器生成内容,但文本水印易被移除,且技术仅适用于单个数据单元,难以覆盖多模态训练中的衍生或汇编数据,无法满足版权、偏见等元数据需求。二是选择加入与退出工具。Robots.txt协议扩展提案(如ai.txt、“noai”标签)及谷歌、OpenAI的定制工具,为网站提供数据使用偏好设置,但普及度低且仅支持“二元选择”,无法满足非商业使用等细致需求。三是数据集来源标准。数据集说明书、数据声明与数据卡片标准化了数据创作者、偏见、收集过程等文档记录,数据营养标签通过表单实现自动化文档,数据与信任联盟标准整合多行业需求,提供结构化记录与谱系追踪。但这类标准采纳不均,且存在准确性不足、激励缺失等问题。

  现有数据来源解决方案较为零散。若缺乏强大、资源充足的数据来源追踪框架,开发者将难以从众多可能性中准确识别和评估数据集的安全性、版权影响和相关性。数据创作者也将难以了解其内容的使用方式和位置。若没有数据集来源标准和文档记录,构建这样的框架将变得日益困难,最终难以实现。尽管现有每项解决方案都能为了解数据生态系统提供重要见解,但仍需要一个强大的框架来为数据集附加元数据,以追踪数据集的混合、汇编和使用情况。不同利益相关者应采取行动,以增强数据真实性、同意权和来源追踪应对未来挑战的能力。一是监管者,监管机构通过政策和指导方针在塑造人工智能未来方面发挥着关键作用。以数据为中心的人工智能监管方法有助于识别和减轻关键风险。政策制定者可以为数据来源追踪相关研究提供资金支持,并集中力量记录和构建来源追踪基础设施。目前,不合理的法律激励因素阻碍了公司披露其数据信息,监管机构应考虑为组织提供必要的数据透明度制定法律或立法激励措施,并将标准化文档记录作为人工智能透明度义务的一部分。此类激励措施有助于推动数据真实性、同意权和来源追踪的通用且可互操作的标准。二是开发者,人工智能开发者处于创建模型的前沿,因此在确保伦理实践方面承担着重大责任。开发者必须优先履行文档记录义务,并公开其训练数据的来源追踪信息。如果出于令人信服的商业原因需要保密,至少应发布有关数据来源追踪的汇总统计数据。这种透明度对于与用户和更广泛的社区建立信任,以及培育负责任的人工智能生态系统至关重要。三是数据创作与汇编者。这类主体在人工智能开发中发挥关键作用,需详细记录数据同意标准及来源追踪信息(包括数据来源与处理流程);当前已有专门的存储库和数据库用于登记此类信息,详实的记录能有效协助人工智能开发者尊重相关权利、明晰数据属性。四是科研界。科研界在制定来源追踪披露规范与标准方面具备独特地位,可将来源追踪披露纳入研究发表要求,以此补充可重复性清单相关工作,最终助力科学进步。

  事实上,单一利益相关方难以独立构建完善的数据来源追踪框架,唯有多方协作才能有效推动相关标准的制定。由各利益相关方代表组成的联盟,可协调各类主体行动并推动特定标准落地,这一模式可参考主导万维网标准制定的万维网联盟(W3C),以及由多行业企业、机构组成的非营利联盟——数据与信任联盟。

  免责声明:本文转自启元洞见。文章内容系原作者个人观点,本公众号编译/转载仅为分享、传达不同观点,如有任何异议,欢迎联系我们!

  国际技术经济研究所(IITE)成立于1985年11月,是隶属于国务院发展研究中心的非营利性研究机构,主要职能是研究我国经济、科技社会发展中的重大政策性、战略性、前瞻性问题,跟踪和分析世界科技、经济发展态势,为中央和有关部委提供决策咨询服务。“全球技术地图”为国际技术经济研究所官方微信账号,致力于向公众传递前沿技术资讯和科技创新洞见。

  特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

  国台办:春节是中华民族最重要的传统节日 当局如果胆敢在祥和的节日里无端挑起事端 必须承担由此引发的一切恶果

  《阿凡达 3:火与烬》即将结束全球院线亿美元,较前两作出现显著下滑,或难越回本红线

  女子给亲人办丧事下葬3个月发现埋错人,“殡仪馆告知骨灰给错了”,殡仪馆回应:经办人已去世,和她家是熟人,所以当时没严格走流程

  复出后首败 郑钦文遭逆转1-2惜败新科澳网冠军 无缘多哈1000赛8强

  餐厅大圆桌可坐55人,网友调侃“有些菜,一旦错过就不再”;餐厅回应:年底人多,需提前3天预定

  杭州一小区两年前“买房送黄金”,业主250万的房子现市值缩水87万,送的1000克黄金暴涨到112万,资产增值25万