15款国产大模型透明度评测：仅4款支持用户撤回声纹数据权限

共计 4194 个字符，预计需要花费 11 分钟才能阅读完成。

在近期的一项调查中，南都数字经济治理研究中心对15款国产大模型进行了实测，结果显示这些产品均未披露其训练数据的来源。由于技术局限，各家公司一致表示无法完全保证AI生成内容的真实性和准确性。此外，绝大多数大模型都声明会使用用户输入的信息进行模型训练，只有四款产品允许用户撤回对语音信息的授权。该调查的结果在2024年12月18日下午召开的第八届啄木鸟数据治理论坛上发布，并重磅推出了长达3.6万字的《生成式AI用户风险感知与信息披露透明度报告(2024)》（以下简称《报告》）。报告强调，提升大模型服务的透明度与可信度直接相关，这不仅影响用户对AI生成内容的评估，也有助于识别潜在的AI风险。

测评概况

8款国产大模型信息透明度得分超过60分

透明度不足，一直以来都是消费者在使用数字技术时面临的主要问题。例如，在无知的情况下，用户可能会陷入“信息茧房”，遭遇大数据“杀熟”的困扰，或被诱导进行过度消费等。

随着大模型的推广，用户对这些技术的“好奇”愈发增加：它们是如何构建的？哪些数据被用于AI训练？为何看似“聪明”的模型在某些情况下仍会出现错误？

要解答这些疑问，必须提升大模型的信息透明度。为此，《报告》选择了15款大模型作为样本，通过分析隐私政策和用户协议、体验产品功能等方式，评估各产品的信息披露情况。

测评从五个主要维度进行，涵盖个人信息保护、知识产权、内容安全、特殊群体保护和投诉反馈，并细分为20个具体测评项目，每项满分为100分。

结果显示，这15款AI大模型的平均透明度得分为60.2分，其中8款的得分超过60分，主要来自于知名互联网公司。

在排名方面，得分最高的分别是腾讯元宝（72分）、星火大模型（69分）和智谱清言（67分）；而得分较低的有百小应（54分）、面壁Luca（51分）和秘塔（43分）。

从主要维度的得分来看，这15款大模型在个人信息保护方面相对透明。在用户注册页面，均能找到隐私政策，各家公司主动告知如何收集和处理用户信息以及第三方的数据访问情况，因此这三类得分接近满分。然而，缺乏清晰的用户数据退出AI训练功能是普遍问题，该项得分仅为33%。

在内容安全方面，所有被测大模型也明确规定了禁止生成侵犯他人权益的内容，并在AI交互页面中标示生成内容的性质，提醒用户“生成内容仅供参考”。

不过，知识产权领域的透明度亟待提高。调查显示，没有一家AI大模型主动披露其训练所用数据集的来源，相关得分均为0。特殊群体保护和投诉反馈方面，各家得分差异不大，尤其是在用户友好设计的细节上，表现普遍平平。

信息保护

仅有4款允许用户撤回声音信息

在个人信息保护的方面，实测的15款国产大模型均遵循互联网应用的两个基本标准——用户协议和隐私政策。所有被测大模型都在隐私政策中详细说明了如何收集和利用个人信息。

在与大模型交互时，用户数据通常会被用于模型的优化。如果未明确告知用户使用的数据类型或范围模糊，可能导致用户对数据滥用的担忧。因此，提高AI大模型的透明度，有助于用户做出知情的选择，并了解数据的使用方式。

与ChatGPT、Claude、Gemini等全球领先大模型的隐私政策相比，国内大模型在保障用户数据权益方面的做法则相对滞后，许多企业未能主动说明将如何使用用户数据进行AI训练。

在此次实测中，大多数国产大模型均在其协议中提到将使用用户的提示语和信息内容进行模型训练。例如，面壁Luca在用户协议中说明，用户在使用服务过程中输入的内容可能被用于进一步训练。而天工AI则指出会利用对话信息提升对用户输入内容的理解能力。

那么，用户是否有权拒绝或撤回相关数据的使用呢？实测中，仅有腾讯元宝、豆包、海螺AI和智谱清言四家提到允许用户拒绝授权，且主要集中在声音信息的撤回上。

例如，豆包表示，用户可以通过设置关闭相关选项来撤回语音信息的授权。但如果用户希望撤回其他信息的使用，则需通过公示的联系方式联系他们。

值得注意的是，《报告》发现，海外大模型在“用户数据退出AI训练机制”方面则采取了不同的措施。比如，谷歌的Gemini允许用户关闭“Gemini应用活动记录”以防止对话内容被用于AI训练，但已审核的数据将被独立保存。

ChatGPT Plus用户可以通过设置禁用数据用于训练，而免费用户的数据通常默认被收集并用于训练，因此他们无法完全选择退出。

训练数据

15款国产大模型无一披露训练数据来源

高质量的训练数据对大模型至关重要，而训练数据集通常包含受版权保护的文本、图片、视频和音乐等素材。测评发现，这15款国产大模型都未在政策协议中提及其训练数据的具体来源，尤其是未公开使用了哪些版权数据。

那么，为什么大模型厂商不愿意公开其训练数据的来源呢？部分观点认为，这可能是因为不清晰的数据来源会引发版权争议——在这些纠纷中，AI公司如果未经授权使用受版权保护的内容，能否以合理使用作为抗辩仍需探讨。

还有人认为，这是出于竞争考虑。如果强制AI公司公开训练数据的“秘方”，可能让竞争对手获知并复制。此外，公开的数据集可能面临污染的风险，这也是厂商顾虑之一。

这些观点反映了AI公司对全面披露模型训练来源的担忧，尽管目前可能不是最佳时机，但从长远来看，报告建议应尽量多地发布基础模型的信息。公开训练数据集和提升算法透明度，可以让用户更好地理解模型的训练基础、工作原理和决策逻辑，从而评估其准确性和可靠性，识别潜在的数据偏见和风险。

虽然大模型厂商未公开训练数据集的来源，但对用户上传数据的版权要求仍然明确。各自的用户协议中，基本都有条款要求用户理解并承诺，上传的任何资料和素材的知识产权归用户所有或已获得合法授权，且不得侵犯他人的合法权益。

在AI生成内容的版权归属方面，各家的规定存在差异。只有智谱清言明确表示，“在适用法律允许的范围内，您基于智谱清言生成的内容的知识产权及其他权利由您享有”。而其他不少AI大模型则同时主张，如果输入和/或输出本身包含了平台享有的知识产权或其他合法权益，则相应权利仍归公司所有。

技术瓶颈

各家均称无法对AI生成内容完全保真

测评还发现，这15款大模型均表示无法完全保证所生成内容的真实性和准确性，主要原因在于其依赖的技术本身存在瓶颈或受到客观限制。

因此，12款大模型在交互页面上提示用户正在与AI对话，生成的结果由机器产出。例如，百小应表示“所有内容均由AI大模型输出，仅供参考，不代表我们的态度或观点”。文心一言和商汤商量大模型在交互页面上也增加了提示，标明“AI生成内容仅供参考”。

为了提升生成内容的质量，各家在采取的措施上有所不同。测评结果显示，有10款大模型在用户协议或隐私政策中承诺，利用人工智能算法等技术对生成内容进行自动评估、过滤及审查，以提高内容的真实性、准确性、客观性和多样性。腾讯元宝、天工AI和可灵三款还提到将机器与人工审查相结合，从而使措施更加完善。

另外，所有被测大模型均设置了专章，明确了用户在使用其服务时所限制或禁止的行为。测评发现，几乎所有大模型都提到AI造假和生成有害信息的问题，规定不得利用其产品自行或帮助他人上传、诱导生成、传播含有虚假、诈骗、有害、侵犯他人隐私等内容。

个别AI大模型对用户行为做了更为细致的限制。例如，海螺的用户协议中有22个小节规定了被禁止的行为，包括禁止发布宣扬不良价值观等内容；还包括对“饭圈”文化的不良表现进行限制。

此外，多数平台根据相关管理办法对生成的图片、视频等内容进行标识。报告以生成AI图片为例，除了不具备该功能的大模型外，9款生成的图片均有相关标识。例如，腾讯元宝生成的图片右下角标注“腾讯元宝AI生成”，智谱清言则标记为“清言AI”。大多数平台在政策协议中也明确禁止删除、篡改或隐匿生成内容的标识。

报告建议

平台应采取机器与人工审查结合

在特殊群体保护方面，几乎所有被测大模型在政策协议中均设有未成年人保护的专章。但如天工AI则提到“如果您是未成年人，为了保护您的合法权益，您应立即停止使用天工的产品或服务”。

此次测评中，星野是唯一一家提供未成年人保护模式的大模型产品。用户打开星野APP后，会弹出“青少年模式”的提示框，并要求进行实名认证。不过，作为AI陪伴大模型，星野在政策协议中也表示该软件主要面向成人，不向未成年人开放。海螺AI则在自律公约中明确禁止发布不利于未成年人健康成长的内容，如表现未成年人早恋和不良行为等。

对未成年人保护的问题，国外AI陪伴类产品Character.AI也做出了相应调整。在全球首例AI聊天机器人致死案件发生后，Character.AI为18岁以下用户增加了新的防护措施，包括减少接触敏感或暗示性内容的机会、改善干预机制、在每次聊天时添加免责声明等。

在投诉反馈的测评方面，大多数平台都提供了投诉反馈入口，并承诺在15个工作日内回应用户意见。商汤商量大模型则承诺反应速度最快，表示收到投诉后将在10个工作日内回复。

还有一家AI大模型针对逝者账号权益作出规定。可灵AI表示，逝者近亲属可以通过隐私政策中载明的方式联系平台，并在不违反逝者意愿及不侵害他人合法权益的前提下，完成身份核验后，可查阅、复制、更正及删除逝者个人信息。

根据测评结果，《报告》也提出了相关建议。在个人信息保护方面，建议赋予用户更多自主权，平台应设计便捷的功能，让用户能够选择是否同意将个人数据用于模型训练。

此外，《报告》重申应尊重知识产权和原创性。在充分考虑和平衡各方利益的前提下，探索AI时代的版权保护路径，确保原创作品的保护与传播。

为提高生成内容的质量，《报告》鼓励大模型平台采取机器与人工审查相结合的方式，以增强内容的真实性、准确性、客观性和多样性。同时，建议加强对AI生成内容的标识要求，呼吁尽快出台相关管理办法和国家标准，为行业提供清晰的指导和落地措施。

总体来看，《报告》认为AI厂商应重视大模型信息透明度的问题，加强可解释性研究，例如提供相关政策文件和规则，建立线上平台以回应公众关切，从而更好地理解模型的决策过程和行为，提升用户信任，并及时发现潜在的安全风险。

A10-11版采写:南都记者李玲黄莉玲樊文扬杨柳发自北京

来源：今日头条

原文标题：15 款国产大模型透明度测评: 仅 4 款允许用户撤回声纹数据 – 今日头条

原文链接：https://toutiao.com/group/7450267574727737866/

正文完