数据是新型生产要素,对助推传统产业转型升级、打造新产业新业态新模式、壮大经济发展引擎,都起到重要的作用。根据“十四五”规划纲要,“统筹数据开发利用”“推进数据跨部门、跨层级、跨地区汇聚融合”成为我国数字化转型的顶层设计。在激发要素潜能和隐私保护的双重驱动下,大批在提供隐私保护前提下实现数据价值挖掘的数据处理模式相继涌现,包括多方安全计算、可信执行环境为代表的隐私计算技术,以低代码、零代码为核心的“软件即服务”(SaaS)平台等。
数据合规从技术层面来说具有多方面优势,体现在以技术手段促进组织形式与价值创造的分离。例如,多方安全计算可在非信任主体间数据相互保密的前提下,进行高效融合计算,实现“数据占有权和使用权的分离”;可信执行环境可通过硬件隔断形成封闭运行环境,兑现更高标准的隐私保护承诺,实现“数据供给和数据保护的分离”;低代码和零代码可为开发者提供可视化应用开发环境,降低或去除应用开发对原生代码编写的需求,实现“算法手段和算法目的分离”。
数据合规的前沿技术风险
前端风险在于诱发人机对抗。技术手段下数据合规具有“白盒特性”,各参与方都可以直接获取完整的技术参数,恶意攻击者同样可以利用该特性伪装成诚实参与方窃取运算结果、扭曲模型训练、破解可信环境或生成恶意低代码。参与方自愿提供数据、消耗算力参与数据合规实践,其具有强烈的自利动机,轻则通过参与获得技术使用权,重则掠夺中间数据和源头数据。依据危害性由低到高的顺序,将数据合规的参与方划分成三种类型。此种划分方式表明,随着利益需求的不断变化,各参与方的角色定位也可能发生改变。
中端风险在于加剧算法歧视。算法歧视主要源于数据集偏差或数据缺陷,在数据合规场景中,不同来源数据间的强搭和错配可能对联合数据造成冲击与扰乱,使算法歧视规模性放大。除了数据投毒等极端手段,诚实但好奇参与方的数据输入因数据梯度同其他参与方相差过大,也可能间接导致模型被“污染”,输出歧视性结果。单次歧视的即时危害虽不易被察觉,却足以在更长时间维度和更长数据链条上产生积累式影响。例如,当不同学校的毕业生数据被用于训练招聘筛选系统,或者当男性占绝对多数的IT行业数据和其他行业数据被共同用于训练升职评价系统时,同身份紧密捆绑的群体歧视将借由算法“共训”之名,从数据向模型蔓延。
后端风险在于催生逆向淘汰。在各类促进数据合规的技术大规模部署前,面对受众,智能应用被限制在各自为政的领域,彼此之间没有交流与协作,更多的是算法间的良性循环,即效率高、服务好、安全稳定的智能应用将获得更高市场份额,榨取用户剩余的智能应用将面临被淘汰或整改的命运,因严重违法违规收集使用个人信息而被强制下架的各类APP即为典型事例。由于披上了“合规”的外衣,数据合规科技可能逐渐导致“算法趋同”,在技术黑箱的掩护之下,过去算法间的“朝上竞争”极有可能向“逐底竞争”转变。对数据规整性要求不高、通信成本更低、算法可解释性匮乏的智能应用,或将随着技术手段下数据合规的不断发展,逆向淘汰相对保守的传统智能应用。
破解数据合规的应对措施
为应对前端风险,应引入声誉概念作为衡量参与方信任度的核心指标。多权重主观逻辑模型使基于声誉的可信赖客户端之间的“朝上竞争”成为可能,配合区块链技术的不可篡改特性,分布式信誉管理将成为现实。例如,主导方可围绕深度强化学习设计激励策略,在开源分布式特殊场景中推行资源“按劳分配”,以达到边缘节点的最佳训练水平;利用区块链技术跟踪全局模型更新,对积极贡献用户给予丰厚奖励,实现局部模型的更高稳定性。此外,契约理论可被用于各参与方算力投入和模型质量的衡量。不过,技术互嵌的解决方案有时也存在相互掣肘,技术方需“量力而行”。例如,区块链技术的公共账本特性存在通信延迟、数据吞吐量大等问题,必然对通信设备、服务器带宽以及主机算力等提出更高要求。为此,可通过对通信成本和模型准确性之间进行表征的多节次方程式对二者的权衡取舍予以指导。
为应对中端风险,应构建数据清洗过程适用的缺省性数据筛选机制。避免算法歧视“群体化”需要深入数据处理的社会性聚合机制,尤其需拷问作为多方安全计算、联邦学习和低代码参与方的自身禀赋、行业特点和地域限制在何种程度上影响了数据样本的生成。无论如何清洗,来源于同一主体的数据通常会被打上难以察觉的烙印,具有隐性的身份化表征,在无形之中限定了数据合规的应用格局。不同数据间集体身份在数据合规实践中相互排斥和博弈越明显,得出的运算结果、训练出的公共模型和成型的低代码模块就越有可能产生歧视。简言之,原本稀松平常的数据,可能由于同其他非适配数据的联合,导致数据池难以自洽。在数据处理的过程链条上,被污染的数据池无法充分发挥技术潜力,甚至可能造成数据共享机制和自动化决策机制一同组成的整体解决方案的走样。歧视源于数据,因此,主导方应在数据清洗过程中主动去除冗余、不相关、不合格数据,在降低通信成本的同时提升运算精度,避免各参与方因“数据饥渴”而“来者不拒”,以期从源头“掐断”算法歧视群体化的苗头。
为应对后端风险,应确立智能应用开发和投入市场的基础伦理标准。引导科技向善、避免智能应用出现“劣币驱逐良币”的有效手段,是通过法律将标准和原则植入技术的底层行动逻辑。在投入市场前,任何技术应用都应满足伦理先行原则,不得游走于现有法律体系的灰色地带进行监管套利。因汇聚了海量大数据,技术方极有可能经不住诱惑,利用算法压榨个体,摄取不成比例的回报。伦理先行原则表明,技术目标的选择不应是简单的效益至上或是性能择优。在数据合规场景中,各参与方的效益增长势必会同步拉动社会公共利益的福祉提升。此外,对于数据主体而言理应共享技术红利,技术方必须兑现用户授权时所抱有的信赖利益,否则数据主体有权主张数据处理合同自始无效。
唐林垚