在某个隐私计算脱口秀活动中,有人提出:“让大妈在社群传播的内容从抢购鸡蛋变为隐私计算”。这是个相当炸裂的想法。
你和大妈讲隐私计算,大妈可能并不会care,顺便向你发问,什么隐私?什么计算?别耽误我通知姐妹们抢蛋。但殊不知,我们早已被大数据包围,每个个体都是数据的生产者,大妈们经扫码而轻易交付的个人隐私数据也不只是几个字符那么简单,其产生的价值,远远高过换来的一盒鸡蛋。
类似大妈抢鸡蛋的场景在生活中每时每刻都在发生,逛街购物时加的导购的微信、关注的商家公众号,刷抖音快手时浏览过的视频记录,淘宝美团买过的衣服、下过的单……这些都会变成无形的数据资产留存在商家平台上。据测算,预计到2025年,中国产生的数据总量将达48.6ZB,约占全球的27.8%。
数字经济发展迅猛,数据也已经成为社会生产发展重要的生产要素。去年年底,中共中央、国务院对外发布了《关于构建数据基础制度更好发挥数据要素作用的意见》,又称“数据二十条”,提出构建数据产权、流通交易、收益分配、安全治理等制度,初步形成我国数据基础制度的“四梁八柱”。
由此可见,整个数据从确权、交易、收益的分配到安全的治理都是国家非常关注的问题。而涉及到我们生活中的各类数据生产和使用场景,数据要素价值的激活和数据流通过程中的安全、可信则成为一直以来的讨论焦点。
数据流通待解难题:打破数据孤岛
为了数据能真正作为生产要素被用起来,其实在国家层面就已经从数据安全入手实施。党的二十大报告也明确了数据安全与经济安全、金融安全、网络安全同等的地位,在政府工作报告方面也是连续三年提及,关注度逐年增强。法律法规上有《网络安全法》、《数据安全法》、《个人信息保护法》三法联动,此外还推出了部分行业数据安全标准的制定与相关政策规划。
在法律法规的前提下,做好所有的数据在安全方面的分类分级,有利于进一步释放数据要素让其流通。但真正打破数据孤岛,让数据被很好的使用起来,分类分级工作只是第一步,打破数据孤岛才是潜藏在数据流通全生命周期的难点问题。
以国家微生物科学数据中心为例,他们的数据中心目前承担着中国科学院微生物科学数据中心、中国科学院战略生物资源信息中心、以及中国科学院所保藏所有生物资源类型总的数据中心。
与日常生活产生的数据不同,微生物数据是对国家、甚至是人类本身而言尤其特殊的数据。青霉素使人类认识了抗生素家族,其诞生使整个人类的寿命延长了20岁,这是微生物做好事的最典型的例子。微生物又做了很多坏事,每几十年就有一个重大的微生物疾病的产生,新冠到现在来看有7亿人确诊、700万人死亡,这也是小小的微生物带给人类的灾难。
微生物和我们息息相关,无论是好的方向还是坏的方向,对于微生物的科学研究发展都离不开海量数据做支撑。国家微生物科学数据中心承载着众多微生物数据,如何更好地运用这些数据内容,在数据安全的基础上实现数据的互联互通,从而有效释放数据价值?隐私计算功不可没。
“所有的这些数据的涉及面其实比想象中更广,它们不是来自于某一个单位或者某一个部委,而是多渠道的数据的产生,如科学的数据、开源的数据、政务的数据。但同时,这些数据都有很重要的共同点:要求安全、可溯源,并且希望数据可用;此外,最后分析的结果也需要准确,所以还需要很好的标准等等。”国家微生物科学数据中心马俊才主任表示。
马俊才主任所在的微生物数据领域只是一个缩影,金融、政务、能源、制造等行业都存在数据孤岛现象。“我在青海参加中国科学技术和信息化会议的时候,有位专家就说现在的科学数据不是给的太多,而是太少,其实很多研究都需要国外觉得已经开放但是国内还没有开放的数据。”谈及数据安全流转难题,绿盟科技集团首席创新官刘文懋博士也表示。
之所以存在数据孤岛,总结下来:第一是数据存储风险,如被拷走(全盘扫描)磁盘文件或进行虚拟机镜像;第二是数据计算风险,如dump内存获取数据、计算不可信;第三是数据传输风险,简言之即数据在传输过程中被泄露;第四是内部安全运维风险,通常是内部员工权限设置有漏洞,出现“一次授权,永久访问”。
问题存在,但数据流通的价值也很可观。有业内人士曾直言,数据本身的流转创造出来的价值非常大,市场可能在万亿级别。
为了让数据充分释放价值,如何打破数据孤岛的问题随之被提出。
打破数据孤岛,解锁万亿市场
“虽然有的数据没办法直接拿到手,但是有没有可能通过技术手段,让数据不在手中但能被用起来,做到数据的安全计算与安全流转?”
目前,学术界、工业界做的比较多的是隐私计算,在保证数据,特别是敏感数据“可用不可见”的前提下实现数据互联互通。通俗理解隐私计算的实现意义是:我们使用数据时看不到数据本身,原始的数据不会给到用户,但用户能够拿到计算结果。
马俊才表示,对于打破数据孤岛,实现上文他所说的对数据内容的要求,在技术上也有不小的挑战。所以在数据安全上,经过多方合作,形成了一系列的数据安全环境。
“合资伙伴通过这个平台可以在我们平台上传需要进行分析、比对的模型,然后因为我们合作的是基于国产硬件和国产软件可信的计算环境,我们可以把相应计算的功能、数据的服务、可信计算环境在这个‘可信执行环境’下有效的去实现。”在马俊才所说的“可信执行环境”,则是隐私计算的其中一个技术实现方式。
其实,现在行业内主流的隐私计算技术主要分为三大方向:基于现代密码的联邦学习、基于协议的多方安全计算、基于硬件的可信执行环境。不同技术往往组合使用,在保证原始数据安全和隐私性的同时,完成对数据的计算和分析任务。
总的来说,以上三种隐私计算的技术路线都存在各自的优势与劣势,联邦学习(FL)、多方安全计算(MPC)基于软件和协议的方式确保隐私性,其弊端在于需要对算法进行重构,成本比较高,且大量的复杂计算还存在较大的性能瓶颈,难以大规模应用于实际场景;可信执行环境(TEE)计算成本相对低一些,不过需要硬件条件。
但是总体而言,基于可信硬件实现的方式能在保证计算效率的前提下完成安全计算,且大规模应用落地能力更强。
虚拟机级别TEE技术或会改变行业生态
俄罗斯自然科学院外籍院士、中国电子信息产业发展研究院副总工程师刘权认为,“可信执行环境 (TEE)技术和产品加速落地”是数字安全技术发展十大趋势之一。
随着TEE技术的发展,目前行业内发现了或会改变行业生态的有利机制:在TEE芯片上跑虚拟机,即能够在虚拟机里面部署应用、中间件和各种数据库,而不改变它本身的逻辑。
刘文懋博士告诉钛媒体App,目前有AMD SGX和海光的CSV技术,能够实现虚拟机级别TEE。以前ARM的TrustZone、英特尔的SGX为代表的进程级别TEE,其因为升级而需要对程序多方面进行重新改造,成本非常高,现在通过虚拟化、甚至通过容器的方式,不仅可以大幅压缩成本,还能与敏捷开发DevOps实现闭环,开发出来的镜像可以直接放到TEE环境中的仓库里面供可信容器启动。这个模式下没有任何的改造成本,技术能够与用户场景很好结合。
不过,TEE技术尚未完全标准化让相关产品的应用落地很难按下加速键,这也是业界致力于解决的问题。不同厂商使用的处理器存在差异性,并不能完全兼容,让产品开发者和应用者双方面临额外的使用成本与学习成本。
不过,在产品侧和应用侧,中国信通院形成了一套“可信隐私计算评估测试”,其中会围绕多方安全计算、联邦学习、可信执行环境、区块链辅助隐私计算四个技术方向,对参与测试产品的功能、性能、安全、场景、一体机等进行专项测试。
规范测试的好处则是有利于技术提供方与应用需求方产生互信,一方面有利于推动技术提供方紧密贴合实际,让测试产品落地应用,另一方面让需求方形成对隐私计算各类产品的框架、技术要求、测试方法的统一共识,减少信息壁垒。
钛媒体App发现,通过评估测试的企业包括了蚂蚁集团、腾讯云、百度、阿里、华为、火山引擎等巨头互联网公司,绿盟科技、安恒信息、亚信科技等专注安全赛道的公司,微众银行、招商银行、中信银行等金融行业的公司等等。可信隐私计算的应用也已经从金融、政务、通信、互联网、医疗等传统场景扩展到能源、工业、教育、广告、跨境流通等新兴领域。
随着隐私计算应用不断落地,场景版图持续扩张,或许有一天你正打开手机准备扫码,旁边“大妈”凑到耳边来一句:“你知不知道隐私计算?每天抢鸡蛋不用担心数据被滥用了。”(本文首发钛媒体APP 作者 | 贾雨微 编辑 | 秦聪慧)
根据《网络安全法》实名制要求,请绑定手机号后发表评论