洞见科技创始人姚明:隐私计算才是数据价值安全释放的技术最优解
2021-08-20 18:39:47
  • 0
  • 0
  • 0

2020年4月,中共中央、国务院发布《关于构建更加完善的要素市场化配置体制机制的意见》,首次将数据纳入生产要素,定义数据的国家战略地位,并提出加快培育数据要素市场。作为释放数据要素价值的关键环节,数据资源的开放、共享、交换等流通需求日益增加,成为企业数字化转型乃至数字经济发展的重要部分。

然而,近年来数据安全和隐私泄漏事件频发,严重威胁到了数据要素市场的健康发展,并引起了社会公众的广泛关注。为此,国家相继颁布了《网络安全法》、《数据安全法》和《个人信息保护法》等法律法规,在约束和规范市场的同时,也在某种程度上加剧了企业对于数据流通的合法合规性担忧,数据孤岛现象愈演愈烈。

正是在这样的政策与市场背景下,以安全多方计算、联邦学习等技术为代表的隐私计算技术被高度关注,凭借“数据可用不可见”的核心理念成为数据要素市场建设和数据价值安全释放的技术最优解,并迅速形成了新的行业服务领域。根据Gartner预测,到2025年将有一半的大型企业机构使用隐私计算相关技术。隐私计算已然成为驱动数字经济健康发展的重要科技力量之一。

政策引导,隐私计算行业初现

在国家层面,自2016年以来,工业和信息化部、中国人民银行、国家发改委、中央网信办、国家能源局等各部委先后在相关政策文件中明确提出要加强隐私计算相关技术的攻关和应用。

在地方层面,广东省在今年7月发布的《数据要素市场化配置改革行动方案》中提出构建包含隐私计算在内的数据新型基础设施。

政策的提前布局对于我国抢占隐私计算技术前沿和探索关键应用领域奠定了基调。在政策环境的助力下,隐私计算行业迅速形成和发展,相关的技术标准与测评体系也逐步建立。随着越来越多的企业入局隐私计算行业,从技术研究到应用实践,跨大数据与人工智能,隐私计算已经成为数据智能领域最受关注的焦点。

隐私计算,破解数据孤岛困境

在我看来,“数据孤岛”一直是制约数据价值充分释放的客观因素,但造成“数据孤岛”的核心原因在于企业担心数据一旦流通就会有被复制、被缓存和被转售的可能,这不但会产生数据安全和隐私泄漏的风险,还会导致数据贬值。同时,越来越多、越来越严厉的法律法规进一步加剧了企业对于数据流通所涉及的合法合规性以及安全问题的担忧。所以,在强化数据安全和隐私保护的背景下,如何解决数据融合应用和隐私安全保护之间的矛盾是打破“数据孤岛”、促进数据要素流通的最大挑战。

隐私计算的全称是隐私保护计算(Privacy-Preserving Computing)或隐私增强计算(Privacy-Enhancing Computing),其核心理念是将数据可见的具体信息部分和不可见的计算价值部分进行分离,实现“数据可用(可计算)不可见(不可获取)”,进而消除各个数据协同方之间对于数据安全和隐私泄漏的顾虑,从而以技术手段有效的破解“数据孤岛”困境。

从技术原理上来讲,隐私计算的本质是一种由多个参与方在安全信任的条件下进行联合计算的技术。各个参与方在不泄露各自原始数据和商业隐私的前提下,通过加密协作机制对数据进行联合计算和分析,实现数据的融合价值,让数据智能从局部洞察发展到全局洞察。

技术路径,从多态渐成融合

隐私计算的技术实现路径包括安全多方计算、联邦学习、可信执行环境三类典型方案,涵盖混淆电路、秘密分享、不经意传输、同态加密等底层密码学技术,以及零知识证明、差分隐私等辅助技术。在实际应用中,每种技术实现路径都有其适用场景和特点。

安全多方计算(Secure Multi-Party Computing),简称MPC,是由图灵奖获得者姚期智院士于1982年通过提出和解决百万富翁问题而创立,主要基于密码学技术而逐步发展和丰富,涉及同态加密、不经意传输、混淆电路和秘密共享等算法协议来实现,主要适用于统计分析、判断决策、基础查询等常规计算场景。

联邦学习(Federate Learning),简称FL,本质上是一个多方协同的加密机器学习框架,与一般机器学习不同的是,联邦学习能满足多个机构方在保护数据安全和隐私信息的前提下基于全局数据资源进行模型训练,适用于大数据建模与预测分析类的复杂迭代计算场景。对于不同训练场景的数据集特点,联邦学习又可以分为纵向联邦学习、横向联邦学习和混合联邦学习(也称迁移学习)三类,分别对应于补充特征维度、补充样本数量和同时补充的情况。

可信执行环境(Trusted Execution Environment),简称TEE,是通过硬件执行环境限制来对数据和计算进行隔离保护,隔离的具体实现包括中断隔离、RAM的隔离和外设的隔离、芯片内部RAM和ROM的隔离等。隔离旨在将一个CPU物理核分成安全状态和非安全状态,当物理核处于非安全状态时只能访问非安全的外设和内存;当物理核处于安全状态时,可以访问安全资源也可以访问非安全资源。可信执行环境需要硬件厂商授权,适用于对计算速度要求高,但对数据保护与安全合规要求较低的应用场景。

这三类技术实现路径既有共同点也有差异之处。在应用场景上都适用于多方数据的联合计算,但安全多方计算不限定是机器学习建模,也可以进行基础运算、集合运算等;联邦学习则更聚焦于机器学习建模,在模型训练过程中也可以结合安全多方计算来进一步保护数据安全和隐私;基于可信执行环境进行联合计算时需要原始数据加密后出私域,是基于安全边界的模式,但其安全边界范围较小,仅存在于硬件芯片本身,TEE虽然能够实现相对更快速的计算能力,但相比MPC、FL,其原始数据在逻辑上是脱离私域的,存在安全争议。

曾在过去一段时间,行业内对于上述三种技术实现路径之间的比较和争论较多,但我们团队始终坚持多技术融合路线,倡导面向计算场景的自适应计算引擎,这也成了当前整个行业技术发展的趋势。

除了安全多方计算、联邦学习、可信执行环境这三个方向的隐私计算技术实现路径外,隐私计算往往还会结合差分隐私、数据脱敏、匿名化等其他数据安全技术来使用,以及采用区块链技术作为增强多方之间信任的辅助工具。

应用元年,行业仍处早期阶段

2020年被认为是隐私计算元年,行业发展一年多以来,隐私计算技术已经在许多行业领域取得了应用,但我认为目前行业整体仍处于发展初期,有赖于更广泛的市场教育和更多业务场景的落地推广。相应的,国内隐私计算相关的多项技术标准已经陆续发布,且已经从基础的功能标准向性能专项、安全专项、技术融合等方向拓展,加速构建更加完善的隐私计算标准体系。在数据安全和隐私保护的浪潮下,隐私计算逐渐成为各方关注的新风口,吸引越来越多的企业进入这一行业领域。

按公司类型,业内企业大致可分为专精型隐私计算公司、大数据服务或金融科技公司、泛区块链公司及互联网大厂等几类。

按产品功能,上述几类公司的隐私计算平台产品数量近两年呈现爆发式增长态势,从最初的几个到如今的几十个。从平台技术角度而言,包括开源和闭源两类,大部分产品都基于联邦学习、安全多方计算、可信执行环境中的某一种,或其中部分技术融合来提供隐私计算服务,普遍具备了节点管理、资源管理、数据处理、联合计算、联合建模、匿踪查询等基础功能,能够满足用户的通用性需求。

按商业模式,主要分为三种:一是软硬件产品部署和项目建设方式收费模式;二是数据资源接入,根据不同业务场景提供的原生数据进行抽成收费模式;三是基于平台使用和数据价值解读的咨询服务,提供不同的数据智能运营服务收费模式。

行业赋能,数据流通范式的安全升级

隐私计算技术的可应用场景十分广泛,当前主要集中在拥有大量数据使用及数据协同需求的政务、金融和医疗等领域。

在政务领域,隐私计算能提供政府数据、金融数据与互联网企业等社会数据融合的解决方案,助力政府数据面向金融领域的定向开放,促进实体经济发展。且以隐私计算技术支撑的银企对接服务平台创新模式,目前也已成为政务金融领域数据安全流通的典型案例。

在金融领域,隐私计算主要应用于金融机构内外部数据协作,在不泄露客户信息、不获取第三方原始信息的前提下,赋能其业务降本增效。

此外,医疗也是隐私计算技术发挥价值的重要领域。隐私计算能够在医学影像识别、疾病筛查、AI辅助诊疗、智能问诊咨询等场景内提供安全的数据协同机制,例如多家医疗机构之间可以通过横向联邦学习联合构建目标检测模型,用于辅助通过医疗图像的疾病检查。

除了政务、金融、医疗等领域的应用场景外,隐私计算技术也开始呈现出向更多行业扩散的态势,逐步在智慧能源、智慧终端、智慧城市等更多场景取得探索性应用落地。

未来已来,构建全域互通的数据智能联邦网络

在我看来,未来的数字世界是构建在数据要素充分流通的基础上的,而隐私计算作为能够完美解决数据“既要流通、又要安全”的最优技术解,其市场潜力无疑是巨大的。但是,隐私计算作为一种新兴技术,在快速发展的同时也面临着诸多挑战,例如:

(一)隐私计算作为一项基础设施技术,是数据新基建的重要一环,对参与方的数据规范性和数据质量要求较高,目前除了政务、金融和少数行业领域能满足外,这一点仍是普遍性难题;

(二)隐私计算的安全合规性需要数据安全相关法律法规的对应解读,例如分类分级后的数据安全如何对应隐私计算的技术指标;

(三)由于隐私计算技术加密机理复杂、交互次数多,当需要流通的数据量巨大或结构特别复杂时,性能仍需大幅提高;

(四)隐私计算的本质是多方协同模式下的安全计算技术,所以需要提升各个参与方之间的信任度,消除可信风险问题;

(五)隐私计算作为数据要素流通的协议层技术,由于不同厂商间算法原理和技术实现的差异化,会在打破“数据孤岛”后形成“计算孤岛”,因此必须解决跨平台互联互通的问题。

前两点是需要隐私计算行业与监管机构和其他行业共同推进的,而后三点则是来自隐私计算行业内部的挑战。

对于第三点,隐私计算行业内的大部分厂商都在进行有针对性的的算法与算力优化,包括算法创新与硬件加速等。

针对第三方可信风险问题,行业内厂商在分别进行理论研究和技术实践,例如研究无可信第三方的联邦学习算法、引入区块链作为增强多方信任的工具。

对于异构隐私计算平台间互联互通的问题,相应的技术标准框架已经确定,细则正在逐步完善,我们也在一些具体案例中进行了前瞻性的实施,涵盖从资源层到算法层再到原语层的互联互通,这将影响到未来数据智能网络如何由“局域网”发展为“广域网”。

展望未来,在愈发严厉的数据安全保护法规、愈发明确的隐私计算政策指引和愈发完善的技术标准体系建设下,隐私计算将在技术深度、产品功能、性能安全、应用场景等各方面持续进化,不断赋能企业数字化、智能化转型升级,通过筑牢企业的数据安全底座和数据流通基础设施,构建以技术信任链接的互联互通的全域数据智能网络,真正实现全社会数据价值的安全释放。

作者个人简介

姚明,洞见科技创始人、董事长。前中诚信征信副总裁兼CTO,曾担任中国互联网金融协会信用专委会委员,CFT50智能风控委员会副主任,清华大学X-Lab区块链公开课特聘导师,大连理工大学大数据公开课特聘导师,职业生涯起于著名的科技殿堂贝尔实验室,是中国大数据征信行业及隐私计算和区块链技术融合首批践行者。

 
最新文章
相关阅读