商业银行生产数据漂白设计与实现由刀豆文库小编整理,希望给你工作、学习、生活带来方便,猜你可能喜欢“商业银行数据分析”。
摘 要:在非生产环境中使用生产数据,减少数据使用的限制,就必须保障数据中涉及客户和生产的敏感信息不外泄。这就需要对数据进行漂白,或称脱敏,即通过数据变换的方法去除敏感信息。银行业监管机构明确要求商业银行须规避信息风险,对客户资产安全以及敏感信息提供完善的保护。如何去除数据中的敏感信息,又不改变数据的完整性和一致性,是数据安全管理需要解决的问题。本文就数据漂白的范围、目标、方法以及流程的论述。
关键词:数据漂白 目标 流程
一、数据漂白背景
目前我行生产数据到测试数据没有经过脱敏、变形处理而直接加载到测试环境,这将存在泄漏客户信息的风险并严重违反监管机构的要求。根据银监会《银行业金融机构重要信息系统投产及变更管理办法》第二十二条规定“银行业金融机构应加强重要信息系统投产及变更过程中的数据管理与质量控制,测试环境中使用的敏感生产数据应进行脱敏、变形处理”,所以客户信息数据脱敏、变形工作迫在眉睫。
二、数据漂白范围
金融数据漂白解决方案是运用成熟脱密算法对客户敏感数据进行漂白处理,并使漂白后的数据仍保持数据的一致性、完整性。可漂白的数据内容有: & 名称类:如客户姓名、客户名等; & 证件类:如身份证号码等;
& 联系方式类:如联系电话号、手机号、地址等 & 密码类:如查询密码、取款密码、柜员密码 & 资金类:如存款金额、贷款金额等; & 时间日期类:如生日等;
并同时制定银行业非生产数据的管理规范和流程,制定管理岗位和职责,解决系统开发、测试时客户敏感信息外泄的问题。
三、数据漂白目标
数据漂白既要去除敏感信息,又要满足测试部门测试需求;数据漂白工作必须保持漂白后的数据一致性、完整性,避免数据关联。数据漂白就是通过数据变换的方法去除数据中的敏感信息,不同于数据加密,数据漂白可以是不可逆的过程。
四、数据漂白技术特点
& 适合多种不同的数据库系统,如db2、oracle、sybase等; & 性能可靠,漂白效率高,经过测试,同样数据量的数据(如核心系统100万条客户信息表),漂白效率比ibm optim数据漂白产品高(快0.85秒)。
& 数据源、目标库灵活配置,数据漂白过程监控,结果查询; & 灵活性、参数化、可配置性。数据漂白架构图
五、数据漂白方法
(一)置换类方法
针对某些集合数据,通过置换的方法对数据进行漂白。例如将生产环境的身份证号码建立一个集合,只是顺序发生变化,通过置换就可以将真实的身份证号码换成一个新的身份证号码。置换可以是直接置换,即把一个现有的地名,通过查表置换成新地名,也可以随机置换,即通过一个随机数查询集合中的地名,替换真实数据中的地名。这类方法也可以用新集合代替现有码表,以达到数据漂白的目的。
(二)生成类方法
对邮件地址、电话号码、姓名等内容的漂白,可以通过算法随机生成相应的字段值,以达到漂白的目的,如将姓名置换成cname001,cname002等,且漂白后的名字不重复。
(三)日期类方法
这类方法主要针对日期的变化,如果年龄发生了变化,很可能相应的日期也会随之变化,否则就会发生不合业务逻辑的数据。
(四)组合类方法
组合类方法可以生成通信地址,一个完整的地址包括省、市、区、街道、门牌等,可以采用组合类的方法生成不重复的地址。姓名的漂白主要看用户对姓名要求的高低,直接把姓名替换成一个字符串也是一种漂白,但是用户要求比较高,例如要求姓名不能有太多重复且高效率,可以将姓名分解成姓、中间字、第三字,也可以通过组合方法实现漂白。
六、数据漂白的流程
一般数据漂白流程跟etl一致,etl是数据抽取(extract)、清洗(cleaning)、转换(transform)、装载(load)的过程。为规避风险,在我行数据漂白过程由三个团队完成: 1. 通常由测试中心相关人员提交数据需求;
2. 数据抽取由存储管理团队从生产环境的带库恢复到磁盘上,同时就数据文件加载到数据库中;
3. 数据漂白团队根据测试中心要求进行数据漂白, 4. 待数据漂白完成后通知dba将数据库导出成数据文件并将数据文件加密后交接给测试中心相关人员;
5. 测试中心相关人员将得到的数据文件进行装载。这样,整个数据漂白过程结束。