什么是去匿名化
去匿名化是数据挖掘中的一种技术,可以重新标识加密或通用信息。 去匿名化(也称为数据重新识别)将匿名信息与其他可用数据进行交叉引用,以识别个人,团体或交易。
打破匿名
精通技术的时代正在迅速破坏经济各个部门的传统做事方式。 近年来,金融业已经看到了由金融科技公司引入的许多数字产品。 这些创新产品促进了金融包容性,从而使更多的消费者以比传统金融机构所允许的更低的成本获得金融产品和服务。 技术实施的兴起带来了数据收集,存储和使用的增加。 诸如社交媒体平台,数字支付平台和智能手机技术之类的技术工具已经发布了众多公司用来增强与消费者互动的大量数据。 大量数据被称为大数据,并引起个人和监管机构的关注,他们呼吁制定更多保护用户身份和隐私的法律。
去匿名化的工作原理
在大数据时代,通过云计算即时共享有关用户在线活动的敏感信息,数据匿名化工具已被用来保护用户的身份。 匿名化掩盖了在各个领域进行交易的用户的个人身份信息(PII),例如健康服务,社交媒体平台,电子商务行业等。PII包括诸如出生日期,社会安全号码(SSN),邮政编码和IP等信息。地址。 掩盖在线活动留下的数字痕迹的需求已导致实施匿名化策略,如加密,删除,泛化和干扰。 尽管数据科学家使用这些策略从共享数据中分离敏感信息,但他们仍保留原始信息,从而为重新识别的可能性打开了大门。
通过将共享但有限的数据集与易于在线访问的数据集进行匹配,去匿名化可以逆转匿名化过程。 然后,数据挖掘者可以从每个可用数据集中检索一些信息,以汇总一个人的身份或交易。 例如,数据挖掘者可以检索由电信公司,社交媒体站点,电子商务平台和公开可用的普查结果共享的数据集,以确定用户的姓名和频繁活动。
如何使用去匿名化
当发布新信息或实施的匿名策略执行不正确时,重新标识可能会成功。 由于每天都有大量的数据和有限的可用时间,因此数据分析人员和矿工正在执行决策过程中称为启发式的捷径。 试探法在梳理数据集时可以节省宝贵的时间和资源,但如果实施了错误的试探法工具,它也可能会产生漏洞。 数据挖掘者可以为合法或非法目的对数据集进行匿名处理,从而发现这些差距。
通过去匿名技术非法获取的个人身份信息可以在地下市场中出售,这也是匿名平台的一种形式。 落入不法之手的信息可被用于胁迫,勒索和恐吓,从而导致隐私问题,并给成为受害者的企业造成巨大损失。
取消匿名也可以合法使用。 例如,丝绸之路网站(一个非法毒品的地下市场)由一个名为Tor的匿名网络托管,该网络使用洋葱策略来掩盖其用户的IP地址。 Tor网络还托管着其他两个非法市场,包括枪支,被盗信用卡和敏感公司信息。 通过使用复杂的去匿名工具,FBI成功破解并关闭了丝路和从事儿童色情活动的站点。
重新识别过程的成功证明了不能保证匿名性。 即使今天采用了突破性的匿名工具来掩盖数据,随着新技术和新数据集的出现,也可以在几年内重新识别数据。