近年来,在很多揭露诈骗的报道中,经常出现老太太接到电话说孙子出事,老板接到电话说税务局要办税的情况检查。
其实,这与骗子从“投网式诈骗”升级为“精准诈骗”密切相关。如今竞争如此激烈,一群骗子以大数据工匠精神进化成了大骗子。据了解,不少骗子在非法获取个人信息后,会利用大数据的手段进行分析,根据用户信息的特点设计诈骗环节和故事,从而进行“精准诈骗”。而“航班取消”、“二胎退款”、“建议增仓”、“交通违章提醒”、“信用卡限额”等,都已成为骗子惯用的伎俩。
事实上,这些技巧在专业数据分析师眼中并不是什么神奇的东西。今天,我们就请“朝阳35”专家为我们揭开骗子“精准诈骗”的秘密。
为了欺骗你,骗子最需要以下三种数据
要想成为成功率高的大骗子,首先要获取客户数据,无论这些数据是通过“特洛伊木马”传播收集的,还是在地下数据交易市场中获得的。在数据中,骗子比较关注的有三类:
一个是身份信息。最常见的形式是姓名和身份证号码的形式。这类信息大量出货,通过各种渠道泄露。市场供大于求。还有扩展的性别、年龄、工作单位、职级、年收入等,通常来源于收入调查和黑客拖拽数据库数据。
二是财务信息,如姓名、银行卡号、信用卡号、发卡行、手机、地址、信用额度等数据。公司、邮局、物流点都可能成为泄露点,另外一小部分是内部鬼数据,供不应求,在市场上极具价值。
第三个是金融账户密码,主要用于各大银行登录,通常是黑客数据,来自网络钓鱼、撞库等黑客行为。更详细的财务数据,比如详细的交易流程,往往可以通过这些数据获得。 .
为“精确欺诈”使用特征选择
骗子一旦掌握了以上数据,就会筛选出容易被骗的“席位”。只要用大数据的思维方式,“选择容易上当的人”的需求就变成了有监督的模型学习问题。一般来说,有监督模型的特征选择有五种方法:
使用相关性对变量进行排名
自变量x1,x2,..xn,目标变量y,变量xi和y的相关性越高,xi包含的预测y的信息量越大,其排名也越高。相关系数可以用来衡量两个变量的线性相关性:
使用相关系数对变量进行排序存在以下问题:
(1)只考虑单个变量的重要性。很多变量单独存在时是无用的,但与其他变量结合起来,就会发挥很大的作用;
(2)取决于自变量和目标变量之间的线性假设。
(3)适用于回归问题,即目标变量y是连续的,分类问题需要谨慎使用。
单变量分类器
如 1 中所述,对于分类问题,按相关性对变量进行排序可能会有问题。将上述思想扩展到分类问题的一种简单方法是构造一个单变量分类器,然后通过单个变量对 y 的预测能力进行排名。单变量的预测能力可以通过各种指标来评估,例如 IV 或 AUC。此外,分类变量的卡方检验也是筛选特征的常用方法。基本思想是假设两个变量是独立的,用列联表中的数据计算实际频率与理论频率的差值。如果有显着差异,则拒绝原始频率。假设变量之间存在相关性,否则接受原假设。
信息增益
信息增益是一种有效的特征选择方法,其公式:
公式的解释是:原始分类的信息熵减去加入特征后分类的条件熵,两者之差就是这个特征给分类带来的“净化”程度,如果信息增益越大,特征对分类越有价值。其中,熵表示不确定程度,分布越均匀,越不确定,熵越大。
逐步回归
以上三种方法都是对单个变量进行排序,不能考虑这个变量与其他变量结合时的影响。要解决这个问题,可以使用 , , 和 的方法。
就是从截距项开始,按照显着性水平将自变量一一添加到模型中,直到不能添加满足显着性水平的变量。
一开始,所有变量都在模型中,不满足显着性水平的变量依次剔除。值得一提的是,在某些情况下,多个变量对目标变量并不显着,但组合起来可以显着提高模型的性能,这种情况下变量在采用的情况下无法进入模型,采用可以解决这个问题。
图一
如图1(a)所示,X2变量(纵轴)可以区分分类1、0大数据培训是骗局,X1变量(横轴)完全不显着,如图1(b)所示,将X2变量替换为X3变量,两个变量组合的判别能力优于前一个变量,完全不显着的变量可以与其他变量组合,显着提高判别能力。
,将变量按照显着性水平一一添加,对添加的变量进行显着性检验。如果原始变量由于添加新变量而不再显着,则将从模型中删除。这样做的好处是可以保证方程中的所有变量都是显着的,方程外没有显着的变量。
图2流程图
套索返回
为了进一步消除变量之间的共线性问题,可以使用Lasso回归。本质是在损失函数中加入一个惩罚函数项,增加细微的偏差以换取更小的预测方差,使模型变量更细化,更具解释性。
其中,惩罚约束用于筛选拟合模型中的系数。当t值小到一定程度时,估计参数估计为0,起到了变量筛选的作用。当t继续增大时,选择进入模型的变量数量会增加,当t增大到一定值时,所有变量都会进入,相当于传统方法的参数估计。
图 3
如图3所示,L1归一化的约束条件是图中坐标中心的正方形区域,而传统方法的最小偏差估计是从第一象限椭圆区域向外展开,所以最优解在两者之间的临界点,即正方形和椭圆对应的切点,此时对应的q1为0,起到了变量筛选的作用。
大数据如何筛除容易骗人的信用卡诈骗
让我们再举一个信用卡取款欺诈的例子。根据目前披露的数据,一家银行在短短三个月内就收到了6000多起诈骗客户投诉,占诈骗案件总数的48%以上。为什么这么多人被这种看似老套的骗局所欺骗?
正如我们前面提到的,特征选择消除了不重要的变量,可以有效地提高模型的预测能力大数据培训是骗局,降低模型的复杂度,减少更多的预测方差,增强模型的可解释性。我们以信用卡申请人的一组信息作为样本,模拟欺诈者的筛选过程。
图 4
见图4,客户信息“特征选择”后,可以看出“金额”、“年龄”、“发卡渠道”、“性别”、“婚姻状况”是变量最多的信息价值。榜单从这五个维度进行筛选,进行“精准造假”。
图 5
那么,根据所选的五个维度的特点,谁最容易上当?通过网络应用数据,我们得到图5的结果,其中横坐标代表被欺骗的难易程度。数值越大,越容易上当受骗。从图中可以看出:
1、信用卡额度低但资金需求大的年轻人(18-25岁)更容易增加额度,容易成为目标人群;
2、通过互联网发行的卡可能更容易泄露信息;
3、单身男人通常容易上当受骗、麻烦,而且缺乏帮助的资源,很容易被骗子利用。
古语有云,知己知彼,百战不殆。只有深入了解骗子的手段,才能更好地做好反欺诈工作,有针对性地做一些数据挖掘工作。另一方面,电话诈骗的根本原因仍然是数据泄露问题。相关企业应加强对信息安全的投入,我们每个人都要树立隐私数据保护的安全意识,共同维护安全的信息生态系统。并且努力工作。
为了给从事互联网金融大数据分析的朋友提供更多交流和交流的机会,欢迎您扫描下方二维码加入“互联网金融大数据专家通讯录”,所以以加深相互了解,多讨论!
关于“朝阳35处”
我们是前海征信的专业大数据挖掘团队。我们不仅是数据科学家,也是数据玩家。我们不仅用数据挖掘技术解决专业领域的问题,更喜欢在各个领域发现数据的乐趣,以有趣、通俗易懂的方式为您提供新鲜可靠的内容。我们每周都会定时推送一款原创干货,欢迎大家点击本帖最下方“留言”,与我们及广大大数据爱好者实时交流讨论。请回复“朝阳35”,获取“安二少药”大数据奇闻趣事全系列。