首页 异常交易检测模型的训练以及异常交易检测的方法和装置

异常交易检测模型的训练以及异常交易检测的方法和装置

举报
开通vip

异常交易检测模型的训练以及异常交易检测的方法和装置(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN109948728A(43)申请公布日2019.06.28(21)申请号201910243559.X(22)申请日2019.03.28(71)申请人第四范式(北京)技术有限公司地址100085北京市海淀区上地东路35号颐泉汇大厦写字楼A座610室(72)发明人王昱森 周振华 李云鹏 (74)专利代理机构北京铭硕知识产权代理有限公司11286代理人张川绪 曾世骁(51)Int.Cl.G06K9/62(2006.01)G06Q40/04(20...

异常交易检测模型的训练以及异常交易检测的方法和装置
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN109948728A(43)申请公布日2019.06.28(21)申请号201910243559.X(22)申请日2019.03.28(71)申请人第四范式(北京)技术有限公司地址100085北京市海淀区上地东路35号颐泉汇大厦写字楼A座610室(72)发明人王昱森 周振华 李云鹏 (74)专利代理机构北京铭硕知识产权代理有限公司11286代理人张川绪 曾世骁(51)Int.Cl.G06K9/62(2006.01)G06Q40/04(2012.01)G06Q40/02(2012.01)权利要求书2页说明书13页附图3页(54)发明名称异常交易检测模型的训练以及异常交易检测的方法和装置(57)摘要本发明提供一种异常交易检测模型的训练以及异常交易检测的方法和装置。其中,一种异常交易检测模型的训练方法包括:接收所获取的第一交易样本数据集,其中,第一交易样本数据集中的各第一交易样本数据是正常交易样本数据;对第一交易样本数据集进行特征提取处理,得到第一交易样本特征集;基于所述第一交易样本特征集,采用无监督机器学习算法训练得到异常交易检测模型,记录基于无监督机器学习算法获得的每个簇的核心位置和半径。CN109948728ACN109948728A权 利 要 求 书1/2页1.一种异常交易检测模型的训练方法,包括:接收所获取的第一交易样本数据集,其中,第一交易样本数据集中的各第一交易样本数据是正常交易样本数据;对第一交易样本数据集进行特征提取处理,得到第一交易样本特征集;基于所述第一交易样本特征集,采用无监督机器学习算法训练得到异常交易检测模型,记录基于无监督机器学习算法获得的每个簇的核心位置和半径。2.如权利要求1所述的训练方法,其中,所述训练方法还包括:输出所述异常交易检测模型和所记录的每个簇的核心位置和半径。3.如权利要求1所述的训练方法,其中,第一交易样本特征集中的各第一交易样本的特征包括从第一交易样本数据中提取的以下特征中的一个或多个:时间属性特征、金额属性特征、金额分布属性特征、同品类属性特征、同地区属性特征。4.如权利要求1所述的训练方法,其中,基于所述第一交易样本特征集采用无监督机器学习算法训练得到异常交易检测模型的 步骤 新产品开发流程的步骤课题研究的五个步骤成本核算步骤微型课题研究步骤数控铣床操作步骤 包括:将所述第一交易样本特征集中的各第一交易样本的特征进行按列归一化;基于按列归一化后的各第一交易样本的特征,采用无监督机器学习算法训练得到异常交易检测模型。5.如权利要求1所述的训练方法,其中,所述无监督机器学习算法包括k-means算法、DBSCAN算法或孤立森林算法。6.一种异常交易检测方法,包括:接收待检测的第二交易样本数据;对所述第二交易样本数据进行特征提取处理,得到第二交易样本的特征;将所述第二交易样本的特征输入基于无监督机器学习算法的异常交易检测模型,得到预测结果;根据所述预测结果和所述异常交易检测模型的每个簇的核心位置和半径进行判断,当判断出所述第二交易样本的特征不属于所述异常交易检测模型的任一个簇时,输出所述第二交易样本数据为异常交易的检测结果。7.一种存储有计算机程序的计算机可读存储介质,当所述计算机程序在被处理器执行时实现权利要求1至6中的任意一项所述的方法。8.一种计算装置,包括:一个或多个处理器;一个或多个存储器,存储有计算机程序,当所述计算机程序被所述一个或多个处理器执行时,实现权利要求1至6中的任意一项所述的方法。9.一种异常交易检测模型的训练装置,包括:接收单元,被配置为接收所获取的第一交易样本数据集,其中,第一交易样本数据集中的各第一交易样本数据是正常交易样本数据;特征处理单元,被配置为对第一交易样本数据集进行特征提取处理,得到第一交易样本特征集;训练与记录单元,被配置为基于所述第一交易样本特征集,采用无监督机器学习算法训练得到异常交易检测模型,记录基于无监督机器学习算法获得的每个簇的核心位置和半2CN109948728A权 利 要 求 书2/2页径。10.一种异常交易检测装置,包括:接收单元,被配置为接收待检测的第二交易样本数据;特征处理单元,被配置为对所述第二交易样本数据进行特征提取处理,得到第二交易样本的特征;输入单元,被配置为将所述第二交易样本的特征输入基于无监督机器学习算法的异常交易检测模型,得到预测结果;检测单元,被配置为根据所述预测结果和所述异常交易检测模型的每个簇的核心位置和半径进行判断,当判断出所述第二交易样本的特征不属于所述异常交易检测模型的任一个簇时,输出所述第二交易样本数据为异常交易的检测结果。3CN109948728A说 明 书1/13页异常交易检测模型的训练以及异常交易检测的方法和装置技术领域[0001]本发明涉及机器学习和金融交易的交叉领域,尤其涉及异常交易检测模型 的训练方法、装置,异常交易检测方法、装置,以及计算设备和存储有计算机 程序的计算机可读存储介质。背景技术[0002]随着科学技术和社会经济的繁荣发展,金融交易(例如,基于互联网的金 融交易等)也越来越频繁,并且愈发重要。例如,银行等金融机构会依据企业 的金融交易情况来进行融资授信额度的评定和贷款发放。[0003]然而,由于在金融交易中往往造假成本低、收益空间大,因此会存在企业 通过构造虚假的金融交易来骗取利益,例如,从银行骗取贷款等。在面对异常 交易(例如,造假的交易)时,传统的通过发票等手段进行验伪的方式不具备 实时性,无法满足银行和企业在互联网时代的高效诉求,而如果通过有监督机 器学习方法进行实时监测时,则又需要大量的有标签样本进行训练,而样本的 收集和标注工作也会耗费大量的时间和人力成本,而且存在误判的情况。发明 内容 财务内部控制制度的内容财务内部控制制度的内容人员招聘与配置的内容项目成本控制的内容消防安全演练内容 [0004]本发明的目的在于提供一种异常交易检测模型的训练方法和异常交易检 测方法。[0005]本发明的一方面提供一种异常交易检测模型的训练方法,包括:接收所获 取的第一交易样本数据集,其中,第一交易样本数据集中的各第一交易样本数 据是正常交易样本数据;对第一交易样本数据集进行特征提取处理,得到第一 交易样本特征集;基于所述第一交易样本特征集,采用无监督机器学习算法训 练得到异常交易检测模型,其中,通过异常交易检测模型,记录基于无监督机 器学习算法获得的每个簇的核心位置和半径。[0006]可选地,所述训练方法还包括:输出所述异常交易检测模型和所记录的每 个簇的核心位置和半径。[0007]可选地,第一交易样本特征集中的各第一交易样本的特征包括从第一交易 样本数据中提取的以下特征中的一个或多个:时间属性特征、金额属性特征、 金额分布属性特征、同品类属性特征、同地区属性特征。[0008]可选地,基于所述第一交易样本特征集采用无监督机器学习算法训练得到 异常交易检测模型的步骤包括:将所述第一交易样本特征集中的各第一交易样 本的特征进行按列归一化;基于按列归一化后的各第一交易样本的特征,采用 无监督机器学习算法训练得到异常交易检测模型。[0009]可选地,所述无监督机器学习算法包括k-means算法、DBSCAN算法或 孤立森林算法。[0010]可选地,所述无监督机器学习算法是k-means算法,采用k-means算法训 练得到异4CN109948728A说 明 书2/13页常交易检测模型的步骤包括:在所述第一交易样本特征集中,确定k 个初始簇的核心位置,其中,k的值基于所述第一交易样本特征集来确定;基 于预定k个初始簇的核心位置,使用k-means算法对所述第一交易样本特征集 进行聚类,直到 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 测度函数开始收敛为止。[0011]可选地,第一交易样本数据是企业加入供应链金融之前的交易样本。[0012]本发明的一方面提供一种异常交易检测方法,包括:接收待检测的第二交 易样本数据;对所述第二交易样本数据进行特征提取处理,得到第二交易样本 的特征;将所述第二交易样本的特征输入基于无监督机器学习算法的异常交易 检测模型,得到预测结果;根据所述预测结果和所述异常交易检测模型的每个 簇的核心位置和半径进行判断,当判断出所述第二交易样本的特征不属于所述 异常交易检测模型的任一个簇时,输出所述第二交易样本数据为异常交易的检 测结果。[0013]可选地,所述异常交易检测模型按照如上所述的任一项训练方法得到的, 其中,所述对所述第二交易样本数据进行特征提取处理,与如上所述的任一项 训练方法中的对第一交易样本数据集进行特征提取处理的过程相同。[0014]可选地,当第二交易样本的特征与每个簇的核心位置之间的距离大于预定 赋能系数与相应簇的半径的乘积时,判断出所述第二交易样本的特征不属于所 述异常交易检测模型的任一个簇。[0015]可选地,当第二交易样本的特征与至少一个簇的核心位置之间的距离等于 或小于预定赋能系数与所述至少一个簇的半径的乘积时,输出所述第二交易样 本数据为正常交易的检测结果。[0016]可选地,响应于所述第二交易样本数据为正常交易的检测结果,选择性地 基于所述第二交易样本数据更新所述异常交易检测模型。[0017]可选地,基于所述第二交易样本数据更新所述异常交易检测模型的步骤包 括:将所述第二交易样本数据和所述异常交易检测模型中的训练交易样本数据 作为新的训练交易样本数据作为所述异常交易检测模型的训练输入,以更新所 述异常交易检测模型。[0018]可选地,所述第二交易样本数据是企业加入供应链金融之后的交易样本。[0019]本发明的一方面提供一种存储有计算机程序的计算机可读存储介质,当所 述计算机程序在被处理器执行时实现如上所述任意一项的方法。[0020]本发明的一方面提供种计算装置,包括:一个或多个处理器;一个或多个 存储器,存储有计算机程序,当所述计算机程序被所述一个或多个处理器执行 时,实现如上任意一项所述的方法。[0021]本发明的一方面提供一种异常交易检测模型的训练装置,包括:接收单元, 被配置为接收所获取的第一交易样本数据集,其中,第一交易样本数据集中的 各第一交易样本数据是正常交易样本数据;特征处理单元,被配置为对第一交 易样本数据集进行特征提取处理,得到第一交易样本特征集;训练与记录单元, 被配置为基于所述第一交易样本特征集,采用无监督机器学习算法训练得到异 常交易检测模型,记录基于无监督机器学习算法获得的每个簇的核心位置和半 径。[0022]可选地,所述训练装置还包括:输出单元,输出所述异常交易检测模型和 所记录的每个簇的核心位置和半径。[0023]可选地,第一交易样本特征集中的各第一交易样本的特征包括从第一交易 样本5CN109948728A说 明 书3/13页数据中提取的以下特征中的一个或多个:时间属性特征、金额属性特征、 金额分布属性特征、同品类属性特征、同地区属性特征。[0024]可选地,训练与记录单元被配置为:将所述第一交易样本特征集中的各第 一交易样本的特征进行按列归一化;基于按列归一化后的各第一交易样本的特 征,采用无监督机器学习算法训练得到异常交易检测模型。[0025]可选地,所述无监督机器学习算法包括k-means算法、DBSCAN算法或 孤立森林算法。[0026]可选地,所述无监督机器学习算法是k-means算法,训练与记录单元被配 置为:在所述第一交易样本特征集中,确定k个初始簇的核心位置,其中,k 的值基于所述第一交易样本特征集来确定;基于预定k个初始簇的核心位置, 使用k-means算法对所述第一交易样本特征集进行聚类,直到标准测度函数开 始收敛为止。[0027]可选地,第一交易样本数据是企业加入供应链金融之前的交易样本。[0028]本发明的一方面提供一种异常交易检测装置,包括:接收单元,被配置为 接收待检测的第二交易样本数据;特征处理单元,被配置为对所述第二交易样 本数据进行特征提取处理,得到第二交易样本的特征;输入单元,被配置为将 所述第二交易样本的特征输入基于无监督机器学习算法的异常交易检测模型, 得到预测结果;检测单元,被配置为根据所述预测结果和所述异常交易检测模 型的每个簇的核心位置和半径进行判断,当判断出所述第二交易样本的特征不 属于所述异常交易检测模型的任一个簇时,输出所述第二交易样本数据为异常 交易的检测结果。[0029]可选地,所述异常交易检测模型按照如上所述的任一项训练方法得到的, 其中,特征处理单元对所述第二交易样本数据进行的特征提取处理,与如上任 一项所述的训练方法中的对第一交易样本数据集进行特征提取处理的过程相 同。[0030]可选地,检测单元被配置为:当第二交易样本的特征与每个簇的核心位置 之间的距离大于预定赋能系数与相应簇的半径的乘积时,判断出所述第二交易 样本的特征不属于所述异常交易检测模型的任一个簇。[0031]可选地,检测单元被配置为:当第二交易样本的特征与至少一个簇的核心 位置之间的距离等于或小于预定赋能系数与所述至少一个簇的半径的乘积时 输出所述第二交易样本数据为正常交易的检测结果。[0032]可选地,所述异常交易检测装置还包括:更新单元,被配置为响应于所述 第二交易样本数据为正常交易的检测结果,选择性地基于所述第二交易样本数 据更新所述异常交易检测模型。[0033]可选地,更新单元被配置为:将所述第二交易样本数据和所述异常交易检 测模型中的训练交易样本数据作为新的训练交易样本数据作为所述异常交易 检测模型的训练输入,以更新所述异常交易检测模型。[0034]可选地,所述第二交易样本数据是企业加入供应链金融之后的交易样本。[0035]本发明这种利用基于无监督机器学习算法进行异常交易检测的技术 方案 气瓶 现场处置方案 .pdf气瓶 现场处置方案 .doc见习基地管理方案.doc关于群访事件的化解方案建筑工地扬尘治理专项方案下载  由于考虑到了金融交易场景的特性而采用了无监督机器学习算法,从而实现可 解释、易于可视化的简单模型,即能够符合监管的要求,又能够将算法逻辑可 视化给业务人员,帮助他们更好的理解预警逻辑,对交易后续的运营也能够提 供建议,并且能够提供较高的检测准确6CN109948728A说 明 书4/13页率。[0036]将在接下来的描述中部分阐述本发明总体构思另外的方面和/或优点,还 有一部分通过描述将是清楚的,或者可以经过本发明总体构思的实施而得知。附图说明[0037]通过下面结合示例性地示出一例的附图进行的描述,本发明的上述和其他 目的和特点将会变得更加清楚,其中:[0038]图1示出根据本发明的实施例的异常交易检测模型的训练方法的流程图;[0039]图2示出根据本发明的实施例的异常交易检测方法的流程图;[0040]图3示出根据本发明的实施例的异常交易检测模型的训练装置;[0041]图4示出根据本发明的实施例的异常交易检测装置;[0042]图5示出根据本发明的实施例的异常交易检测模型的训练装置;[0043]图6示出根据本发明的实施例的异常交易检测装置。具体实施方式[0044]提供以下参照附图进行的描述,以帮助全面理解由权利要求及其等同物限 定的本发明的示例性实施例。所述描述包括各种特定细节以帮助理解,但这些 细节被认为仅是示例性的。因此,本领域的普通技术人员将认识到:在不脱离 本发明的范围和精神的情况下,可对这里描述的实施例进行各种改变和修改。 此外,为了清楚和简明,可省略已知功能和构造的描述。[0045]在本发明中,交易可指示金融交易。在一个示例,交易可以是供应链金融 交易。供应链金融(Supply Chain Finance,SCF)是商业银行信贷业务的一个专业 领域(银行层面),也是企业尤其是中小企业的一种融资渠道(企业层面)。它指 银行向客户(核心企业)提供融资和其他结算、理财服务,同时向这些客户的供 应商提供贷款及时收达的便利,或者向其分销商提供预付款代付及存货融资服 务。简单地说,就是银行将核心企业和上下游企业联系在一起提供灵活运用的 金融产品和服务的一种融资模式。以上定义与传统的保理业务及货押业务(动 产及货权抵/质押授信)非常接近。但有明显区别,即保理和货押只是简单的贸 易融资产品,而供应链金融是核心企业与银行间达成的,一种面向供应链所有 成员企业的系统性融资安排。[0046]然而,本发明不限于供应链金融交易,本发明还可适用于其他以交易为 主体的场景中(例如,具有高频的交易并且具备时间序列特性的场景)。例如, 本发明可应用于如下的一个示例场景:交易所想检测内幕交易,确定了2018 年之前没有发现内部交易,但是想确定2018年这段时间是否有内部交易(即, 异常交易)。[0047]图1示出根据本发明的实施例的异常交易检测模型的训练方法的流程图。[0048]参照图1,根据本发明的实施例的异常交易检测模型的训练方法包括步骤 S110、步骤S120和步骤S130。[0049]在步骤S110中,接收所获取的第一交易样本数据集,其中,第一交易样 本数据集中的各第一交易样本数据是正常交易样本。[0050]这里,正常交易样本可指示合法、合规的交易样本。此外,在本发明中, 第一交易7CN109948728A说 明 书5/13页样本数据集可包括大于或等于预定数量的数量的交易样本。例如,预 定数量可以是20,然而,本发明不对预定数量进行限制,根据本发明的预定数 量也可以是任意其他数量。[0051]在一个实施例中,第一交易样本数据是企业加入供应链金融之前的交易样 本。具体地来说,企业在加入供应链金融之前的商业行为通常都视为正常的商 业行为,这是因为在加入供应链金融之前没有银行借款的诱惑,企业没有动机 去构造虚假交易数据(例如,订单)。也就是说,企业加入供应链金融之前的 交易样本可被视为正常交易样本。然而,如上所述,第一交易样本数据并不局 限于企业加入供应链金融之前的交易样本,第一交易样本数据也可以是其他以 交易为主体的场景中的可被视为正常交易样本和/或被确定为是正常交易样本 的交易样本。[0052]为了便于说明和理解,下面的描述可主要基于供应链金融交易场景来描述, 然而,本发明不限于供应链金融交易这一示例应用场景。[0053]在步骤S120中,对第一交易样本数据集进行特征提取处理,得到第一交 易样本特征集。[0054]这里,对第一交易样本数据集进行特征提取处理可表示针对第一交易样本 数据集中的各个第一交易样本数据进行特征提取处理,第一交易样本特征集包 分别括对各个第一交易样本数据进行特征提取处理后得到的各个第一交易样 本数据特征。例如,第一交易样本数据特征可以是特征向量。[0055]在一个实施例中,第一交易样本特征集中的各第一交易样本的特征包括从 第一交易样本数据中提取的以下特征中的一个或多个:时间属性特征、金额属 性特征、金额分布属性特征、同品类属性特征、同地区属性特征。由于上述特 征考虑了交易场景下的交易特性,并针对交易维度和/或时间维度进行特征的衍 生和抽取,而且通过将样本数据映射到高维离散的特征空间,因而更能够精准 地对样本数据进行异常检测。请注意,当第一交易样本的特征包括上述特征中 的两个或更多个特征时,第一交易样本的特征的特征向量可由两个或更多个特 征的特征向量组成。例如,第一交易样本的特征包括第一特征和第二特征,第 一特征的特征向量为[a,b],第二特征的特征向量为[c,d]时,第一交易样本的特 征的特征向量为[a,b,c,d],其中,a、b、c和d指示相应的特征值。[0056]下面对第一交易样本数据的时间属性特征、金额属性特征、金额分布属性 特征、同品类属性特征、同地区属性特征进行更详细的描述。[0057]在本发明中,第一交易样本数据的时间属性特征可指示交易的下单时间和 入库时间所属于的月份、日期、是否为周末、是否为假期等。例如,作为说明 性的示例,当第一交易样本数据的时间属性特征包括交易的下单时间所属于的 月份、日期、是否为周末时,针对下单时间为1月20日、为周末的第一交易 样本,该第一交易样本的时间特征可被表示为特征向量[1,20,1],其中,特征 向量的第一个值指示交易的下单时间所属于的月份,特征向量的第二个值指示 交易的下单时间所属于的日期(例如,20日时对应于20,30日时对应于30), 特征向量的第三个值指示交易的下单时间是否为周末(例如,为周末时对应于 1,不为周末时对应于0)。然而,上述说明性的示例仅用于说明,本发明可包 括从第一交易样本数据提取的任意时间特征或多个时间特征的组合。[0058]在本发明中,第一交易样本数据的金额属性特征可指示交易的金额在历史 时间窗里的各项统计值。在一个示例中,历史时间窗可以是指示该笔交易前7、 14、21、30、60、908CN109948728A说 明 书6/13页天等内的时间窗口,或者历史时间窗可指示该次交易前的 1、3、5、10笔交易等内的时间窗口。此外,在一个示例中,各项统计值可指 示交易金额的均值、和、中位数、标准差、最大值、最小值等。请注意,上述 距离说明的历史时间窗和统计值仅是示例,本发明不对此进行限制。例如,作 为说明性的示例,当第一交易样本数据的金额属性特征包括该笔交易前7天内 的金额的平均值、前14天内的金额的最大值时,针对交易前7天内的金额的 平均为100000、前14天内的金额的最大值为200000的第一交易样本数据,第 一交易样本的金额属性特征的特征向量可被表示为[100000,200000]。然而,上 述说明性的示例仅用于说明,本发明可包括从第一交易样本数据提取的任意金 额属性特征或多个金额属性特征的组合。[0059]前面已经参照第一交易样本数据的时间属性特征和金额属性特征描述了 针对具体的第一交易样本数据如何计算第一交易样本数据的时间属性特征和 金额属性特征,后面描述的第一交易样本数据的金额分布属性特征、同品类属 性特征、同地区属性特征的计算方法与第一交易样本数据的时间属性特征和金 额属性特征的计算方法类似。因此,为了简明,后面将省略对第一交易样本数 据的金额分布属性特征、同品类属性特征、同地区属性特征的计算方法的描述。[0060]在本发明中,第一交易样本数据的金额分布属性特征可指示该笔交易金额 是否为整十、百、千、万等、是否超过历史交易金额的1、2、3倍之外、历史 时间窗里超过的次数等。例如,作为说明性的示例,当第一交易样本过去10 天的交易金额为200,10,230,17,而在供应链金融之前,平均交易金额为 150,则可以构造如下一个特征:“过去10天中的所有交易金额,在数值上比 供应链金融之前的平均交易金额高的交易次数”,即特征count (200>150,10>150,230>150,17>150)=2。然而,上述说明性的示例仅用于说明, 本发明可包括从第一交易样本数据提取的任意金额分布属性特征或多个金额 分布属性特征的组合。[0061]在本发明中,第一交易样本数据的同品类属性特征可指示第一交易样本数 据的交易金额和同品类的公司和/或企业在历史时间窗里的交易金额之间的关 系等。例如,第一交易样本数据的交易金额和同品类的公司和/或企业在历史时 间窗里的交易金额之间的关系可指示第一交易样本数据的交易金额与同品类 的公司和/或企业在历史时间窗里的平均交易金额之间的倍数关系。[0062]在本发明中,第一交易样本数据的同地区属性特征可指示该笔交易金额和 同地区的公司和/或企业在历史时间窗里的交易金额之间的关系等。例如,第一 交易样本数据的交易金额和同地区的公司和/或企业在历史时间窗里的交易金 额之间的关系可指示第一交易样本数据的交易金额与同地区的公司和/或企业 在历史时间窗里的平均交易金额之间的倍数关系。[0063]在步骤S130中,基于第一交易样本特征集,采用无监督机器学习算法训 练得到异常交易检测模型,记录基于无监督机器学习算法获得的每个簇的核心 位置和半径。这里,簇的核心位置可指示簇的质心位置,簇的半径可指示簇中 最远的点(即,样本)到核心的距离。[0064]在本发明中,通过针对交易特有的高频特性和时间序列特性而采用无监督 机器学习算法,能够简化交易检测的复杂度同时满足交易检测的准确性要求。[0065]这里,无监督机器学习算法可包括k-means算法、DBSCAN算法或孤立 森林算法等。9CN109948728A说 明 书7/13页为了简明和便于理解,下面主要以k-means算法为例对异常交易 检测模型进行说明,然而,应注意,如上所述的其他无监督机器学习算法也可 与k-means算法类似地应用于本发明的异常交易检测模型。[0066]具体来说,在一个实施例中,当无监督机器学习算法是k-means算法时, 采用k-means算法训练得到异常交易检测模型的步骤可包括:在第一交易样本 特征集中,确定k个初始簇的核心位置,其中,k的值基于第一交易样本特征 集来确定;基于预定k个初始簇的核心位置,使用k-means算法对第一交易样 本特征集进行聚类,直到标准测度函数开始收敛为止。这里,标准测度函数一 般采用均方差函数。[0067]在这个实施例中,基于第一交易样本特征集来确定k的值。换言之,基于 第一交易样本特征集中的各个第一样本特征来确定k的值。可通过如下的多种 方法经试验和/或计算来确定合适的k的值。然而,确定合适的k的值的方法不 限于下述示例方法和/或下述示例方法的任意组合,其他任何已知的适于确定k 的值的方法也是可行的。[0068]在一个示例中,可通过轮廓系数(Silhouette Coefficient)来确定合适的k 的值。轮廓系数结合了聚类的凝聚度(Cohesion)和分离度(Separation),用 于评估聚类的效果。该值处于-1~1之间,值越大,表示聚类效果越好。具体计 算方法如下:对于每个样本点i,计算点i与其同一个簇内的所有其他元素距离 的平均值,记作a(i),用于量化簇内的凝聚度;选取i外的一个簇b,计算i与 b中所有点的平均距离,遍历所有其他簇,找到最近的这个平均距离,记作b(i), 即为i的邻居类,用于量化簇之间分离度;对于样本点i,轮廓系数s(i)=(b(i) –a(i))/max{a(i),b(i)};计算所有i的轮廓系数,求出平均值即为当前聚类的整 体轮廓系数,度量数据聚类的紧密程度。若s(i)小于0,说明i与其簇内元素的 平均距离小于最近的其他簇,表示聚类效果不好。如果a(i)趋于0,或者b(i) 足够大,即a(i)< 协议 离婚协议模板下载合伙人协议 下载渠道分销协议免费下载敬业协议下载授课协议下载 。[0096]例如,当计算机程序被一个或多个处理器310执行时,可使得一个或多个 处理器310执行和/或实现以下操作:接收所获取的第一交易样本数据集,其中, 第一交易样本数据集中的各第一交易样本数据是正常交易样本数据;对第一交 易样本数据集进行特征提取处理,得到第一交易样本特征集;基于第一交易样 本特征集,采用无监督机器学习算法训练得到异常交易检测模型,其中,通过 异常交易检测模型,记录基于无监督机器学习算法获得的每个簇的核心位置和 半径。[0097]图4示出根据本发明的实施例的异常交易检测装置。[0098]参照图4,异常交易检测装置400可包括一个或多个处理器410和存储器 420。存储器420存储有计算机程序,其中,当计算机程序被一个或多个处理 器410执行时,实现参照图2描述的任意一项异常交易检测方法。一个或多个 处理器410可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、 专用处理器、微控制器或微处理器。作为示例而非限制,所述处理器还可包括 模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器 等。一个或多个处理器410与存储器420之间的数据和/或指令可经由网络接口 装置(未示出)而通过网络被发送和接收,其中,所述网络接口装置可采用任 何已知的传输协议。[0099]例如,当计算机程序被一个或多个处理器410执行时,可使得一个或多个 处理器13CN109948728A说 明 书11/13页410执行和/或实现以下操作:接收待检测的第二交易样本数据;对第二 交易样本数据进行特征提取处理,得到第二交易样本的特征;将第二交易样本 的特征输入基于无监督机器学习算法的异常交易检测模型,得到预测结果;根 据预测结果和异常交易检测模型的每个簇的核心位置和半径进行判断,当判断 出第二交易样本的特征不属于异常交易检测模型的任一个簇时,输出第二交易 样本数据为异常交易的检测结果。[0100]图5示出根据本发明的实施例的异常交易检测模型的训练装置。[0101]参照图5,根据本发明的实施例的异常交易检测模型的训练装置500可包 括接收单元510、特征提取单元520和训练与记录单元530。这里,异常交易 检测模型的训练装置500可执行参照图1描述的任意训练方法。下面对接收单 元510、特征提取单元520和训练与记录单元530进行更详细地描述。请注意, 为了简明,下面省略与参照图1描述的任意训练方法相关的具体描述,然而, 参照图1描述的任意训练方法相关的具体描述可应用于执行该训练方法中的一 个或多个步骤的对应的单元(例如,接收单元510、特征提取单元520或训练 与记录单元530)。[0102]在本发明,接收单元510可被配置为接收所获取的第一交易样本数据集, 其中,第一交易样本数据集中的各第一交易样本数据是正常交易样本数据。在 一个实施例中,第一交易样本数据是企业加入供应链金融之前的交易样本。[0103]在本发明中,特征处理单元520可被配置为对第一交易样本数据集进行特 征提取处理,得到第一交易样本特征集。在一个实施例中,第一交易样本特征 集中的各第一交易样本的特征包括从第一交易样本数据中提取的以下特征中 的一个或多个:时间属性特征、金额属性特征、金额分布属性特征、同品类属 性特征、同地区属性特征。[0104]在本发明中,训练与记录单元530可被配置为基于第一交易样本特征集, 采用无监督机器学习算法训练得到异常交易检测模型,记录基于无监督机器学 习算法获得的每个簇的核心位置和半径。这里,无监督机器学习算法可包括 k-means算法、DBSCAN算法或孤立森林算法等。[0105]在一个实施例中,训练与记录单元530可被配置为:将所述第一交易样本 特征集中的各第一交易样本的特征进行按列归一化;基于按列归一化后的各第 一交易样本的特征,采用无监督机器学习算法训练得到异常交易检测模型。[0106]当无监督机器学习算法是k-means算法时,训练与记录单元530可被配置 为:在所述第一交易样本特征集中,确定k个初始簇的核心位置,其中,k的 值基于所述第一交易样本特征集来确定;基于预定k个初始簇的核心位置,使 用k-means算法对所述第一交易样本特征集进行聚类,直到标准测度函数开始 收敛为止。[0107]在一个可选地实施例中,异常交易检测模型的训练装置500还包括输出单 元(未示出),其中,输出单元被配置为输出所述异常交易检测模型和所记录 的每个簇的核心位置和半径。[0108]图6示出根据本发明的实施例的异常交易检测装置。[0109]参照图6,根据本发明的实施例的异常交易检测模型的训装置600可包括 接收单元610、特征处理单元620、输入单元630和检测单元640。[0110]这里,异常交易检测模型的训练装置500可执行参照图2描述的任意异常 交易检测方法。下面对接收单元610、特征处理单元620、输入单元630和检 测单元640进行更详细14CN109948728A说 明 书12/13页地描述。请注意,为了简明,下面省略与参照图2描述 的任意异常交易检测方法相关的具体描述,然而,参照图2描述的任意异常交 易检测方法相关的具体描述可应用于执行该异常交易检测方法的一个或多个 步骤的对应的单元(例如,接收单元610、特征处理单元620、输入单元630 或检测单元640)。[0111]在本发明中,接收单元610可被配置为接收待检测的第二交易样本数据。 在一个实施例中,第二交易样本数据是企业加入供应链金融之后的交易样本。[0112]在本发明中,特征处理单元620可被配置为对第二交易样本数据进行特征 提取处理,得到第二交易样本的特征。在一个实施例中,特征处理单元620执 行的特征处理可与图5中的特征处理单元520相同或相似。[0113]在本发明中,输入单元630可被配置为将第二交易样本的特征输入基于无 监督机器学习算法的异常交易检测模型,得到预测结果。这里,预测结果可指 示第二交易样本的特征已经被映射到了由用于训练异常交易检测模型的各个 第一交易样本的特征所构成的空间。[0114]在本发明中,检测单元640可被配置为根据预测结果和异常交易检测模型 的每个簇的核心位置和半径进行判断,当判断出所述第二交易样本的特征不属 于所述异常交易检测模型的任一个簇时,输出第二交易样本数据为异常交易的 检测结果。[0115]在一个实施例中,检测单元640可被配置为:当第二交易样本的特征与每 个簇的核心位置之间的距离大于预定赋能系数与相应簇的半径的乘积时,判断 出第二交易样本的特征不属于所述异常交易检测模型的任一个簇。这里,赋能 系数可以是参照图2的实施例描述的赋能系数。此外,可选地,检测单元被配 置为:当第二交易样本的特征与至少一个簇的核心位置之间的距离等于或小于 预定赋能系数与所述至少一个簇的半径的乘积时,输出所述第二交易样本数据 为正常交易的检测结果。[0116]此外,可选地,异常交易检测装置600还可包括更新单元(未示出),其 中,更新单元可被配置为响应于所述第二交易样本数据为正常交易的检测结果, 选择性地基于所述第二交易样本数据更新所述异常交易检测模型。在一个实施 例中,更新单元可被配置为:将第二交易样本数据和异常交易检测模型中的训 练交易样本数据作为新的训练交易样本数据作为异常交易检测模型的训练输 入,以更新异常交易检测模型。[0117]以上已参照图1至图6描述了根据本发明的示例性实施例的异常交易检测 模型的训练方法和训练装置以及异常交易检测方法和异常交易检测装置。然而, 应理解的是:图1至图6中所使用的装置、系统、单元等可被分别配置为执行 特定功能的软件、硬件、固件或上述项的任意组合。例如,这些系统、装置或 单元等可对应于专用的集成电路,也可对应于纯粹的软件程序,还可对应于软 件与硬件相结合的单元。此外,这些系统、装置或单元等所实现的一个或多个 功能也可由物理实体设备(例如,处理器、客户端或服务器等)中的组件来统 一执行。[0118]此外,上述训练方法可通过记录在计算可读存储介质上的计算机程序来实 现。例如,根据本发明的示例性实施例,可提供一种存储有计算机程序的计算 机可读存储介质,当计算机程序在被处理器执行时实现本申请中所公开的任一 训练方法。[0119]例如,当计算机程序在被处理器执行时实现如下步骤:接收所获取的第一 交易样本数据集,其中,第一交易样本数据集中的各第一交易样本数据是正常 交易样本数据;对15CN109948728A说 明 书13/13页第一交易样本数据集进行特征提取处理,得到第一交易样本 特征集;基于第一交易样本特征集,采用无监督机器学习算法训练得到异常交 易检测模型,其中,通过异常交易检测模型,记录基于无监督机器学习算法获 得的每个簇的核心位置和半径。[0120]此外,上述异常交易检测方法可通过记录在计算可读存储介质上的计算机 程序来实现。例如,根据本发明的示例性实施例,可提供一种存储有计算机程 序的计算机可读存储介质,当计算机程序在被处理器执行时实现本申请中所公 开的任一异常交易检测方法。[0121]例如,当计算机程序在被处理器执行时实现如下步骤:接收待检测的第二 交易样本数据;对第二交易样本数据进行特征提取处理,得到第二交易样本的 特征;将第二交易样本的特征输入基于无监督机器学习算法的异常交易检测模 型,得到预测结果;根据预测结果和异常交易检测模型的每个簇的核心位置和 半径进行判断,当判断出第二交易样本的特征不属于异常交易检测模型的任一 个簇时,输出第二交易样本数据为异常交易的检测结果。[0122]上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装 置、服务器等计算机设备中部署的环境中运行,应注意,所述计算机程序在被 运行时还可用于执行除了上述步骤以外的附加步骤或者在执行上述步骤时执 行更为具体的处理,这些附加步骤和进一步处理的内容已经在参照图1到图4 进行相关方法和装置的描述过程中提及,因此这里为了避免重复将不再进行赘 述。[0123]本发明这种利用基于无监督机器学习算法进行异常交易检测的技术方案 由于考虑到了金融交易场景的特性而采用了无监督机器学习算法,从而实现可 解释、易于可视化的简单模型,即能够符合监管的要求,又能够将算法逻辑可 视化给业务人员,帮助他们更好的理解预警逻辑,对交易后续的运营也能够提 供建议,并且能够提供较高的检测准确率。[0124]以上描述了本申请的各示例性实施例,应理解,上述描述仅是示例性的, 并非穷尽性的,本申请不限于所披露的各示例性实施例。在不偏离本申请的范 围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是 显而易见的。因此,本申请的保护范围应该以权利要求的范围为准。16CN109948728A说 明 书 附 图1/3页图1图217CN109948728A说 明 书 附 图2/3页图3图418CN109948728A说 明 书 附 图3/3页图5图619
本文档为【异常交易检测模型的训练以及异常交易检测的方法和装置】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
机构认证用户
晒豆网络
晒豆网构建了专业的文档资料数据库晒豆网综合多年的运营经验,投入技术力量开发了专业的文档预览播放器,用户可以通过晒豆网文档播放器的放大功能了解到包括文档页数、表、图、文档结构、文档格式在内的一些基本信息,同时也可以快速的确认文档的真实性及内容是否为自己所需要。
格式:pdf
大小:577KB
软件:PDF阅读器
页数:19
分类:
上传时间:2022-11-02
浏览量:1