大数据审计数据分析流程(大数据统计分析方法及其应用)
大数据审计数据分析流程(大数据统计分析方法及其应用)(四)效率评价法在商业银行内部审计中,对大数据进行关联性统计分析是较基本的分析方法,能够探索各指标数据间的相互关系。从指标间的共线性角度来体现其关联度,能够更好地发现评价指标体系中可能存在的异常指标值,借此对具体审计项目的价值进行优化,避免因关联度高导致探索影响因素的回归分析失真。运用R软件,对抵押担保方式核销额等25个自变量间的共线性进行描述,发现各自变量间均存在高度共线性,最高的是信用担保模式的开办机构数(K.xy),共线程度高达111 893.7,最低的是质押担保模式的收回量(R.zy),共线程度为20.6。(二)描述性统计法在大数据统计分析中,描述性统计是最为常用的一种方法,以平均值、最小值、最大值、标准差等数据分析结果,反映大数据的分布状况和集中趋势。内部审计人员根据描述性统计分析的结果,可初步了解审计目标的特征。在A商业银行大数据分析平台中,梳理出2007—2018年的327
文章来源:中国内部审计协会微信公众号
以A商业银行基于信贷担保模式的小微企业信贷创新效果评价审计调查项目为例,审计A商业银行是否有效履行了社会责任,是否有效提升了A商业银行的信贷收入。依托A商业银行的大数据分析平台,运用描述性统计、关联分析、效率评价、回归分析等统计分析方法,探析大数据统计分析方法在商业银行内部审计中的应用。
(一)构建研究指标体系
商业银行担保结构由抵押、质押、保证金、信用和保证五种担保模式构成,根据内部审计项目工作目标,综合、客观评价A银行基于担保模式的小微企业信贷创新效果,分析影响其信贷利息收入的因素。构建基于担保模式的小微企业信贷投入产出指标体系,根据投入产出效率评价统计分析模型,将反映银行盈利能力高低的信贷利息收入作为评价信贷效率的产出变量。选用的投入指标主要有:从业人数反映商业银行对小微企业信贷规模的人力投入,开办机构数反映商业银行的营业设施和业务开办机构数量上的投入,信贷的放款量、收回量与核销额均会影响商业银行的贷款利息收入,将贷款利息收入作为产出指标。
(二)描述性统计法
在大数据统计分析中,描述性统计是最为常用的一种方法,以平均值、最小值、最大值、标准差等数据分析结果,反映大数据的分布状况和集中趋势。内部审计人员根据描述性统计分析的结果,可初步了解审计目标的特征。在A商业银行大数据分析平台中,梳理出2007—2018年的327 942条小微企业客户明细数据。其中,缺失关键指标数据为5794条,有效数据为322 148条,并对缺失关键指标数据进行删除,运用R软件,得出被审计单位的描述性统计结果。为满足后续大数据统计分析模型的研究需要及对该商业银行经营数据进行保密要求,对26个指标数据进行统计初步整理及标准化预处理。其中,因变量为信贷利息收入(Y),自变量为不良贷款核销(U)、业务发展(L)、业务收回(R)、开办机构数(K)、从业人数(J)5个影响因素,担保模式为抵押(dy)、质押(zy)、保证(bz)、保证金(bzj)、信用(xy)5种。
(三)关联性分析法
在商业银行内部审计中,对大数据进行关联性统计分析是较基本的分析方法,能够探索各指标数据间的相互关系。从指标间的共线性角度来体现其关联度,能够更好地发现评价指标体系中可能存在的异常指标值,借此对具体审计项目的价值进行优化,避免因关联度高导致探索影响因素的回归分析失真。运用R软件,对抵押担保方式核销额等25个自变量间的共线性进行描述,发现各自变量间均存在高度共线性,最高的是信用担保模式的开办机构数(K.xy),共线程度高达111 893.7,最低的是质押担保模式的收回量(R.zy),共线程度为20.6。
(四)效率评价法
效率评价是对审计目标主体的客观、综合性评价,根据构建的评价指标体系,全面综合性评价审计目标主体的效用,并用具体的效率值来体现效用值。效率评价法是大数据统计分析中常用的分析方法,评价效率常用的方法有参数和非参数两种。
本文选择能够对面板数据进行分析研究的Malmquist-DEA模型,整体评价各担保模式的信贷效率变迁。当效率水平M>1时,表示生产率呈增长趋势;反之则呈下降趋势。运用MAXDEA软件和Malmqiust-DEA效率评价方法,将A商业银行贷款利息收入作为产出,将经办客户经理数量、开办机构数、不良贷款核销额、贷款放款量、贷款收回量作为投入,测算出该银行小微企业信贷整体效率及其各担保模式的信贷效率变动指数,如下表所示。
由表可知,2007—2018年,A商业银行小微企业信贷整体的Malmquist变动指数均值为1.71,说明样本期内A商业银行小微企业信贷整体效率较高,处于长期增长趋势。其中,除2018年A商业银行小微企业信贷整体效率的Malmquist变动指数值小于1外,2007—2017年Malmquist变动指数值均大于1,并于2014年至2015年间达到最高值10.74。
从担保模式看,各担保模式的小微企业信贷效率Malmquist指数变化呈现如下特征:一是抵押、质押、保证、保证金和信用担保模式的Malmquist变动指数平均值均大于1,分别为1.14、1.53、1.34、1.49、1.96,均处于增长趋势;二是只有信用担保模式的Malmquist变动指数平均值高于信贷整体效率,为1.96,高出整体效率平均值0.25;三是各担保模式的Malmquist变动指数值于2014—2015年期间达到最高值,2017年至今,变动指数值开始下降,处于增长速度减缓趋势;四是传统意义上的“抵押 保证”担保模式的Malmquist变动指数平均值均小于质押、保证金和信用担保模式的指数变动值,各担保模式的Malmquist变动指数平均值大小依次是信用(1.96)、质押(1.53)、保证金(1.49)、保证(1.34)和抵押(1.14)。
(五)回归分析法
经过大数据描述性统计分析、关联分析、效率评价模型分析得出审计目标的客观情况后,通过回归分析法能够较好地探析影响审计目标的主要因素,有针对性地提出审计建议,才能更好地提升内部审计效果,促进商业银行稳健发展。为提高回归分析模型的精确性,避免多重共线性问题带来的模型失真风险,运用Tibshirani(1996)提出的一种有偏估计算法Lasso对变量进行分析,能够有效解决多重共线性问题。同时,为提高模型分析高维数据的效率,运用Efron(2004)提出的LAR高效变量选择方法,有效解决Lasso计算效率不高的问题。
为了更详尽地分析影响信贷效率的因素效应,避免上文分析的多重共线性问题对回归拟合效果的影响,运用R软件和LARS-Lasso方法对样本数据进行回归拟合分析,得出回归模型系数。
根据大数据LARS-Lasso回归模型分析结果,得出如下非现场审计发现:一是质押、保证金和信用担保模式对贷款利息收入产生一定的正影响。LARS-Lasso回归分析模型结果显示,从业人数和放款量是影响贷款利息收入的主要因素。其中,质押、保证金和信用担保模式对贷款利息收入均产生一定的正影响,从业人数中的质押、保证金和信用担保模式的模型系数值分别为0.184、0.1009、0.0483,放款量中的保证金和信用担保模式的模型系数值分别为0.8775、0.1609。二是放款量指标对小微企业贷款利息收入的影响力较大。从LARS-Lasso回归分析模型的各自变量系数来看,放款量项下的两个担保模式的模型系数值均高于从业人数项下的担保模式模型系数值,最高的是保证金担保模式放款量(sL.bzj)系数值0.8775。