三、大数据环境下的审计取证方法
大数据是以容量大、类型多、存取速度快、价值密度低为主要特征的数据集合。
容量大是指:数据规模巨大,信息记录更全面。大数据不以GB、TB为单位来衡量,而是以PB、EB、ZB、YB为计量单位。大数据能够对审计对象的各个侧面进行更详尽的描述,信息记录更全面、立体、更具综合性。
类型多是指:大数据包含新闻网页、社交媒体、博客、视频、图像、传感器数据等不同渠道生成的异构、复杂和多样化的数据。
存取速度快是指:数据的增长速度呈指数级增长,数据需要被高速计算和处理才能发掘出蕴含价值。
价值密度低是指:大数据保持了数据原始特征,能够利用统计模型、机器学习、复杂网络技术等深入开展数据分析,获取对现有事实模式、未来发展趋势的重要洞察力,但是由于大数据容量巨大,高度混杂导致其价值密度较低。
大数据环境下审计取证发生了很大变化,有着鲜明的数据、业务、技术“三融合”的特征,涉及数据采集、存储管理、分析和可视化呈现等多个方面。
(一) 数据采集汇聚
一般而言,大数据主要有三类:交易数据(Transaction),交互数据(Interaction)和观察数据(Observation)。
交易数据是指来自各部门、机构和单位信息系统中的结构化数据。
交互数据是各类实体(含人、机构、单位等)的社会活动产生的各类数据,其载体主要是互联网,包括新闻、论坛、微博、微信中的文本、视频、音频等自然语言数据。
观察数据是机器与机器交互之间产生的数据,如网络日志、各类传感器产生的数据、物联网和GPS数据。
大数据环境下数据采集的挑战主要在于消除网络和性能瓶颈,提高数据汇聚效率,同时支持结构化和非结构化数据。目前常用的采集技术有网络爬虫技术、条形码技术、射频识别技术和感知技术等。
(二)数据存储与管理
数据存储与管理是将从各个分散数据库采集来的数据集成到一个大型分布式数据库,或者分布式存储集群中,以便对数据进行集中处理。
由于大数据具有类型多的特点,在集中存储的基础上,审计人员还需要依据数据的特征或者项目需求,对已接收的数据进行抽取处理,将各种渠道获得的多种结构和类型的复杂数据转化为单一的或者便于处理的结构,从而提高数据提取速度,有效地减少访问、查询和挖掘分析的时间。
大数据环境下数据存储与管理面临的挑战主要有两个方面:
一是由于大数据容量大和类型多,要求数据集成管理时,要提高对海量数据的管理能力和系统扩展性,并能够支持非结构化数据处理。
二是由于大数据的价值密度低决定了在数据集成存储时必须进行数据清洗,清洗过程中“度”的把握非常重要,既不能清洗过细,将有价值的信息过滤掉,又不能清洗过粗,达不到清洗效果。如何在“质”和“量”之间进行取舍,是大数据存储管理中必须考虑的关键问题。
大数据存储处理技术是当前最基础、应用最广泛的技术。除了仍在应用的传统关系型数据库技术外,比较典型的还有分布式文件系统、并行数据库技术、Spark、Hadoop分布式数据管理平台等。
(三)数据分析技术
数据分析是最核心的部分。审计过程中,除了传统的结构化查询语言、多维数据分析和统计分析外,人工智能领域的很多技术方法为审计数据分析提供了丰富多样的方法,包括数据挖掘、自然语言处理和社会网络分析等。
1.结构化查询语言
结构化查询语言是访问关系型数据库的标准语言,用于对关系型数据库的数据进行查询、更新和管理,包括数据定义语言、数据操作语言、数据查询语言、数据控制语言四部分。
结构化查询语言是审计人员常用的一种数据分析工具,审计人员根据自己的审计思路编写结构化查询语言,可以实现对数据的查询和分析,从中发现审计线索、查找审计疑点。
2.多维数据分析
多维数据分析是指从多方面(多维)观察信息,以便深入理解数据的分析技术。多维分析技术支持审计人员对数据进行多角度查询和分析。
审计人员通过对数据多角度、多侧面的观察和研究,可以把握数据所反映的审计事项的某些特征,便于对被审计单位的某些方面情况进行总体把握,或者迅速发现问题线索。
3.统计分析
统计分析有两个层次:
第一层次是描述统计。计算反映数据的集中、离散程度、相关程度、静态结构和动态趋势等。
第二层次是推断统计。推断统计的主要任务是参数估计和假设检验。推断统计在描述统计的基础上,用样本信息推断总体情况,分析和推测总体的特征和规律。
目前常用的统计工具包括SPSS、SAS和开源R语言工具等。
4.数据挖掘
数据挖掘是指从大量的、有噪声的、模糊的数据中,提取隐含的、未知的但又具有潜在价值的信息和知识的过程,是挖掘深层次信息和知识的数据分析方法。
审计人员面对大量数据不能确定要发现什么、会发现什么时,可根据审计目标,运用数据挖掘方法快速确定问题线索,拓展审计思路。常见的数据挖掘方法有关联规则分析、聚类分析、分类分析和时间序列分析等。
5.自然语言处理
自然语言处理(Natural Language Processing,NLP)是利用计算机算法对人类自然语言进行分析的技术。
自然语言处理通过对自然语言的理解,借助语句、符号和结构对自然语言进行深度处理,发现对象的语义联系,实现自动摘要、实体对象识别和关系提取等,并可借助挖掘算法对自然语言进行分类、聚类、规则发现和趋势分析等,探索自然语言中潜在的规律。自然语言处理关键技术涉及词法分析、句法分析、语义分析、语音识别、情感分析等。
6.社会网络分析
数据有属性数据和关系数据之分。
关系不是单个行动者的属性,关系将多对行动者联系成一个更大的关系系统,关系数据描述的是行动者系统的属性。
适合分析关系数据的方法是社会网络分析。社会网络分析以图论算法为基础,用节点代表实体(自然人、机构、时间和地点),用边代表连通关系,通过计算关系的强弱和关系的变化情况,研究社交网络在结构层面的连通性(谁和谁相连),以及在行为层面的传播性(谁影响谁)。
(四)数据可视化技术
数据可视化(Data Visualization)利用计算机图形学、人机交互、统计学、心理学等理论,研究如何利用人的感知能力以贴近人类自然感知的图形化展现方式,通过数据交互进行可视化表达,以增强人的认知,呈现数据中隐含的信息,发掘数据中所包含的规律。在数据可视化领域有很多成型的商业产品,也有一些应用广泛的开源工具。