时间:2022-07-03 03:03:53
引言:易发表网凭借丰富的文秘实践,为您精心挑选了九篇大数据技术论文范例。如需获取更多原创内容,可随时联系我们的客服老师。
大数据背景下的机器算法
专业
计算机科学与技术
学生姓名
杨宇潇
学号
181719251864
一、 选题的背景、研究现状与意义
为什么大数据分析很重要?大数据分析可帮助组织利用其数据并使用它来识别新的机会。反过来,这将导致更明智的业务移动,更有效的运营,更高的利润和更快乐的客户。
在许多早期的互联网和技术公司的支持下,大数据在2000年代初的数据热潮期间出现。有史以来第一次,软件和硬件功能是消费者产生的大量非结构化信息。搜索引擎,移动设备和工业机械等新技术可提供公司可以处理并持续增长的数据。随着可以收集的天文数据数量的增长,很明显,传统数据技术(例如数据仓库和关系数据库)不适合与大量非结构化数据一起使用。 Apache软件基金会启动了第一个大数据创新项目。最重要的贡献来自Google,Yahoo,Facebook,IBM,Academia等。最常用的引擎是:ApacheHive / Hadoop是复杂数据准备和ETL的旗舰,可以为许多数据存储或分析环境提供信息以进行深入分析。 Apache Spark(由加州大学伯克利分校开发)通常用于大容量计算任务。这些任务通常是批处理ETL和ML工作负载,但与Apache Kafka等技术结合使用。
随着数据呈指数级增长,企业必须不断扩展其基础架构以最大化其数据的经济价值。在大数据的早期(大约2008年),Hadoop被大公司首次认可时,维护有用的生产系统非常昂贵且效率低下。要使用大数据,您还需要适当的人员和软件技能,以及用于处理数据和查询速度的硬件。协调所有内容同时运行是一项艰巨的任务,许多大数据项目都将失败。如今,云计算已成为市场瞬息万变的趋势。因为各种规模的公司都可以通过单击几下立即访问复杂的基础架构和技术。在这里,云提供了强大的基础架构,使企业能够胜过现有系统。
二、 拟研究的主要内容(提纲)和预期目标
随着行业中数据量的爆炸性增长,大数据的概念越来越受到关注。 由于大数据的大,复杂和快速变化的性质,许多用于小数据的传统机器学习算法不再适用于大数据环境中的应用程序问题。 因此,在大数据环境下研究机器学习算法已成为学术界和业界的普遍关注。 本文主要讨论和总结用于处理大数据的机器学习算法的研究现状。 另外,由于并行处理是处理大数据的主要方法,因此我们介绍了一些并行算法,介绍了大数据环境中机器学习研究所面临的问题,最后介绍了机器学习的研究趋势,我们的目标就是研究数据量大的情况下算法和模型的关系,同时也会探讨大部分细分行业数据量不大不小的情况下算法的关系。
三、 拟采用的研究方法(思路、技术路线、可行性分析论证等)
1.视觉分析。大数据分析用户包括大数据分析专业人士和一般用户,但是大数据分析的最基本要求是视觉分析。视觉分析直观地介绍了大数据的特征,并像阅读照片的读者一样容易接受。 2.数据挖掘算法。大数据分析的理论中心是数据挖掘算法。不同的数据挖掘算法依赖于不同的数据类型和格式来更科学地表征数据本身。由于它们被全世界的统计学家所公认,因此各种统计方法(称为真值)可以深入到数据中并挖掘公认的值。另一方面是这些数据挖掘算法可以更快地处理大数据。如果该算法需要花费几年时间才能得出结论,那么大数据的价值是未知的。 3.预测分析。大数据分析的最后一个应用领域是预测分析,发现大数据功能,科学地建立模型以及通过模型吸收新数据以预测未来数据。 4.语义引擎。非结构化数据的多样化为数据分析提出了新的挑战。您需要一套工具来分析和调整数据。语义引擎必须设计有足够的人工智能,以主动从数据中提取信息。 5.数据质量和数据管理。大数据分析是数据质量和数据管理的组成部分。高质量的数据和有效的数据管理确保了分析结果在学术研究和商业应用中的可靠性和价值。大数据分析的基础是前五个方面。当然,如果您更深入地研究大数据分析,则还有更多特征,更深入,更专业的大数据分析方法。
四、 论文(设计)的工作进度安排
2020.03.18-2020.03.20 明确论文内容,进行相关论文资料的查找与翻译。2020.04.04-2020.04.27:撰写开题报告 。
2020.04.28-2020.04.30 :设计实验。
2020.05.01-2020.05.07 :开展实验。
2020.05.08-2020.05.15 :准备中期检查。
2020.05.16-2020.05.23:根据中期检查的问题,进一步完善实验2020.05.24-2020.05.28 :完成论文初稿。
2020.05.29-2020.06.26 :论文修改完善。
五、 参考文献(不少于5篇)
1 . 王伟,王珊,杜小勇,覃雄派,王会举.大数据分析——rdbms与mapreduce的竞争与共生 .计算机光盘软件与应用,2012.被引量:273.
2 . 喻国明. 大数据分析下的中国社会舆情:总体态势与结构性特征——基于百度热搜词(2009—2 012)的舆情模型构建.中国人民大学学报,2013.被引量:9. 3 . 李广建,化柏林.大数据分析与情报分析关系辨析.中国图书馆学报,2014.被引量:16.
4 . 王智,于戈,郭朝鹏,张一川,宋杰.大数据分析的分布式molap技术 .软件学报,2014.被引量:6.
5 . 王德文,孙志伟.电力用户侧大数据分析与并行负荷预测 .中国电机工程学报,2015.被引量:19.
6 . 江秀臣,杜修明,严英杰,盛戈皞,陈玉峰 ,郭志红.基于大数据分析的输变电设备状态数据异常检测方法 .中国电机工程学报,2015.被引量:8.
7 . 喻国明. 呼唤“社会最大公约数”:2012年社会舆情运行态势研究——基于百度热搜词的大 数据分析.编辑之友,2013.被引量:4.
六、指导教师意见
签字: 年 月 日
七、学院院长意见及签字
一般认为,大数据是由数量巨大、结构复杂、类型众多的数据构成的数据集合,是基于云计算、通过数据整合共享、交叉复用形成的智力资源和知识服务能力。通常认为它具有下述“四V”特征:
1.1数量大(Volume)。大数据的数据量级已发展至PB(1000T)、EB(100万个T)乃至ZB(10亿个T),可称为海量、巨量乃至超量。
1.2速度快(Velocity)。大数据往往表现为高速实时数据流,时效性非常高。因此对处理工具的要求很苛刻,软件工程、人工智能、机器学习等都应引入。这是区别于传统数据最显著的特征。
1.3多样化(Variety)。数据种类繁多,形式多样。包括各种信息及其网页、图片、音频、视频、图像与位置等存在方式。
1.4价值高(Value)。大数据数量越庞大,价值越高,真实性、可靠性越强。但同时无效信息也越多,需要通过强大的机器算法对数据迅速地“去粗取精”,否则也只能望洋兴叹。
2大数据对科技咨询业发展的影响
2.1拓展业务空间大数据信息对应的是高速实时数据流。这些数据流往往能产生难以想象的作用,其能量也将被层层放大,还有可能在另一个看起来毫不相关的领域得到应用。大数据环境下的科技咨询就将具有全球性、战略性意义,业务范围和服务空间都将得到迅速拓展。科技咨询各相关要素,如科技资源、科技人才、创新需求、创新环境、创新成果等的疆界,将受到大数据浪潮的冲击。同时,落后地区和难以涉猎领域的业务也将在其带动下快速提升。
2.2规范咨询决策大数据将改变科技咨询决策方式,使其进入“数据驱动型”决策模式。因为面对大数据的潜在价值,决策者不仅要使用新的技术,还要改变目前的决策过程,政府也将更有效率、更加开放、更加负责。因为引导政府决策的是基于实证的事实,而不是意识形态,也不是利益集团在政府决策过程中施加的影响。
3大数据环境下科技咨询业发展道路
从上面的分析不难看出,大数据将给科技咨询业带来无限的生机和活力。科技咨询业应抢抓机遇,跨越发展,走规模化、信息化、科学化、现代化的可持续发展道路。
3.1挖掘大数据,促进规模化发展我国科技咨询业规模较小,究其原因,一是咨询市场还没有完全放开,市场主导地位没有显现,资本缺乏信心。二是科技咨询价值没有得到广泛认同,潜在需求得不到释放。三是现有机构没有形成专业分工和自主品牌,无法带来规模效应。然而,在大数据时代,最重要的生产资料———数据将自由地流动起来,推动知识经济和网络经济的发展,传统经济体制机制对科技咨询业的束缚将大大减轻,“得数据者得天下”将成为共识,市场将发挥主导作用,吸引大量资本进入,促使机构快速升级。同时,随着竞争的加剧,咨询质量、咨询价值必将得到提高和认同,潜在的需求必将迸发。
3.2利用大数据,加快信息化进程目前我国科技咨询信息化建设大致经历了计算机初步应用、管理信息系统应用和互联网技术应用三个阶段。随着时代的发展,大数据将掀起新一轮信息化革命。科技咨询业必须充分利用大数据技术,在政府引导下,进一步完善信息化工程,建立基于大数据的科技咨询信息平台,实现在虚拟空间中不同信息资源的快速整合与对接,提高咨询要素使用效率和运行主体工作效率。
3.3凭借大数据,提高科学化水平大数据的客观实在性和真实可靠性并存。对大数据进行深度挖掘,可以提高科技咨询科学化水平。首先,基于大数据,科技咨询信息的真实性有了更大的保障。其次,依据大数据特征,可帮助制定更为科学的咨询战略、方案和计划,同时降低过时咨询、无效咨询的风险。再次,基于大数据,科技咨询具有更强的针对性。咨询师可以深度分析、挖掘最高管理者的知识结构、创业经历、行为习惯等信息,准确把握其管理理念。最后,通过对大数据的分析、挖掘与利用,可最大程度地减少因数据不全而带来的负面作用。
3.4依托大数据,实现现代化转型随着时代的发展,传统的咨询工具、内容、形式、速度、效率等越来越不能满足现代社会发展的需求。依托大数据,可以实现科技咨询向现代化转型。首先,大数据环境促使科技咨询必须运用现代化咨询工具。如,大数据的超大量级迫切要求科技咨询设备现代化、信息数字化。其次,大数据促使科技咨询内容、形式现代化。现代社会工作、生活节奏很快,简洁实用、形式新颖是对科技咨询工作的新要求。形式多样的大数据正好为科技咨询提供了便利。再次,快速、高效是现代化的重要特征,而高速实时的大数据则要求科技咨询处理工具快速演进、高效运行。最后,大数据的基本特征决定了科技咨询必须进行全方位的改革创新,紧跟现代化发展步伐。大、多、真、快、稍纵即逝的大数据要求科技咨询必须借助移动互联、云计算、软件工程、人工智能、机器学习等手段,优化资源配置,建立高智能科技咨询协作平台,向科技咨询现代化迈进。
4总结
PDA也可以称为个人数字化助理,简称为掌上行机,它的优点是形状很小,携带很方便,可以把它放在手上或者口袋。很便于输入数据,操作结构很简单,使用起来很方便,可使用手接触或者笔输入信息,耗费功能很低,电池能使用的时间很长,通信里很强,可以使用蓝牙、红外接受发送信息,价格实惠。现在很多PDA使用windowsCE来进行操作,用来开发windowsCE系统功能,就像是在计算机的桌面进行开发软件程序一样,构建一个比较有相对性的移动设备。
2分析PDA和全站仪中的数据
2.1串口技术
使用Wicrosoftwindows开发串口系统,进行有以下方式:a.使用windows来进行通信函数.b.windowsAPI对端口进行读写或者开发其它程序,对串口实行操作步骤。C.串口中的组件通信,比如Activek控制MSCcomm。根据以上介绍的几种方法,比如b需要熟悉电路结构,驱动层次比较深,需要有比较强的专业技能,如C方式简便,不能使EmbeddedVisualC++所接受,该程序就是应用windowsAP来进行通信函数。
2.2串口施行步骤
windows的读写文件方式不一样,它主要使用windows结构中的多线程,然后再后台进行串口读写,正常使用程序就要在前台进行。进行改善1/0的速度,使用windows结构中的多线程,可以使用它来进行开发非单一系统,windows不能操作1/0的异常操作,可以使用它来进行操作串口,使用异步的方法,可以提高系统的操作能力。工作效能比较高的串口是事件驱动。应用这种方法有比较高的时实性,主要是针对一些比较广泛的串口,跟查询的方式不一样,不是只对那个串口进行查询。是以中断的形式来进行,一般运行中断时,确定的事件发生变化时,windows系统就会发出信息,才能有针对性的进行处理,确保数据存在。
3开发通信程序
3.1串口通信应用API函数
⑴串口进行打开关闭。在应用程序中用Create-File函数把串口打开,注意事项主要有:A.串口名后面需要加个冒号(:)。B.PDA的串口就是全部已经打开的串口,只含COM1。C.应用的参数定为零,安全没有危险性的参数定为NULL。应用Close-Handle可以把串口关闭。⑵对串口进行配置。串口配置与PDA通信中的参数进行配置一起,这样才能达到通信的效能,因此配置也是比较重要的一个步骤。LPDCB主要是针对DCB结构,DCB结构是对串口的进一步描述,串口的波特率主要是由DCB中的BaudRate来确定,原因是CE对非二进制不能进行输送,所以fBinary要设定为TRUE,ByteSize是指字节在进行发送时接受到的数据。Parity是奇偶校验,StopBits是停止位数,⑶对串口进行读写。串口进行读写时可以使用ReadFile和WriteFile函数实现,主要是串口进行读写时速度不是很快,⑷对串口进行异步读写,CE不能进行操作输入输出的功能,因此只能应用读写进行重复操作。第一,设定串口EV_RXCHAR要用SetCommMask函数来实现,应用WaitCom-mEvent阻拦线程,指直到把事件EV_RX-CHAR设定好,字符要应用回调函数来进行处理,续等发生事件。
3.2隔开水平角、竖直角、距离及进行组合测量
在测量过后,需要测出水平角,偏心的水平角与距离不能合在一起测量,测量时要分开进行,因此应用程序能进行水平角和竖直角及距离分开测量以及组合测量,进行测角时不能仅仅依靠棱镜。所以,可以应用水平角和、竖直角、距离重复选框来进行模拟。针对不一样规模的全站仪,使用的方式也不一样,索佳操作的模式只含有一种规模的全站仪,只需要点击按钮即可,假如选择斜距就进行输送测角距,没有选中斜距进行输送测角距,收到的数据后。在根据模块来分析与选取有针对性的数据,拓扑康是第二种模式,在选中斜距时,还要在斜距中的复选框中进行点击,在进行输送时改变测量距离的模式,进行发送时。进行驱动测量,跟读取指令是一样的。
3.3处理已经接收到的字符串
⑴ASCII编码是已经收到的字符串,可以使用MultiByteToWideChar函数转变成Unicode编码然,在进行处理。⑵测量指令在进行发送出去后,全站仪中的数据不是一次性发完,应该是分层次来进行发送,因此,字符串要直接连接到字符串,才能完成接受任务。⑶字符串的主要任务就是接收完后,要依据复合框进行有效的选择,分析全站仪的字符串,也会显示的很清楚。⑷拓扑康是第二种模式,符串后的任务就是接受,在输送时显示清楚。相反,就会把全站仪输送数据全部给PDA,造成不良后果。
4应用在实际生活中
VC++2005smartdevice的MFCsmartdeviceApplication,PDA与全站仪中的通信主要依靠多线程来完成,使他们能够稳定运行。根据太原市在进行测绘进行探索指出,外业进行采集时,效果是良好的。全站仪中的数据直接读取,防止在读、记方面存在有误差。不过,对存在有误差的数据要自动检查,防止2C差、差互差、2C互差的影响产生误差,而不能及时的进行检查,而导致返工现象的发生,工作效率的提高,PDA储存的文件就是测量的结果,外业任务完成之后把所得出的结果直接输入到PC,经过对程序的进一步分析,能直接评估精准度及计算坐标,不使用人工来进行操作,从一定程度上减少了工作人员的工作量,也能减少造成不要的麻烦,有效的提高工作效率。
5结束语
大数据时代的到来,计算机信息处理技术也存在着很大风险,其中最突出的问题是计算机病毒以及恶意盗版软件等,给用户使用计算机产生了极大的消极影响。这些还是一些比较基础的问题,随着计算机技术的发展,还出现篡改数据、冒名顶替等问题,影响计算机技术服务质量,计算机信息处理技术受到了前所未有的考验。另外,大数据时代的到来,还出现了许多新型网络技术,针对一些繁琐的问题能够有效解决,提高了人们的工作效率,然而,这也在一定程度上降低了网络的真实性,特别是在网络交流和沟通日益紧密的前提下,导致网络信息真假难分,不仅增加了信息搜索难度,而且致使人们无法快速获得真实信息。因此,提高计算机信息处理技术至关重要。
2大数据时代计算机信息处理技术
2.1信息采集、加工方面
计算机信息处理技术要进行工作,首先,要采集数据信息,计算机技术都是建立在数据采集基础之上的,数据采集主要是针对目标信息源进行实时的信息监督和控制,并将才觉得数据储存在计算机数据库中,为各个软件提供信息支持,确保下一项工作顺利进行;其次,对数据信息进行加工,按照用户的要求,对数据信息进行加工;最后,将加工好的数据信系进行分类,最终传送到用户手中,实现数据采集、加工以及传送目标。
2.2存储方面
计算机存储技术是将采集的信息储存到计算机数据库之中,在用户需要某一项信息过程中,可以通过数据库直接将数据调取出来,计算机以其储存量大、速度快等优势,受到人们越来越多的关注,另外,计算机技术还能够实现长时间储存。
2.3信息安全方面
大数据时代的到来,让人们感受技术带来的便捷的同时,也让人们意识到数据信息安全对人们的重要性。因此,为了能够提高数据信息的安全、可靠性,可以通过以下几个方面进行:首先,建立计算机信息安全体系,加大专业技术人才的培养力度,投入资金,为构建计算机安全体系奠定坚实的基础;其次,加大研究力度,开发信息安全技术产品。传统信息安全技已经无法满足大数据时代数据安全需求,为了能够尽快改善数据安全问题,应加大研究力度,寻求更好的解决方案,有效避免数据信息受到威胁;最后,重视对重要数据的检测,大数据时代的突出特点是数据量大,无法实现对每一个数据的检测。因此,为了提高数据安全系数,应加强对重点数据信息的检测,从而确保数据信息安全。
2.4信息处理技术的发展
计算机硬件具有一定局限性,在一定程度上阻碍了计算机网络的发展,而云计算网络能够突破这一弊端。因此,推广和应用云计算机网络成为未来大数据时代计算机信息处理的主要发展趋势。传统计算机网络是将硬件与网络有机结合,抑制了计算机信息处理技术的发展,将二者分离开,促使云计算主筋形成云计算网络,从而构建大数据信息网络系统,推动我国社会不断发展。
3结论
关键词:FAS466处理器合成孔径雷达高速数据记录SCSI接口标准
合成孔径雷达(SAR)经历了从光学记录成像到数字记录成像,从低分辨率到高分辨率,从单通道、单极化到多通道、多极化,从单频到多频的发展过程。SAR系统的迅速发展,使SAR的数据量也急剧增多,普通的存储器已经无法满足SAR系统对大容量、高速数据存储的要求。
常规的数据记录器的设计思路是通过高速PCI接口,采用SCSI总线处理器将高速数字信号存入SCSI硬盘。其缺点是数据传输的速率受PCI带宽的限制,而且PCI接口对微机系统的依赖性,使系统的模块化设计变得非常困难。另外,SAR对数据记录器的可靠性和工作环境的要求也非常高,使SAR数据记录器不能按照常规的方法设计。笔者通过对SAR系统的研究,基于模块化设计的思想,开发了一种基于FAS466的高速实时数据记录器。其特点是采用高速DMA接口、可脱离微机平台工作、体积小、可靠性高,实际持续存储速度达到72MB/s。
图1
1SCSI总线和硬盘
SCSI是美国ANSI9.2委员会定义的计算机和外设之间的接口标准。本系统采用SCSI硬盘,因为5CSI接口比常见的IDE接口具有更多优点:(1)SCSI提供了一个高速传输通道,传输速度更快;(2)SCSI接口采用总线主控数据传输(BusMasterDataTransfer),占用CPU资源少;(3)可同时串接多台不同类型的设备;(4)SCSI硬盘在标识硬盘扇区时使用了线性的概念,即硬盘只有顺序的第1扇区、第2扇区…第n扇区,不像IDE硬盘的"柱面/磁头/扇区"三维格式。这种线性编排方式访问延时最小,可加快硬盘存取速率,尤其在持续大容量控据存储时,所显现的优势更为明显。
2系统的硬件结构设计
整个系统的设计总体框图如图1所示,包括高速数据源、高速差分接收器、DMA控制器、数据缓存器、DSP微处理器、SCSI协议控制器和高速SCSI硬盘等子系统;下面分别给出各子系统的设计(PADBUS表示控制信号线,DATABUS表示数据信号线)。
2.1高速数据源和高速差分线性接收器
系统的高速数据源接口为16位的并行接口,数据传输接口的所有信号均采用低电压差分模式LVDS传输,信号进入记录器之后要将LVDS电平转换成TTL电平。
2.2数据缓存器
数据缓存的目的是为SCSI的高速DMA传输做好准备,使两边数据传输速度匹配。数据的流向一般是一个口进,一个口出,不对信号进行任何处理。双口随机存储器RAM虽然也可完成这个任务,但是由于它需要复杂的地址译码电路,所以不采用,而采用FIFO。由于SAR系统每帧数据小于8KB,本系统选用的FIFO深度为8KB。
2.3SCSI协议控制器--FAS466
FAS466(FastArchitectureSCSIProcessor)处理器是Qlogic公司1999年上市的一种高性能SCSI引擎,它源于Qlogic公司的TEC450/452三重嵌入式控制铝系列,可提供Ultra2SCSI的同步传输速率,支持先进的SCSl自动配置模式的1层和2层协议,内部嵌有微控制器,能够通过编程方式灵活地协调SCSI作业队列,可以工作在启动或目标模式并支持单端或低电压差分模式的SCSI连接。
FAS466区别于其它SCSI协议控制器的最大特点是它采用微处理器和DMA接口结构,而常见的SCSI协议控制器采用PCI接口总线结构。这是本设计采用FAS466的一个主要原因。采用微处理器和DMA接口结构,可以通过DSP对传输进行控制,脱离微机平台,减少传输带宽限制,使数据记录器具有非常好的灵活性和可移植性。FAS466由SCSI控制器、微控制器、DMA接口和微处理器接口四个模块组成。外部微处理器通过微处理器接口对FAS466进行控制,SCSI控制器提供灵活、有效的底层SCSI协议控制,微控制器负责控制数据从DMA接口到SCSI硬盘的传输以及各个模块之间的协调。图2为FAS466的内部结构。
2.4OMA控制器
本设计采用DMA接口代替高速数据存储中常见的PCI接口。这不但使传输数据的速率有了比较明显的提高,而且使数据记录器可以脱离微机系统,使模块化设计成为现实。
本设计采用CPLD器件实现DMA控制器,而不采用专用的DMA控制器,主要考虑以下一些因素:本设计的数据传输速率达到72Mg/s,一般的专用DMA控制器难以胜任;专用的DMA控制器与FAS466之间的连接需要大量的逻辑转换电路和连线,使设计难度加大;DMA控制器还需要在DSP的控制下与FAS466进行协调才能一起工作,这增加了软件编程的难度;使用CPLD器件,除了完成DMA控制器的功能之外,还可以把电路中的译码、逻辑转换、系统复位等模块设计进去,减小了设备的体积,方便了以后对系统的升级和改进。
图3
2.5DSP微处理器
该高速数据记录器选用TI公司的TMS320F206作为微处理器。主要考虑TMS320F206片内包含32K×l6字的FLASHEEPROM,使DSP周围电路简单、设备的体积减小,而且系统升级也比较方便;指令集非常丰富,与TMS320C5X系列指令兼容;TMS320F206的指令周期为50ns,符合系统对DSP速度的要求。
DSP负责对各个模块进行协调和控制,实现高速数据记录的功能。需要注意的是:FAS466的微处理器接口数据/地址总线是复用的,而TMS320F206的数据/地址总线是分开的,需要外部逻辑将数据和信号总线整合。高速数据通过信号源接口进入本系统,首先进行电平转换,然后进入数据缓存器;在DMA控制器的控制下进入SCSI协议控制器;最后通过SCSI协议控制器存入高速SCSI硬盘。整个数据流程中,DSP微处理器负责各个子系统之间的协调和控制。由于采用分离的微处理器总线和DMA总线结构,因此达到了较高的记录速度。
3系统的软件设计
软件模块的设计是本系统设计的重点和难点,它负责对相关硬件控制和协调,最终实现SCSI协议、硬盘的控制和DMA传输等。本系统中,软件设计分为DSP控制软件和DMA控制器的CPLD实现两部分。程序的优劣关系到整个系统数据存储的速度,下面分别讨论。
3.1DSP控制软件
一般来说.要完成一次数据交换必须完成SCSI总线的仲裁、选择、消息、命令、数据和状态等阶段。这些阶段,微处理器TMS320F206通过对FAS466寄存器的读写控制完成实现。FAS466的寄存器主要有:
(1)命令寄存器(CommandRegister):F206通过向命令寄存器写入相应指令,控制FAS466完成初始化、复位、总线分配与复位以及SCSI总线各个阶段的转变等功能;(2)FIFO寄存器(FIFORegister):这是一个16字深的FIFO寄存器,SCSI硬盘和FAS466之间的数据交换都通过这个FIFO完成;(3)传输计数寄存器(TransferCountRegister):是一个减法计数器,用于保存一次DMA数据传输的字节数;(4)中断寄存器(InterruptRegistet):F206通过FAS466中断寄存器了解SCSI命令的执行情况,从而决定程序的执行流向。
SCSI控制软件流程如图3所示。首先初始化SCSI控制器,然后SCSI控制器与SCSI硬盘建立同步传输协议,在硬盘准备好的情况下才可以发送各种SCSI命令,如读、写等,同时处理好各种意外情况的发生。
3.2DMA控制器的CPLD实现设计
大数据时代设计创新主要体现以互联网为平台的网络终端创新,如智能手机、平板电脑、导航产品和电子支付等生活类产品及服务的创新设计,以及与此相关的后台基础设施创新,如云计算、通讯、软件工程等技术领域。知名IT评论家谢文认为,目前网络业创新过程中,对大数据的获取可分为三种战略:前台、和后台为主的模式。苹果、Facebook和亚马逊分别是这三类模式成功的典范。苹果通过设计、销售各种互联网终端产品,通过Ios系统下的Itune网上商店将产品和服务集成来汇集数据,形成自成体系的规范数据标准平台,这种商业模式让苹果获得了巨大成功,表明工业设计有效利用大数据可实现产品和商业的成功。Facebook则抓住目前颇具人气的网络社交需求,依托Web2.0系统平台的构建和运营来获取各种标准化、结构化的用户数据,形成开放、庞大的共享数据流。亚马逊则通过建立强大的网络营销后台获取网络用户的各种需求数据,再结合电商形成开放平台,为用户提供量身定制的各类个性化服务,为电商提供行业所需的大数据。在口碑营销成为王道的电商时代,借助互联网提供的营销数据,掌握消费者的需求,企业能够及时调整设计、生产和制造策略,并通过3D打印快速实现消费者的个性化定制需求。这就需要通过网络获取用户数据,同时用科学方法分析这些数据所体现的用户消费心理、行为,最终转换为有用的设计语言。传统的产品设计、制造是一种线下行为,远离互联网,与消费者之间的沟通和交流存在时间差,获取的消费者数据十分低效。“3D打印”技术的出现让物质产品的设计、生产实现了数据化,传统制造业和互联网行业的高度融合,不但拓展了网络行业的产业边界,也为制造业的定制化服务提供了巨大空间。针对用户的产品定制,借助强大的物联网可实现低成本营销,真正实现个性化设计和按需生产,这让传统制造业进入到大规模、打破时空界限的全新发展阶段。这种借助互联网、物联网形成的新型产业链和商业模式改变了传统制造业,让企业从产业链上游及战略规划阶段就可集成物质化产品设计、制造和流通过程所需的各类数据,这要求制造业企业必须具备互联网思维,要求工业设计必须依靠网络集成各种数据,及时获取消费者需求。
二、大数据时代的工业设计
互联网打造了全新的社会形态和生活方式,人们的工作、生活已离不开网络,通过网络消费者可实现交友,衣、食、住、行各种所需。谢文认为,未来通过网络有望实现三方面创新,个人数据集成、公共服务数据集成及物质生产集成。如收集消费者在网络上的言谈举止和生活中所有活动产生的数据,建立“数据人”模型,为线下的制造业提供人的需求数据;集成线上的公共服务数据为国家、政府和组织提供服务支持;集成物质生产数据实现制造业的数据化生存。对工业设计而言,网络连接消费者、社会和物质产品组成的三维空间,融合各种大数据,可支持制造业的转型与社会进步。这正是新形势下工业设计的发展方向,即通过设计具体的服务产品,为消费者创造感性价值,实现消费者情感上对个性、品位和身份的追求。这些服务化产品在提供高品质服务的同时,以技术推动组织和社会创新,实现人、组织、社会和环境的可持续发展。此时的工业设计从“提供功能,方便使用”的问题解决方案,转向“讲述故事,创造意义”的“造意”阶段,“造意”正成为当下产品设计新的关注点。借助网络获取用户数据,让产品满足基本功能的同时,更多地向消费者讲述故事,引起消费者的回忆和联想,成为当下产品设计成功的关键。
三、结语
(一)大数据增值价值巨大,商业价值、经济价值和社会价值不可估量,终极价值在于助力社会进步与升级。美国奥巴马政府将数据定义为“未来的新石油”,是对其价值最生动的再现。大数据虽然价值密度低,但通过对数据的处理、整合和分析并使用,可创造出巨大的商业价值、经济价值和社会价值。面向大数据市场的新技术、新产品、新服务、新业态已不断涌现,大数据成为经济高速增长的新引擎,正在“吞噬”和重构传统组织架构,必将引发政府、公共事业、制造业、流通等领域全方位变革。特别是人机“生命共同体”快速进化,大数据将为人类的生活创造前所未有的可量化的维度,成为当代文明建设的助力器,让社会得以革新与升级,最终改变未来。
(二)大数据横空出世,源于个人全球化、记忆数字化、社会网络资本化的全力驱动,是IT业发展演进的历史使然。大数据不是突然产生的,是IT技术发展的必然产物。大数据浪潮主要源于三大驱动力推动。一是互联网、移动互联网及物联网等新一代信息技术,实现了信息、知识和社会关系网络乃至“个人”全球化,为大数据提供了广泛的数据来源。二是数据开放运动和数据民主化,实现了数据的分布式共享和全球性覆盖,云计算等廉价、高效的存储提取方式,让数据成为“共享的社会记忆”,客观上开启了大数据时代大门。三是挖掘复杂社会网络资本价值,加速了大数据技术的深度应用,构成了大数据的经济驱动力。全球化、数字化和社会网络资本化齐力推动了大数据大发展。
二、大数据:国家审计改革发展新动力
正在发生和演变的趋势表明,大数据时代无论对于社会、组织还是个人,都是一次革命,一个巨大的挑战,一个重大的转型机遇和飞跃的契机。国家审计无疑也是如此。1.飞速发展的经济社会新实践,必将推进国家审计理论与时创新。当前,人工智能、社交网站、RFID、语义网、云计算等技术或理念风驰电掣一般闯入我们的工作生活,数据开放、软件开源、普适计算、智慧地球等新思想令人眼花缭乱,新的技术和观念层出不穷。在信息技术环境下,丰富多彩的经济社会实践,通过信息交换、权能传递和功效联动等方式,将先进的信息技术、网络技术、网络时空观、数据挖掘、系统集成以及多媒体等多种学科理论和技术思想深层次地植根于审计理论,刺激审计理论的变革和创新。同时,国外一些先进管理理念,如企业再造工程、虚拟组织、穆尔法则(Mooreslaw)、基尔德法则(Gilderslaw)和麦特卡夫法则(Metcalfeslaw)等,与传统审计理论进行分化、碰撞、对接与融合,必将从广度和深度上推进审计理论不断繁衍与创新,审计理论将呈现多样性、交融性和虚拟性。2.审计客体内涵和外延的扩张,必将呼唤国家审计权力边界顺势突围。近年来,经济社会实践活动中,计算机、数据库、网络等现代信息技术得到了广泛运用,实物流、资金流表现向无纸化、数字化和信息流的转变,业务处理和财务管理逐步实现自动化和网络化,国家审计的审计内容、审计对象、审计资料、审计证据线索等都呈现出普遍电子化、数字化的特点。从而摆脱了传统帐套、传统财务信息、纸质的业务轨迹,从被审计单位的财务收支及有关的经营管理活动,会计资料和其他相关资料,扩展到电子数据、系统内部控制和信息系统自身;从财务数据延伸到业务数据;从内部数据关联到外部数据,审计客体外延和内涵的扩张,突破了以财政财务收支、纸质载体为主的审计权限范围。必然要求法律赋予审计部门数据采集、技术侦查、行政强制、诉讼等更多权力,以应对大数据时代的高科技舞弊,确保审计职能的充分发挥。3.新型大数据技术的广泛应用,必将推动国家审计作业流程优化再造。联机分析、数据挖掘、WEB2.0互联网审计、云技术等大数据技术普遍运用,将所有的审计内容、审计技术、审计方法纳入大数据审计之中。传统的现场审计作业流程必将改造优化为:了解调查,获取信息;采集数据,整理数据;进行数据转换、清理和验证;创建审计中间表;进行数据分析,找出审计重点;构建审计分析模型,分析数据;延伸落实,审计取证。数据分析成为审计作业的核心。信息技术还可以优化审计项目管理,如利用信息技术为审计项目管理内置一个标准的、符合质量要求的审计作业流程,用以规范审计人员的审计作业行为,使不同背景、不同水平的审计人员能够执行相同的审计动作。通过虚拟组织形态和数据集成智能化管理,实行远程控制审计项目,包括审计方案的控制、分工控制和授权控制,为质量控制和风险预防搭建一个良好的、高效的管控平台。4.国家审计供需矛盾更为激烈,必将要求国家审计主体能力自我革命。审计作为综合性经济监督部门,覆盖领域之广,涉及的经济社会活动之多,所产生和集聚的数据规模不可谓不大。大数据价值的发现和挖掘,必定给审计创造了更多需求,打开了更广阔的市场,对审计供给能力提出了新挑战。而决定审计供给能力的关隘就是国家审计主体能力。大数据时代,IT审计师将主导国家审计舞台。而目前,大部分审计人员主要精通财会知识,计算机知识和技能比较欠缺,知识结构还不能满足大数据技术的要求,数据分析与管理高端人才紧缺。审计人员除了要有专业的审计、会计知识外,必须精通信息技术,掌握网络、数据库、电子商务、信息系统的开发与管理和计算机辅助审计技术。优化审计人员能力结构,增强审计干部信息化审计基础能力、数据采集处理和分析能力、监测指标和模型的构建和分析能力、信息系统内部控制测评能力,尤为紧迫。
三、大数据背景下国家审计发展路径
无论是组织结构,还是国家文明,只有充分发挥大数据时代的价值、迎接好大数据面临的挑战并积极应对,才会处于不败之地。因此,国家审计应放眼未来,以大数据审计为目标,加快改革创新步伐,抢占审计发展的突破点和制高点,迎接新时代挑战。
(一)加快理论创新,为大数据审计落地提供实践指南。要坚持实践上的“摸着石头过河”与理论上的“顶层设计”相结合,加强审计理论和实务的研究,在理论上对大数据审计的性质以及由此决定的审计职能与任务等基本问题进行深入研究,构筑起适应大数据时展的、可用于解释和预测多种审计现象的审计理论。加强与国家信息化咨询委员会、公安部、发改委、工信部、财政部和国家信息中心等相关部门的合作研讨,多角度、更准确地把握客观现实及政策约束;组建由学术界专家、审计研究人员和实务骨干组成的团队,承担把握前沿热点、规划审计思路等工作,为加快大数据审计实践提供操作指南。要制定大数据审计发展的长远规划,坚持把大数据审计作为国家审计发展的核心战略,从数据、制度、人才和技术等方面逐步积累基础资源,有计划、有步骤、长期不懈地坚持推进。要加大宣传,营造数据审计文化氛围,革新思想观念,树立正确数据观,建立基于全数据模式、从整体到局部的审计思维模式,用大数据时代精神武装头脑。
(二)加快制度创新,健全完善大数据审计相关法规建设。目前,我国电子商务、网络经济和计算机应用相关法律法规制定相对滞后于经济社会实践活动,有些甚至还是盲区,导致大数据审计的法律地位和权限虚置。要加强电子商务、网络经济等相关立法,把电子合同、电子凭证、电子证据、电子签名的法律效力和保管要求,数据认证机构的管理,电子信息与网络安全等相关问题,以法律法规的形式明确固化下来,为大数据审计提供法律依据。要强化审计权威,扩大审计权限,赋予审计审查审计对象计算机信息系统的功能与安全措施,利用网络和审计软件进行审计,接入、采集、存储、提炼审计对象所有数据等的权力。要坚持本土自创与模仿移植相结合,建立健全与大数据时代相适应的审计标准和准则,如制定大数据审计评价准则、技术标准,数据挖掘分析指南,信息系统输入—处理—输出的符合性和实质性测试的准则,云计算以及网络审计准则等,确保大数据审计有法可依、有章可循。
(三)加快机制创新,积极构造政府主导、审计主推、IT企业参与的大数据审计联动机制。大数据技术在国家审计领域中的推广应用是技术进步的必然要求,但根据国家审计行业自身的特点,其无法自发地独自实现,必须积极构造政府主导、审计主推、IT企业参与的多点支撑联动机制,形成聚合效应。对政府而言,要积极把握大数据战略机遇,制定积极的政策法规,提供高质量的网络基础设施,营造适度宽松的大数据发展环境,鼓励企业、审计部门进行大数据相关的技术研发与应用创新,从标准、法律和意识形态层面大力引导大数据审计发展。对审计部门而言,要制定战略数据储备计划,加快与被审计单位数据实时互联互通,消除“信息孤岛”,为大数据审计提供数据载体;要逐步建立完善中央和地方的审计数据中心,构建审计管理、审计业务、审计方法和评价信息资源库,加快推进国家电子审计信息资源目录体系和交换体系建设,实现数据大集中。对IT企业而言,要深刻洞察大数据审计的需求,提供从硬件到软件、从产品到服务的一体化解决方案;要专注细分领域创新,提供具有审计行业特色的大数据审计专家级方案。
(四)加快应用创新,不断研究、探索、实践大数据审计技术方法。可以预见,大数据时代,审计人员时时刻刻都需要利用信息技术手段处理各种审计业务和工作。要结合审计工作实际,认真研究并积极实践A/B测试、关联规则挖掘、分类、数据聚类、众包、数据融合和集成、数据挖掘、集成学习等大数据分析技术,BigTable、商业智能、云计算、Cassandra、数据仓库、数据集市、分布式系统等大数据处理技术,以及标签云、Clustergram、历史流、空间信息流等可视化技术。要深度分析挖掘审计部门的大数据价值,从“业务驱动”转向“数据驱动”,实现审计决策和管理智能化。通过云计算的IaaS、PaaS和SaaS三大服务模式,建立国家层面的跨行业、跨领域的审计私有云和审计大数据分析平台。要建立审计专家和信息技术专家合作的审计信息技术研发模式,加强审计大数据分析模型和软件的研究开发。建立审计信息技术评选机制,对优秀的审计技术创新进行表彰奖励。建立审计信息技术库,把现有审计信息技术分类整理录入,实现网上查询、培训和新技术添加功能,加快大数据审计技术的推广和应用。
在大数据时代下高效的数据处理速度使得信息具有更高的效用,发挥了更大的速度优势.在数据真实可靠的基础上,其快速的数据处理并没有使得信息量减少,而是更加全面地包含了更多的细节信息,甚至于其他不相关信息都会被准确的排除.这样就最大程度地降低了信息化的成本,提高了信息化的效率.
2大数据与企业会计信息化
会计信息化是我国“十二五”期间会计改革与发展的重要内容之一,也是很多企业提高会计系统效率的有效途径.会计信息化是信息社会的产物,是将计算机、网络通讯等先进的信息技术引入会计学科,促进企业会计系统网络化发展的过程.大数据的兴起、云计算的增速和以云计算为基础的云会计的应用为会计信息化的发展提供了技术支持和平台.企业会计信息化的深度发展对于大数据的需要与日俱增.
2.1企业会计信息化的现状
1、会计信息披露具有偏向性,导致信息不对称.传统的会计信息系统会诱使企业选择特定的会计方法而造成企业管理人员利用自身是信息提供者这一优势,不断地美化会计报表,这对于外部使用者而言是非常不公平的.2、内部自我约束能力弱,导致数据不真实.在传统会计信息系统下,一些企业为了眼前经济指标的提升或者任务的完成,常常通过人为调整会计报表来应付各机构的检查,自我约束能力弱,数据失真.还有很多企业对现有的政策法规钻空子、打球的现象屡禁不止.聘请的第三方审计机构也本着“企业利益最大化”的审计目标,对企业不真实的数据进行舞弊,以点盖面.3、核算量大,导致信息披露不完全.传统的会计信息系统下,会计的信息系统发展越来越不能适应高速发展的经济业务,很容易造成信息披露不完全.信息经济时代下,应该更多的提供企业未来价值的知识资源,而不是沉浸在企业过去的财务数据中.4、企业信息数据单一,导致信息缺少指导性.传统的会计信息系统主要是对企业财务信息的反映,往往忽视了非财务信息.企业自身变化的社会经济形势要求我们不能只依靠过去的财务数据对未来发展做出预测.对企业未来的发展预测用某些非财务信息可能会更加合理.如企业的环境成本、社会责任等信息都需要非财务信息的提供.5、信息传递滞后,导致会计信息缺乏时效性.传统的会计信息系统采用先发生交易事项后进行记录的程序,无法满足当代企业对信息时效性的要求.企业以及社会各机构、投资者越来越需要了解随时发生的财务信息,对其进行更好的决策,这就要求企业不定期的提供会计信息,对于会计期间的定义也不再以年为单位了.因此,现有的会计信息滞后的时效性严重影响使用者的需求和投资者的决策.综上可知,传统的会计信息系统逐渐出现了不适应当今经济发展的事态,高效、全面的信息化系统变得越来越重要.在大数据时代下会计信息的不断创新,快速发展势在必行.
2.2大数据对企业会计信息化的促进作用
大数据时代下,对会计信息化的促进作用主要表现在:信息结构更加客观,既强调了会计信息的精准性,又不失相关性;财务会计信息管理的程序化;会计人员工作转向宏观信息管理;多元化的计量单位.在大数据时代下非结构化数据成为主导,在会计信息中可以更好的融合结构化和非结构化数据,更好的提高数据的相关性,并且不会人为的进行舞弊.程序化的会计信息管理也将出现,财务部门逐渐将不再作为一个部门,而是作为一个类似于“企业”的独立个体,数据的获取可以不通过部门的上报来实现,而是通过财务部门设定的独立软件获取,这也提升了财务本身的独立性,同时也可以为其他部门提供共享服务;财务部门不需要对数据进行处理,而是转变成为数据的使用和管理者.在大数据时代下,多元化的计量单位将会出现,会计计量单位会出现相关的时间、数量单位等.
2.3大数据时代下会计信息化面临的挑战
大数据时代下,企业会计信息化系统是通过互联网来实现与客户、供应商、银行、税务等机构互通的,其提高企业财务管理效率的作用是显而易见的.但目前因为大数据的发展尚未成熟,这就为会计信息化的快速发展带来了较大的挑战.1、数据的来源以及处理方式.大数据时代下最令人关注的问题就是数据从何而来,以及数据的处理方式.①美国数据科学家维克托•迈尔•舍恩伯格在《大数据时代》一书中提出,“以前一旦完成了收集数据的目的之后,数据就会被认为已经没有用处了.比如,在飞机降落之后,票价数据就没有用了;一个网络检索命令完成之后,这项指令也已进入过去时.但如今,数据已经成为一种商业资本,可以创造新的经济利益.”大数据时代下,数据的来源无孔不入,互联网平台上的任何一种资源都可以成为其来源方式.网络平台对用户使用的信息一览无余,一个简单的第三方软件就可以知道我们需要什么,需要何种服务,经济状况如何,经常偏爱哪种东西等等.企业在云端储存的数据对于云端后台的信息维护人员来说,获取变的轻而易举.防止恶意程序以及提高用户的安全系统,保护数据的隐私是很难解决的问题.在通过各种方式获取了用户的数据信息之后,要用这些数据干什么以及如何使用就成了关键性问题.大数据时代下的信息处理是通过特定的程序来完成的,这样的结论更加客观,同时结论的得出也具有局限性.大数据理论过于依赖数据的汇集,那么一旦数据本身有问题,就很可能出现满盘皆输的局面,因为数据的问题,做出的错误预测和决策,导致一个数据有问题,由此相关的数据而产生的信息本身都是问题所在.这对于数据来源的要求是非常高的,一旦有提供者造假,大数据带来的危害是不可忽视的.2、传统用户对云计算、云会计的排斥.对于不知道云计算如何使用、互联网软件能带来什么效益的用户来说,这项工作还是很难完成的,大数据的推广受到了很大的阻碍.对于云会计更广泛的应用,改变传统的用户观念以及现有的会计信息系统,使网络平台更容易被用户所接受是一个非常艰难的过程.3、超满负荷的网络传输问题.大数据时代下,会计信息化系统必须依赖于网络,这就要求企业应具备一个良好的网络传输环境.就目前而言,网络的堵塞和数据的延时都是大量的数据存储和数据交换造成的,超满负荷的数据传输成为会计信息化中的一个瓶颈,网络技术的发展目前还不能完全满足包括网络自我恢复、故障检测、问题警告等功能的实现.
一.大数据风控发展迅速,但有效性不佳
在应用层面,金融行业利用大数据进行风控已经取得了一定的成效。使用大数据进行风控已成为美国等发达国家互联网金融企业的标准配置。
美国Zest Finance公司开发的10个基于学习机器的分析模型,对每位信贷申请人的超过1万条原始信息数据进行分析,并得出超过7万个可对其行为做出测量的指标,而这一过程在5秒钟内就能全部完成。
为网上商家提供金融信贷服务的公司Kabbage主要目标客户是ebay、Amazon、PayPal等电商,其通过获取这些企业网店店主的销售、信用记录、顾客流量、评论、商品价格和存货等信息,以及他们在Facebook和Twitter上与客户的互动信息,借助数据挖掘技术,把这些店主分成不同的风险等级,以此来确定提供贷款金额数量与贷款利率水平。
中国互联网金融企业对于大数据风控的运用也如火如荼。
阿里推出了面向社会的信用服务体系芝麻信用,芝麻信用通过分析大量的网络交易及行为数据,对用户进行信用评估,这些信用评估可以帮助互联网金融企业对用户的还款意愿及还款能力做出结论,继而为用户提供相关的金融和经济服务。
腾讯的微众银行推出的“微粒贷”产品,其风控核心就是,通过社交大数据与央行征信等传统银行信用数据结合,运用社交圈、行为特征、交易、基本社会特征、人行征信5个维度对客户综合评级,运用大量的指标构建多重模型,以快速识别客户的信用风险。
对于大数据风控的理论研究尚处于萌芽阶段,本文以“大数据风控”为主题在CNKI数据库进行搜索,与此相关的文献数量可以从侧面反映大数据风控的理论研究现状。
CNKI数据库中以“大数据风控”为主题的文献共46篇。在这些文献中,以报道性的文章较多,重要报纸全文库和特色期刊总共为33篇,占比72%;而理论研究的文章较少,中国学术期刊总库为12篇,占比26%;尚没有CSSCI2014—2015年的来源期刊(如图1)。
图1 CNKI数据库与大数据相关的文献数量和分类
虽然大数据风控在实践上已经有所进展,但是其有效性也受到一些挑战。
例如,以大数据风控为基石的P2P平台就频频暴露出各种各样的问题来。对于P2P平台来说,由于其纯线上操作的特点,大数据风控的有效性是决定其经营状况的重要因素,如果大数据风控有效性较差,则面临的坏账压力较大,容易出现提现困难甚至跑路的问题。
网贷之家的数据显示,2015年上半年新增问题平台419家,是2014年同期的7.5倍,已超过2014年全年问题平台数量。截至2015年10月底,全国问题平台数累积已达1115家。
二.当前大数据风控有效性不足的原因分析
一些学者对于大数据风控的有效性问题进行了研究。
王强(2015)指出当前个人大数据征信的问题,一是数据的真实性,二是数据收集的法律障碍,三是坏账的不可预测性问题。
甚至有作者认为大数据风控是无效的,陈宇(2015)援引各种证据认为大数据风控是无效的。
总体而言,当前大数据风控有效性欠佳的原因主要有以下几个方面:
(一)数据的质量问题
当前大数据风控的有效性欠佳,其首要原因就是数据的真实性不高,包括社交数据和交易数据两个方面。
1.社交数据的真实性问题
美国lending club和facebook合作获取社交数据,在中国宜信也曾大费周折的收集借款人的社交数据,最后两者得出的结论都是社交数据根本就不能用。美国很多大数据征信公司的信息错误率高达50%,垃圾进、垃圾出。
2.交易数据的真实性问题。
当前许多电商平台的刷单现象非常严重,这将导致交易数据的严重失真。随着网购的火爆,有关电商平台“刷单”的报道屡见报端。
电商“刷单”有两种方式,一种是商家找所谓的消费者进行“刷单”。卖家买快递单号,其收件人和寄件人与实际的买家、卖家不一致。
另一种是快递公司发空包,但快递公司并未完成配送,而帮助商家完成平台上的物流信息。
(二)大数据风控的理论有效性问题
从IT技术层面论证大数据风控的实践性案例已经很多,但是在经济金融的理论层面,大数据风控还面临一些问题需要解决。
1.金融信用与社会信用的相关性不确定
目前大数据主要来源于互联网,而人们在网络中的表现并不能完全反映其真实的一面。相同的人群在不同场合呈现的特征是不一样的,尤其是目前人们在线上、线下割裂的状态,其行为方式往往会出现强烈的反差。
例如有些人不善交际,却将自己做的美食展示在微博上,吸引大量关注,粉丝暴增。因此网络并不能确切地证明某人的社交圈子,也就是说互联网的数据很难还原用户现实中的信息。
2.大数据对于“黑天鹅”事件的滞后性
在现实世界,总会出现不可预测的“黑天鹅”事件,一旦出现则有可能冲击大数据风控模型的基本假设,进而影响大数据风控的有效性。大到美国的次贷危机,小到个人意外事件的发生,在某种程度上大数据风控是无法预测的,但这些事件的发生,对宏观经济和微观主体都会产生重大的影响。
例如,2008年美国次贷危机后产生了一种“策略性违约”行为——贷款主体本身有能力还款,但是其在房价远低于贷款总额的时候,重新购买一套房子,并对之前的房贷断供,贷款者可以此方法进行“套利”。
虽然此类违约者会因此有不良信用记录,但是这对信用报告的影响有限,因为其他的债务按期偿还。而大数据对这种突变事件的预测能力则非常有限。
(三)大数据收集和使用的制度问题
在数据收集和使用的过程中也面临着合法使用的问题。如何高效、适度地开发和使用大数据,不仅仅是一个技术问题,也是一个社会问题,这些泄露的数据大量流入数据黑市,造成了用户安全、企业安全甚至国家安全方面的连锁反应。数据的收集和使用在很多时候都没有征得数据生产主体的同意,这导致了数据的滥用和隐私的泄露。
近年来,个人数据泄露事件频频发生,因个人数据泄露而造成损失的新闻屡见报端。猎豹移动安全实验室的《2015年上半年移动安全报告》显示,截至2015年上半年,猎豹共监测到496起数据泄露事件,影响超过544万人。2015年10月19日,乌云网消息称,网易的用户数据库疑似泄露。
图2 2005-2014年国内外数据泄密情况
资料来源:上海汉均信息技术有限公司《2005—2014年全球泄密事件分析报告》
数据安全问题也将越来越多的企业推向风口浪尖。
上海汉均信息技术有限公司的《2005—2014年全球泄密事件分析报告》显示,10年间,全球泄密事件中,我国泄密事件数量占比为58.5%,其中高频发地域主要是东部沿海经济较发达、产业格局以高技术含量为主的一二线城市(如图2)。
Verizon《2015年数据泄露调查报告》,报告覆盖95个国家,其中有61个报告了问题,涉及79790个安全事件(Security Incident),超过2000个(2122个)确认数据泄露(Data Breach)。
三.提高大数据风控有效性的路径
尽管大数据风控的有效运用尚处在诸多障碍,但这并不能成为大数据风控无效的理由。因为对于数据这个资源的挖掘尚处于初级阶段,在消除障碍、解决问题中前行,是大数据风控发展的必然趋势。有效扫除当前大数据风控的障碍需要各方面的共同努力,其中金融企业、金融研究部门和政府监管部门的角色尤为重要。
对于金融企业而言,要从基础数据上保证客户数据的多样化、连续性和实时性,确保数据真实可靠。
对于金融研究者而言,可从经济学、数学等多个角度综合论证大数据风控的有效性,为大数据风控提供理论支持。
对于政府监管部门而言,需要从法律制度、会计制度等方面进行建设,构建数据合理运用的良好环境体系。
(一)对于金融企业而言,要构建多样化、连续性和实时性的基础数据
1.多维度的收集数据,互联互通,打破数据的孤岛
美国征信系统的完善是因为美国政府对其拥有的大数据资源的开放程度日益透明化。
目前我国的大数据风控系统还没有实现互通互联,阿里、银联、平安、腾讯以及众多的P2P公司,都是各自为政,P2P公司拿不到央行的数据,几家大的互联网平台在相关大数据的分享上彼此也未互通有无。
因而,各金融企业要建立互联互通机制,打破数据孤岛,从而能多维度地收集数据,确保数据之间能够相互验证。
2.从供应链交易环节获取数据
获取真实数据最好的途径就是要切入客户的交易环节,尤其是稳定可持续的交易环节,即供应链。
一方面,经过了几十年的发展,当前的供应链都有一套完整上下游进入和退出机制,数据的真实性对于核心企业而言至关重要,因而这些数据的质量非常优异。
另一方面,这些数据和数据维度对于供应链中的企业评价是可靠的,金融企业可以此为基础,加上自身的风险控制经验,构建一套全新的基于数据的信用评价机制。
3.积极布局“物联网+”
物联网覆盖了产品生产、交易和使用的环节,因而互联网只是物联网的一部分。在物联网下,不仅要获取交易环节的数据,更重要的是获取生产环节和使用环节的数据。
因而,金融企业要积极布局“物联网+”,为获取更为全面的数据打下基础。例如,企业机器运行数据,可以收集客户汽车驾驶数据,可穿戴设备的身体状况数据,等等。这些数据都是大数据风控不可或缺的部分。
(二)对于金融研究部门而言,可从经济、金融等多个角度综合论证大数据风控的有效性,为大数据风控提供理论支持
当前对于大数据风控模型的构建大多是从技术的角度探讨的。但是,从经济、金融角度进行的探讨亟待加强,不同的经济假设会使模型推导的结果产生截然不同的变化。因而,从经济、金融等角度对大数据风控有效性的研究就显得很有必要了。比如大数据风控如何顺应经济周期的变化,如何从统计上论证过去的数据对于未来行为判断的准确性,如何解决道德风险所带来的不确定性。例如,唐时达(2015)提出要把数据提升至与传统抵质押品同等重要的高度,建立“数据质押”风控体系。
(三)对于政府监管部门而言,要推动和完善与数据相关的制度建
1.法律制度的建设,对数据的收集和使用予以法律上的保护
我国对于数据保护的制度性举措散见于多部法律中,如宪法、刑法、侵权责任法等,多是以保护个人隐私、通信秘密等形式出现,尚缺乏一部数据保护的专门性法律。这导致了数据的法律边界不明,数据保护法律的操作性不强、数据保护执法机制滞后等问题,制约了数据收集和运用的发展。
对此,最理想的状况是出台一部《信息保护法》。在完善个人信息保护法律制度的道路上,应出台《个人信息保护法》,明确国家机关、商家和其他法人、自然人掌握个人信息的边界和使用的范围[6-7]。齐爱民、盘佳(2015)认为要构建数据主权和数据权法律制度[8]。2014年最高人民法院颁布的《关于审理侵害信息网络传播权民事纠纷案适用法律若干问题的规定》(以下简称《规定》)就是此领域的进展之一,《规定》首次明确了个人信息保护的范围。
2.会计制度建设,对数据资产予以明确的计量
随着数据重要性的提升,数据列入企业资产负债表只是时间问题,数据将和土地、劳动力和资本一样,成为一种生产要素(Viktor Mayer-Schönberger,2013)。越来越多的理论界和实务界的研究者都倾向于认为数据将成为个体的财产和资产。
2012年达沃斯世界经济论坛的《大数据,大影响》报告认为,数据已经成为一种新的经济资产类别。