时间:2022-12-17 12:44:36
引言:易发表网凭借丰富的文秘实践,为您精心挑选了九篇大数据技术范例。如需获取更多原创内容,可随时联系我们的客服老师。
关键词: 大数据; 4V特征; Hadoop; 云计算
中图分类号:TP391 文献标志码:A 文章编号:1006-8228(2015)01-13-02
Overview on big data technology
Yang Jing
(Department of Computer Science, Yunyang Teachers' College, Shiyan, Hubei 442000, China)
Abstract: Big data is a new technical wave after the network of things and cloud computing. To understand big data technology, the definition and 4V characteristics, the key technologies and main application fields are systematically analyzed in the paper. Through the introduction of the basic conception, characteristics, the main application fields with typical cases are summarized. The core technologies, key strategies of cloud computing, hadoop and data backup are analyzed. The potential information safety risks are pointed out. The countermeasures are given to provide some suggestions and references for wider application and study in the future.
Key words: big data; 4V characteristics; Hadoop; cloud computing
0 引言
物联网、云计算等新兴技术的迅速发展开启了大数据时代的帷幕。大数据技术是指从各种各样的海量数据中,快速获取有价值信息的技术,大数据的核心问题就是大数据技术。目前所说的“大数据”不仅指数据本身的规模大,还包括采集数据的工具、平台和数据分析系统复杂程度大。大数据的研发目的是发展大数据技术并将其应用到相关领域,解决实际生产、生活中的各种问题,从而推动信息技术健康地可持续发展。
1 大数据的定义及主要特征
与其他新兴学科一样,目前大数据没有一个统一的标准和定义。一般认为:大数据是由大量异构数据组成的数据集合,可以应用合理的数学算法或工具从中找出有价值的信息,并为人们带来经济及社会效益的一门新兴学科。大数据又被称为海量数据、大资料、巨量数据等,指的是所涉及的数据量规模巨大,以至于无法在合理时间内通过人工攫取、管理、处理并整理成为人类所能解读的信息。这些数据来自方方面面,比如社交网络、传感器采集、安防监控视频、购物交易记录等。尽管尚无统一定义,但这些无比庞大的数据被称为大数据。大数据具有如下4V特性[1]:
⑴ 体量Volume,是指数据存储量大,计算量大;
⑵ 多样Variety,是指大数据的异构和多样性,比如数据来源丰富,数据格式包括多种不同形式,如网络日志、音频、视频、图片、地理位置信息等等;
⑶ 价值Value,是指大数据价值密度相对较低,信息海量,但是要挖掘出真正有价值的数据难度较大,浪里淘沙却又弥足珍贵;
⑷ 速度Velocity,是指数据增长速度快,处理速度要求快。
2 大数据技术的应用领域
通过对海量数据进行采集、分析与处理,挖掘出潜藏在数据海洋里的稀疏但却弥足珍贵的信息,大数据技术正在对经济建设、医疗教育、科学研究等领域产生着革命性的影响,其所带来的巨大使用价值正逐渐被各行各业的人们所感知。
2.1 金融领域
大数据的火热应用突出体现在金融业,各大互联网企业(谷歌、阿里巴巴等)纷纷掘金大数据,开创了新的互联网金融模式。目前阿里巴巴的互联网金融做得如火如荼:基金、小额信贷、余额宝和理财保险产品等等,阿里巴巴之所以能够做火金融服务,其主要原因就在于阿里的大数据,阿里巴巴的电商平台存储了大量微小企业客户及数以亿计的个人用户行为信息、交易记录、身份数据等,拥有最好、最全的数据以及最完整的产业链,做P2P及个人小额信贷,具有最大优势[2]。相反,传统商业银行早期就已推出的小额信贷业务,开展得并不十分顺利。
2.2 市场营销
今天的数字化营销与传统市场营销最大的区别就在于精准定位及个性化。如今企业与客户的交流渠道发生了革命性的变化,从过去的电话及邮件,发展到今天的博客、论坛、社交媒体账户等,从这些五花八门的渠道里跟踪客户,将他们的每一次点击、加好友、收藏、转发、分享等行为纳入到企业的销售漏斗中并转化成一项巨大的潜在价值,就是所谓的360度客户视角。例如谷歌的销售策略主要着眼于在线的免费软件,用户使用这些软件时,无形中就把个人的喜好、消费习惯等重要信息提交给了谷歌,因此谷歌的产品线越丰富,他们对用户的理解就越深入,其广告定位就越精准,广告所攫取的价值就越高,这是正向的循环。
2.3 公众服务
大数据的另一大应用领域是公众服务。如今数据挖掘已经能够预测海啸、地震、疾病暴发,理解交通模型并改善医疗和教育等。例如,可采用神经网络和基于地震时间序列的支持向量机方法来预测地震的大概方位、时间、震级大小等重要信息,为通用地震模拟程序提供关键的数据,从而对地震进行早期预警,以使防震抗灾部门可以提前做好应对措施,避免大量的人员伤亡及财产损失;再如,将各个省市的城镇医疗系统、新农村合作医疗系统等全部整合起来,建立通用的电子病历等基础数据库,实现医院之间对病患信息的共享,提高患者就医效率[3];电力管理系统通过记录人们的用电行为信息(做饭、照明、取暖等),大数据智能电网就能实现优化电的生产、分配及电网安全检测与控制,包括大灾难预警与处理、供电与电力调度决策支持和更准确的用电量预测等,并通过数据挖掘技术找出可行的节能降耗措施,以实现更科学的电力需求分配管理。
2.4 安防领域
安防领域中最重要的就是视频监控系统,从早期看得见到现在看得远、看得清,视频监控是典型的数据依赖型业务,依赖数据说话。尤其是高清、超高清监控时代的到来,会产生巨量的视频数据。这些巨量视频监控数据中,多数是冗余无用的,只有少数是关键数据,如何剔除这些无用数据,一直是人们研究问题的焦点。在大数据技术的支撑下,通过对巨量视频数据的分析与处理,可实现模糊查询、精准定位、快速检索等,能够对高清监控视频画质进行细节分析,智能挖掘出类似行为及特征的数据,从而为业务分析和事件决策判断提供精准依据。
3 大数据处理关键技术
3.1 数据备份技术
在大数据时代,如何做好数据的安全备份至关重要。数据备份是数据容灾的前提,具体是指当出现某种突发状况导致存储系统中的文件、数据、片段丢失或者严重损坏时,系统可准确而快速地将数据进行恢复的技术。数据容灾备份是为防止偶发事件而采取的一种数据保护手段,其核心工作是数据恢复,根本目的是数据资源再利用。
3.2 Hadoop
大数据时代对于数据分析、管理等都提出了更高层次的要求,传统的关系型数据库和数据分析处理技术已经不能满足大数据横向扩展的需求。为了给大数据处理、分析提供一个性能更好、可靠性更高的平台,Apache基金会开发了一个开源平台Hadoop[4],该平台用Java语言编写,可移植性强,现在Hadoop已经发展为一个包括HDFS(分布式文件系统 )、HBase(分布式数据库)等功能模块在内的完整生态系统,成为目前主流的大数据应用平台。
3.3 云计算
如果把各种各样的大数据应用比作在公路上行驶的各种汽车,那么支撑这些汽车快速运行的高速公路就是云计算,云计算是大数据分析处理技术的核心。正是由于云计算在海量信息存储、分析及管理方面的技术支持,大数据才有了如此广阔的用武之地。谷歌的各种大数据处理技术和应用平台都是基于云计算,最典型的就是以UFS(UIT云存储系统)、MapReduce(批处理技术)、BigTable(分布式数据库)为代表的大数据处理技术以及在此基础上产生的开源数据处理平台Hadoop[5]。
4 大数据应用带来的信息安全隐患及应对策略
大数据时代,海量数据通常存储在大规模分布式的网络节点中,管理相对分散,而且系统也无法控制用户进行数据交易的场所,因此很难辨别用户的身份(合法及非法用户),容易导致不合法用户篡改或窃取信息;此外,大数据存储系统中包含了海量的个人用户隐私数据及各种行为的记录信息,如何在大数据的挖掘利用中确定一个信息保护和开放的尺度, 是大数据面临的又一难题。为了合理利用大数据并有效规避风险,我们提出以下四点建议:
⑴ 国家出台相关政策,加强顶层设计,保障数据存储安全;
⑵ 增强网络安全防护能力,抵御网络犯罪,确保网络信息安全;
⑶ 提高警惕积极探索,加大个人隐私数据保护力度;
⑷ 深化云计算安全领域研究,保障云端数据安全。
5 结束语
在当今信息知识爆炸的时代,大数据技术已经被广泛应用于商业金融、电力医疗、教育科研等领域。随着数据挖掘技术的不断进步,相关信息行业竞相从规模庞大、结构复杂的大数据海洋中攫取更多有价值的数据信息用于分析、解决现实生活中的各种实际问题,从而实现信息技术的快速健康发展。本文梳理了大数据的基本概念及4V特征,总结归纳了大数据技术的四大热门应用领域及三大核心处理技术,分析了大数据技术带来的诸如信息窃取及篡改、个人隐私数据泄露等信息安全隐患,并提出了相应的解决措施及建议。当然,目前大数据技术的研究尚处在起步阶段,还有许多深层次的问题亟待解决,如大数据的存储管理是通过硬件的简单升级还是通过系统的重新设计来解决,大数据4V特征中起关键作用的是什么,大数据技术的应用前景是什么,等等。就目前来看,未来大数据技术的研究之路还很长,需要我们用更加敏锐的洞察力来分析和研究。
参考文献:
[1] BARWICK H. The "four Vs" of big data. Implementing Information
Infrastructure Symposium[EB/OL]. [2012-10-02]. http://.au/article/396198/iiis_four_vs_big_data/.
[2] 韦雪琼,杨哗,史超.大数据发展下的金融市场新生态[Jl.时代金融,
2012.7:173-174
[3] 张敬谊,佘盼,肖筱华.基于云计算的区域医疗信息化服务平台的研
究[J].计算机科学,2013.40(10):360-365
关键词:大数据;数据库集群技术;分布集群
一、分布集群数据库在大数据中的应用
目前,许多数据增长率很高的大型数据库系统正被用于改善全球人类活动,如通信、社交网络、交易、银行等,分布集群数据库已成为提高数据访问速度的解决方案之一。为多种类型的用户在多个存储中组织数据访问,分布集群数据库的问题不仅在于如何管理大量的数据,而且在于如何组织分布式存储中的数据模式。智能数据组织是提高检索速度、减少磁盘I/O数量、缩短查询响应时间的最佳方法之一。基于规则的聚类是提供数据库自动聚类和数据存储模式解释的解决方案之一,基于规则的集群通过分析属性和记录上的数据库结构,将数据模式表示为规则。使用不同规则池分区的每个集群,每个规则与内部集群中的规则相似,与外部集群中的规则不同。分布集群数据库是一种有向图结构的进化优化技术,用于数据分类,在紧凑的程序中具有显著的表示能力,这源于节点的可重用性,而节点本身就是图形结构的功能。为了实现基于规则的集群,分布集群数据库可以通过分析记录来处理数据集的规则提取。分布集群数据库的图形结构由三种节点组成:起始节点、判断节点和处理节点。开始节点表示节点转换的开始位置;判断节点表示要在数据库中检查的属性。分布集群数据库规则提取的节点准备包括两个阶段:节点定义和节点排列。节点定义的目的是准备创建规则,节点排列是选择重要的节点,以便高效地提取大量规则。节点排列由以下两个顺序过程执行,第一个过程是查找模板规则,第二个过程是结合第一个过程中创建的模板生成规则。提取模板以获得数据集中经常发生的属性组合。在模板提取过程中,分布集群数据库规则提取中只使用了少数几个属性,它旨在增加获得高支持模板的可能性。与没有模板规则的方法相比,该节点排列方法具有更好的聚类结果,这两个过程中的规则生成都是通过图结构的演化来实现。
二、在线规则更新系统的应用
在线规则更新系统用于通过分析所有记录从数据集中提取规则,在大数据应用中,每个节点都有自己的节点号,描述每个节点号的节点信息。程序大小取决于节点的数量,这会影响程序创建的规则的数量。起始节点表示根据连接顺序执行的判断节点序列的起始点,开始节点的多个位置将允许一个人提取各种规则。判断节点表示数据集的属性,显示属性索引。在大数据应用环节,从每个起始节点开始的节点序列用虚线a、b和c表示,节点序列流动,直到支持判断节点的下一个组合不满足阈值。在节点序列中,如果具有已出现在上一个节点序列,将跳过这些节点。在更新每个集群中的规则时,重要的是要找到与最新数据不匹配的属性。因此,规则更新中要考虑的属性由以下过程确定。当计算集群中每个属性和数据之间的轮廓值时,阈值设置为0.85,只有轮廓值低于0.85的属性。将为规则更新过程中的判断节点的属性选择。一些数据的库存值和权重值低于0.85,因此这些值不包括在国民生产总值的规则更新中。在线规则更新系统中包含用于更新规则的属性,每个集群都具有属性的主要值,这些属性是集群质量的锚定点,进而影响轮廓值。在线规则更新系统应用中,完成主要的规则提取过程,这是一个标准的规则提取,在线规则更新系统考虑到数据集中的所有属性。执行该过程,对初始数据集进行初始集群;改善规则更新过程,仅对轮廓值低于阈值的数据执行。
三、大规模并行处理技术的应用
大规模并行处理技术主要用于编写和调试现代处理器的程序,而不是本地汇编程序,所有的书面代码都是从C/C++语言翻译成一个低级的核心汇编程序。在大数据应用中,会产生很多数据,在数据的分析和计算中,应该结合编程技术,标准语言是面向传统体系结构的,这就是为什么编译器不能使用所有可能的DSP体系结构以最佳效率生成代码的原因。为了获得一个良好的优化代码,有必要直接在低级汇编语言上编写代码。为了简化编写程序的任务,可以在某个处理器上使用面向代码生成器。使用一个专门的汇编代码生成器,使用并行结构化的编程语言可以获得比在C/C++中翻译的应用程序更高效的代码,生成高效的汇编代码,该代码积极利用DSP内核的并行性和其他特性。低级汇编代码是由所有编译器生成的,但是它们与传统的基于文本的语言(如C/C++)一起工作。大数据应用环节,在数据分类和计算中,当两个计算操作在不同的操作单元上执行时,才能在一个dsp核心的vliw命令中并行执行两个计算操作。根据运算执行单元的不同,计算运算可分为op1和op2两种类型。属于不同组使得在一个命令中执行两个操作成为可能。第一种类型包括由算术和逻辑单元执行的操作,第二种类型包括由乘法器、移位器ms执行的操作。在模板中,标记“1”表示第一种类型的标识,标记“2”分别表示第二种类型。如果两个操作具有不同的类型并且没有数据依赖关系,则可以进行并行化,DSP核心的并行性是通过在一个核心中存在多个操作单元来保证的。在大数据计算和分析中,如果有足够多的通用寄存器来执行这两个操作,并且它们可以并行执行,代码就会并行化,提升数据计算的效率。
本文首先对大数据时代的特点进行了介绍,其次对常用的数据挖掘方法进行了阐述,最后提出了展望。
【关键词】大数据 数据挖掘 分类 聚类
大数据(Big Data),也称为海量数据,是随着计算机技术及互联网技术的高速发展而产生的独特数据现象。现代社会正以不可想象的速度产生大量数据,如网络访问,微博微信,视频图片,手机通信,网上购物……等等都在不断产生大量的数据。如何更好的利用和分析产生的数据,从而为人类使用,这是非常重要的科学研究。在大数据时代,更好的利用云计算以及数据挖掘,显得尤为重要。
1 大数据的概念
大数据,是指无法在一定时间内用常规机器和软硬件对其进行感知、获取、管理、处理和服务的数据集合。IBM将大数据的特点总结为三个V,即大量化(Volume)、多样化(Variety)和快速化(Velocity)。
即产生的数据容量大。数据主要来源如:E-mail、搜索引擎的搜索、图片、音频、视频、社交网站、微博微信、各种应用软件和app、电子商务以及电子通信等等。在实际生活中,电子商务的购物平台数量和种类越来越多,社交网站的典型facebook的数据量大的惊人,以PB计量都不够。数据存储的单位不仅仅是MB、GB等,而是使用了表示更大容量的TB、PB、EB、ZB和YB等,每个单位的关系为后者是前者的1024倍,如1PB=1024TB。同时大数据的增长速度是越来越快,如手机相机的像素数随着新款手机的出现而成倍的增长。
1.2 多样化
从数据组织形式的角度将数据分为结构化数据和非结构化数据。结构化数据,具有一定的规律,可以使用二维表结构来表示,并存储在数据库中,如高校的教务管理系统的数据、银行交易产生的数据。而非结构化数据是无法通过预先定义的数据模型表达并存储在数据库中的数据,如声音、视频和图片等等。当前非结构化数据的增长速度远远超过结构化数据。
1.3 快速化
在当前商业竞争激烈的时代,对实时的数据进行分析和处理,挖掘有用的数据信息,并用于商业运作,对于企业和组织来说非常重要。如现在网络购物会依据多数人的购物组合,分析出大部分人在购买一件物品的同时会同时购买其他的物品,从而在购物选择时给予方便,提高网购的效率,提高效益。
随着互联网技术和计算机技术的快速发展,在产生大数据的同时,人们要能够对这些数据加以利用,得到有用的信息,才是最重要的。为了让海量规模的数据能够真正发挥巨大的作用,需要将这些数据转换为有用的信息和知识,即从传统的数据统计向数据挖掘和分析进行转换。比如沃尔玛超市能够从男人购物时买啤酒的同时会购买小孩的纸尿裤这种关联,并在实际物品摆放时将这两种物品放置在一起,方便用户购物。
2 数据挖掘
随着信息技术应用的广泛,大量的数据产生并存储各个领域的信息系统中,数据呈现了爆炸式的增长。数据挖掘在这种“数据爆炸,知识匮乏”的情况下出现的。数据挖掘(Data mining)是一个多学科交叉的研究领域,它融合了数据库技术、机器学习、人工智能、知识工程和统计学等学科领域。数据挖掘在很多领域尤其是电信、银行、交通、保险和零售等商业领域得到广泛的应用。
数据挖掘也称为从数据中发现知识,具体来讲就是从大规模海量数据中抽取人们所感兴趣的非平凡的、隐含的、事先未知的和具有潜在用途的模式或者知识。
3 数据挖掘的主要研究内容
数据挖掘的任务是发现隐藏在数据中的模式,其模式分为两大类:描述型模式和预测型模式。描述型模式是对当前数据中存在的事实做规范描述,刻画当前数据的一般特性。预测型模式则是以时间为主要关键参数,对于时间序列型数据,根据其历史和当前的值去预测其未来的值。常使用的算法有:
3.1 聚类分析
聚类是将数据划分成群组的过程,根据数量本身的自然分布性质,数据变量之间存在的程度不同的相似性(亲疏关系),按照一定的准则将最相似的数据聚集成簇。主要包括划分聚类算法,层次聚类算法和密度聚类算法等。经典算法有K-Means、K-Medoids。
3.2 特性选择
特性选择是指为特定的应用在不失去数据原有价值的基础上选择最小的属性子集,去除不相关和冗余的属性。特性选择用于在建立分类模型前,或者预测模型之前,对原始数据库进行预处理。常用的算法有最小描述长度法。
3.3 特征抽取
特征抽取式数据挖掘技术的常用方法,是一个属性降维的过程,实际为变换属性,经变换了的属性或者特性,是原来属性集的线性合并,出现更小更精的一组属性。常用算法如主成分分析法、因子分析法和非负矩阵因子法等。
3.4 关联规则
关联规则挖掘是数据挖掘领域中研究最为广泛和和活跃的方法之一。最初的研究动机是针对购物篮分析问题提出的,目的是为了解决发现交易数据库中不同商品之间的联系规则。关联规则是指大量数据中项集之间的有趣关联或相关关系。常用的算法有Apriori算法。
3.5 分类和预测
分类是应用已知的一些属性数据去推测一个未知的离散型的属性数据,而这个被推测的属性数据的可取值是预先定义的。要很好的实现推测,需要事先定义一个分类模型。可用于分类的算法有决策树、朴素贝叶斯分类、神经网络、logistic回归和支持向量机等。
4 结论
随着时代的进步,数据也发生变化,具有各种各样的复杂形式。很多研究机构和个人在对结构化数据进行数据挖掘的同时,也展开了对空间数据、多媒体数据、时序数据和序列数据、文本和Web等数据进行数据挖掘和分析。同时大数据的发展促进了云计算的产生,基于云计算的数据挖掘也在迅速崛起。
参考文献
[1]刘军.大数据处理[M].北京:人民邮电出版社,2013(09).
[2]王元卓等.网络大数据:现状与展望[J].计算机学报,2013(06).
[3]申彦.大规模数据集高效数据挖掘算法研究[D].江苏大学,2013(06).
[4](加)洪松林.数据挖掘技术与工程实践[M].北京:机械工业出版社,2014.
[5]贺瑶等.基于云计算的海量数据挖掘研究[J].计算机技术与发展,2013(02).
作者简介
许凡(1996-),男,江苏省南京市人。现就读三江学院计算机科学与工程学院计算机软件工程专业本科。
孙勤红(1979-),女,山东省临沂市人。硕士研究生学历。现为三江学院计算机科学与工程学院讲师、指导教师。主要研究领域为数据挖掘。
1、大数据技术是指大数据的应用技术,涵盖各类大数据平台、大数据指数体系等大数据应用技术。
2、大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
3、随着云时代的来临,大数据也吸引了越来越多的关注。分析师团队认为,大数据通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。
4、大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。
(来源:文章屋网 )
“大数据时代的预言家”维克托近日在北京面对一万多名技术信徒再次预言。
显然,这三大经典的技术信条在大数据时代面临动摇,
技术信徒的思维模式也即将发生颠覆。
那么,大数据对技术信徒意味着什么?
他们又将如何面对这一颠覆性的变革?
“技术汇成一条大河,一波推动另外一波。”IBM中国开发中心首席技术官兼新技术研发中心总经理毛新生带着对技术的满腔痴迷这样形容道。
一波未平一波又起,移动、社交商务、云计算、大数据等先后涌现的新趋势正在融合成一股巨大的潮流,将所有的行业IT化,进而推动商业和社会的演进。这也就意味着“科技是第一生产力”在当下有了更深层次的涵义——“IBM认为,在由新一代技术组成的智慧运算时代,中国的企业家们需要更为战略地思考信息科技的定位,将其运用到自身的变革转型之中。” IBM全球副总裁兼大中华区软件集团总经理胡世忠为企业新发展出谋献策。
由2012年的“软件技术峰会”改名为2013年的“技术峰会”,在这么一个盛会上,IBM试图展示的内容涵盖范围更为广泛——移动应用、大数据、云计算、DevOps软件持续交付、应用整合、社交商务、专家集成系统等热议话题,上百场技术主题演讲、28场分论坛、22场动手实验室和80个未来产品的现场演示,再加上被誉为“大数据时代的预言家”的《大数据时代》作者维克托·迈尔-舍恩伯格以及数十位来自IBM的院士、杰出工程师、相关领域的全球首席技术官和首席架构师的现场分享,IBM 2013技术峰会再次成为技术精英们关注的焦点。 大数据的新信条
《大数据时代》作者、牛津大学网络学院互联网治理与监管专业教授维克托·迈尔-舍恩伯格的出现着实让场内数以万计的技术信徒激动了一把。作为深刻洞察大数据给人类生活、工作和思维带来的大变革的第一人,维克托以价格预测网站的例子作为开场白,论证了大数据已经悄然在大众的身边出现并给他们的生活带来改变。
“全体性、混杂性和相关性是大数据的三个主要特点,而且这三个特点是互相加强的。”维克托归纳出了大数据对应的思维变革。收集和分析更多的数据才能获取足够的数据隐含的细节,这些细节恰恰是随机抽样所错失的。“干净”的、高质量的数据不再是标的,大数据需要我们摒弃对宏观上精确性的追求,转而获得微观上的准确性,即接受混杂的数据。最重要的是,人们不再沉迷于追寻数据之间的因果关系,即不再纠结于为什么,而是直接获得“是什么”的答案,并通过应用相关关系,更好地捕捉现在和预测未来——抽样因错失细节得不偿失,盲目追求精确性已经过时,执着于因果关系丧失机遇。
如何在大数据时代生存?维克托指出了两个关键点:一是意识到技术或者规模并不是成功的充分条件。遗忘规模经济,因为它的效益会逐渐淡化。20年前,一个公司只有拥有上十万台的服务器才能提供搜索服务,但在大数据时代,由于云计算的便利性,不拥有实体服务器的公司,如前文提到的,它只有30个员工,但它有能力为其上10亿的用户提供数据分析。二是为了在大数据时代获得胜利,大数据的思维模式不可或缺,工具的力量不容小视,分析能力是必要的。蓝色被谷歌选为搜索窗口的色彩,但蓝色实际上有51种,而且这51种蓝色人依靠裸眼无法明确区分,却能在心理层面给人带来不同的感受。经过大数据分析,谷歌发现原本由人工选出来的蓝色会导致谷歌损失200亿~300亿美元的收入,因为这一种蓝色并不最具备诱惑力,无法激起人们点击的欲望。
大数据的力量需要具备大数据的思维模式,并有效利用大数据的工具去发掘。IBM杰出工程师、InfoSphere Stream高级开发经理James R Giles阐述了IBM对大数据的看法:“我们正一步步走到了一个新纪元——大数据时代。如同对待自然资源一样,我们需要开掘、转变、销售、保护大数据资源;不同的是,大数据资源是无穷无尽的,我们不能任由大数据淹没自己,而应该在获得洞察需求的驱使下获得价值。”
大数据的类型广义而言有移动数据和静态数据,还有结构性数据和非结构性数据,这对应着不同的处理方式。“技术人员的责任是,能够去管理这些数据,能够理解这些从不同的数据源而来、不同类型的数据,能够分析这些数据,得出结论,让其提供决策支持,为企业拥抱新的大数据时代提供技术支撑,以保证管理、安全、商业的持续性。” James R Giles号召技术人员积极行动,以大数据的思维模式展现技术的价值和魅力。
找到内在联系
技术的趋势总是融合,也只有有机融合才能形成合力,发挥更大的威力,而实现这一合力的前提是明确各个趋势之间的内在联系。
“实际上,社交商务、移动、大数据、云计算是一体化的。”毛新生建议技术人员用一个全面的、融合的范式来沉着看待和应对纷繁的热点技术,理解这些热点会如何影响整个IT的走向,进而明晰IT如何可以很好地支持各行各业的业务转型和创新,“让每个行业都可以从新的技术转型当中获得足够的原动力”。
从贴近最终用户的角度来看,移动技术、社交技术改变了商业机构与其雇员、客户进行互动的方式。“就我个人的经历而言,航空公司的移动应用可以提供更好的客户交互。我是西北航空公司的粉丝,因为它家的移动应用服务很贴心,比如查询航班信息、根据我的喜好预留位置、定制化地进行社交推荐等。”毛新生以一个普通消费者的感受证明了企业通过移动应用收集并利用用户行为数据所带来的服务质量的提升。
移动催生了“一种崭新的服务交付端点”,即为用户提供了更多样化的服务体验点,让用户随时随地可以利用碎片化的时间去获得业务服务,也为企业带来了全新的服务交付渠道。移动这个渠道提供了更为丰富的全样性数据,在此基础上,大数据分析就更可信。“移动所具备的碎片化特点会带来更大量的用户行为信息。当把所有的人的行为结合在一起,就可以做群体的社会性分析。社会性分析会得到比较准确的群体特征。而群体特征足以获得很好的交叉销售与线上销售机会。”毛新生认为移动与大数据结合给企业提供了新的商业机会。
移动的设备无处不在。人、汽车,甚至建筑物、道路、桥梁,它们无时无刻不在提供数据,这就是新的数据源,是它们引领我们来到维克托所描述的更为广阔的大数据世界。
移动和社交商务的便捷性使得企业的整个业务流程变得非常自动化,用户可以享受自助服务,对应到企业端就意味着业务流程对前端的需求要反应得更为迅速,也意味着各个业务系统之间无缝连接,否则没有办法支撑以最终用户为中心的服务体验,但跨部门和跨应用的整合实属不易。进一步延伸开来,对用户体验的追求是无止境的,合作伙伴的API和服务可以作为补充,这即是“跨企业边界”的行为。这种行为必然导致大规模的用户访问。这些整合和外部拓展都需要云计算提供灵活有效的基础。没有云计算,移动前端的体验、大数据分析的效果都会大打折扣。“云的基础设施使大规模互动、大规模数据处理、大规模应用可以更好地服务我们。”毛新生指出。
环境变化加速,竞争更加激烈,要求企业的反应速度越来越快,应用以及端到端解决方案快速改变。毛新生饶有兴致地介绍道:“这个改变有多快呢?我们有的客户尝试以天为周期去改变,这意味着应用和业务流程的设计、开发、部署、测试、维护的整个过程要大大加快,也就是所谓的DevOps。只有把敏捷的开发和运维结合起来,生命周期变得以天为周期,才能响应新的商业环境。”
“移动、云计算、大数据、社交商务之间的紧密联系让我们应该以整体的眼光来审视它们。”胡世忠坚信,它们的组合可以创造可持续的竞争优势,可以迸发变革的力量。
至于一个企业应该从哪里下手来实现这一幅宏伟蓝图?毛新生给出的答案是:“每一个企业,因为它所处的行业或者特定的情况而拥有不同的切入点,有一些企业需要从移动开始,有一些企业需要从云计算开始,有一些企业需要从大数据开始,但是它们是不可分割的整体,只有综合地运用它们,找到适合自己的切入点,一步一步脚踏实地,才能掌握先机,打造竞争力。在这个过程中,要拥有正确的思维,改变既有思维,理解趋势,制定策略。”
例如,银行、保险、零售业这一类和最终消费者打交道的服务业在很大概率上需要先从移动、社交商务入手,从而使其有机会改善和用户交互的过程。而以数据为生的行业会琢磨如何将自己的内容和资源数据增值,而传统的运营基础设施的重资产企业,会追求将资产数字化,得到数据并进行分析,以优化资产的生命周期管理来预防性地降低维护成本,这些企业是以大数据作为切入点的。还有一些企业希望跨行业整合进行业务创新,背后牵扯到它们自身现有的业务模式和新业务模式的整合,这种情况下需要以云的方式构建新的应用、服务、商业流程。
毛新生认为切入点不同只是表象,每一种场景到最后都是综合性的运用,要把这几个技术综合运用起来。从前端开始,首先是利用移动,并借助社交渠道交流,很快这些渠道会得到新的数据,这些新的数据和原有的交易数据和积累的数据结合起来做进一步的数据分析,这就是大数据分析。大数据分析以后可以做社交推荐、关联推荐了。随后,能不能跨界再实现更广泛的销售?跟别的价值链上的合作伙伴合作,那么引入云是解决之道。数据量增大,用户数增多,云的基础设施可以让成本更合理。“所以说,到最后都是综合性的应用,尽管起点不一样”,毛新生说。
对技术人员而言,IT就是交付业务流程的基础,是信息化的工具。它的目标无非是优化业务流程或者创新业务流程。创新到达一定程度后,业务流程的量变会导致质变。“这就解释了为何全球越来越多的CEO将技术视为驱动企业发展的首要因素。” IBM软件集团大中华区中间件集团总经理李红焰强调,技术人员有能力,也有责任将“看不见的技术转变为看得见的享受”。
移动开发的转变
在大数据的带领下我们进入移动时代,企业有了新机遇,技术人员却有了新挑战。为什么移动开发和之前不一样呢?有什么不一样呢?这成为了萦绕在技术人员脑子里最主要的两个问题。
IBM杰出工程师及IBM移动平台首席架构师Greg Truty解答了这两个疑问。他认为,很多企业现在所做的事情与在移动的状态下做的事情是不一样的,移动状态下的任务和规划更具有战略性。移动应用是在不稳定的网络上运行的,所占用的资源更少。用户在移动设备上和非移动设备上的体验是完全不一样的,他们会希望在不稳定的网络上仍然能够获得良好的体验。企业现在需要思考的是,怎么样把大量数据、大量体验变成一些有意义的体验。同时,移动管理的需求也不一样了,开发的特性也不一样了。比如对一个企业来说,移动开发周期更短,有更多设备需要支持,有更多开发方法可供选择,也有更多的工具和库可供选择,这时候企业就需要仔细斟酌,哪些开发方法和工具是自己需要的。
自然而然,对于设备的管理也有了变化,因为应用变化了。“一直以来,客户端服务器的应用架构是企业在使用的。你需要协调在服务器端的服务以及在客户端的服务,挑战非常大。你不可能强迫客户运行你的应用,而必须能协调和兼容原有的系统。这是非常关键的一点。” Greg Truty强调了设备管理的重要性。
此外,产品种类也非常多,新应用层出不穷。Greg Truty 认为多而新的局面下更需要冷静处理:“我们会把应用和数据结合起来,移动和社交网络结合起来,这样做会创造一些新的得到数据的机会,需要进行管理。新的机会、新的技术,给整个IT组织带来了更多的挑战。”
关键词:云计算;云存储
1 什么是云存储
云存储是在云计算概念上延伸和发展的一个新的概念,是指通过集群应用、网络技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。当云计算系统运算和处理的核心是大量数据的存储管理时,云计算系统中就需要配置大量的存储设备,那么,云计算系统就转变成为一个云存储系统,所以云存储是一个以数据存储和管理为核心的云计算系统。
2 云存储分类
按照服务对象可以把云存储分类如下:
(1) 公共云存储。公共云存储可以以低成本提供大量的文件存储。供应商可以保持每个客户的存储、应用都是独立的、私有的,公共云存储可以划出一部分来用作私有云存储。
(2) 私有云存储。通过私有云存储,一个公司可以拥有或控制基础架构,以及应用的部署。私有云存储可以部署在企业数据中心或相同地点的设施上。私有云可以由公司自己的IT部门管理,也可以由服务供应商管理。
相比传统存储模式,云存储的租购模式显得更加灵活方便,其实,企业自己构建一个数据中心需要购买硬件等必备设施及复杂多变的维护管理。
(3) 混合云存储。这种云存储把公共云和私有云结合在一起。主要用于按客户要求的访问,特别是需要临时配置容量的时候。
从公共云上划出一部分容量配置一种私有云,可以帮助公司面对迅速增长的负载波动或高峰时很有帮助。
尽管如此,混合云存储带来了跨公共云和私有云分配应用的复杂性。
3 云存储具有的优势
作为大数据时代的云存储技术,与传统存储技术相比,具有如下明显优势:
(1) 灵活方便。对于中小企业或个人用户,完全可以将数据的创建与维护委托给云服务提供商,而只是租用云服务提供商的服务即可,用户不必考虑存储容量、存储设备类型、数据存储位置,以及更多的关于数据的可用性、可靠性和安全性等繁杂的技术层面。避免了购买硬件设备及技术维护而投入的精力,节省下来的大量时间可以用于更多的工作业务发展。
(2) 成本低廉。就目前来说,企业在数据存储上所付出的成本相当大,因为企业要建立一套存储系统不仅需要购买硬件等基础设施,同时,系统维护还需要专门的人员,企业的存储空间及管理费用都面临巨大挑战,企业必须更新或增加各种数据存储和管理设备,而且还要负担逐渐高涨的管理成本。
为了减少这种成本压力,好多企业将大部分数据迁移至云存储上,所有的升级、维护等管理任务均由云存储服务提供商来完成。因此,可以将数据存储与管理的成本降到最低,同时,还能获得最优良的数据存储服务。
(3) 量身定制。随着大数据的到来,传统的存储模式已不再适用企业的数据存储,企业急需一种新的存储方式来满足企业数据存储的个性化需求。
私有云即可满足企业这一个性化需求。云服务提供商可以专门为企业客户提供一种量身定制的云存储服务解决方案,也可以由企业自己的IT机构部署一套私有云服务架构。企业不仅可以得到最优质的个性化服务,还能在一定程度上降低安全风险。
4 云存储发展需要考虑的主要问题
由于云存储具有传统数据存储模式不具备的诸多优势,越来越多的中小企业正在将自己的数据中心逐渐转移至云端。而大型企业除了租用公共云存储服务以外,也开始着手建立自己的私有云存储数据中心。但是,云存储仍处于快速发展阶段,云存储要想得到广泛应用,还有待进一步完善和改进。
(1) 安全问题。数据存储在云计算中心,安全问题始终是用户最为关注的问题。
用户的敏感信息和个人隐私数据如何才能保证其具有安全性和私密性,云存储服务提供商应根据分布式文件中可能存在的安全威胁和安全需求,来制定相应的安全策略,以便在计算机中实施相应的保护机制,确保用户数据避免丢失或被窃。
(2) 可靠性问题。可靠性是数据存储系统最基本也是最关键的一项指标。
数据的备份复制是云存储管理中心必须考虑的问题,而且数据的备份复制可以大大提高云存储系统的可靠性和性能,同时能够增强系统的容错能力。如果云存储数据遭到破坏,云存储服务提供商应该能够快速全面地恢复数据,确保用户数据的完整性。
5 结束语
云存储不仅仅是存储,更多的是应用,是云计算时代的一场存储革命,随着云存储的安全性、可靠性、实用性等存储技术的不断成熟,人们对存储技术的认识不断提高,云存储成本的不断降低,一定会形成一个安全可靠、实用快速的云数据存储与访问系统。云存储必将广泛应用于各行各业,云存储必然是未来数据存储的发展趋势。
参考文献
[1]互动百科./wiki/云存储.
[2]百度百科. / view /
关键词:大数据;计算机;数据备份;安全保障
中图分类号:TP311
文献标识码:A
文章编号:1009-3044(2017)10-0025-01
数据信息作为时代的信息管理标志其安全性必须收到更大的重视,数据信息的安全存储系统尤为重要,防止信息数据的丢失的管理备份系统更为重要。因此能够将数据信息妥善管理,保证其正常工作的技术相当重要,但当数据真正丢失或不可避免地出现问题以后能够尽快地将其找回或者是在有效的时间内将其完整地恢复,以确保整个计算机系统能够正常工作的技术更是必不可少的。
1.数据备份概念及其特点
数据备份指的是将计算机系统的所有数据或者是部分重要数据借助某一种或多种手段从计算机一个系统复制到另一个系统,或者是从本地计算机存储系统中复制到其他的存储系统中。其目的就是保障系统可用或者是数据安全。防止由于人为的失误或者是系统故障问题亦或是自然灾害等方面的原因造成系统数据的安全性无法保障的问题。数据备份更重要的原因是数据信息的多重保存以备不时之需。
数据备份按照备份的实现方式可以分为单机和网络两种备份方式,传统的备份就是单机备份针对计算机本身将数据进行异地存储,现代比较流行的就是网络备份。这是针对整个网络而言的,这种方式的备份较为复杂,是通过网络备份软件对存储介质和基础硬件存储设备的数据进行保存和管理。由于网络备份是在网络中进行数据备份的,因此也就不同于普通的传统单机备份,是包含需要备份的文件数据和网络系统中使用到的应用程序以及系统参数和数据库等内容的。
数据备份的作用在于:一方面,在数据受到损害时对数据进行还原和恢复;另一方面,数据信息的历史性、长久保存,方便数据的归档。
2.数据备份存储技术
备份换言之就是数据的再存储,因此备份技术是存储技术的重要内容之一,但是数据备份存储作为计算机系统技术与简单的备份区别很大。计算机数据备份存储技术时更为全面、完整、稳定安全的数据信息的备份,是网络系统高效数据存储的,也是安全性较高的网络备份。
文件存储作为最基础的数据类型是随机存储在硬盘上的数据片段和文档资料,这些存储的数据文档、报表甚至是作为数据库文件的应用程序等等在存储一定的量就会出现超出容量的情况因此对其的整合是必要的。这样的整合是将存储的各类数据或者是数据库以一个顺序和程序的形式出现,帮助人们解决备份存储的空间问题,技术问题以及成本问题。更能将工作人员的连续数据维护和监控从繁重的工作中解放出来。
3.保障计算机数据网络备份的安全性策略
通过网络传输的备份数据在传输过程和传输路径方面必须确保数据的安全性。若不能保证数据的安全那么一些企业的关键数据和重要应用程序就会受损,甚至是失去了备份的意义。因此相比单机备份而言网络备份更要确保安全传输和安全存储。
首先确保备份数据的机密性。数据信息的网络备份不能被非法用户随意获得,因此在数据备份过程和传输过程中必须防止数据的机密性被破坏。一般数据备份常用的方法是加密。必须保证是数据拥有者才能使用这些数据信息,关键的数据信息的加密工作相比更加严格。数据内容不容有失,甚至是数据的相关名称和代码等也不能随便被非法进入系统的人获得才是最能保障数据安全的方式。
此外,在数据网络传输存储之前一定要确认接受信息一方的真实性,核实双方信息是否匹配,一定要在双方身份确认之后才能对网络的数据信息进行发送和接受,这样既避免了欺诈行为又确保了网络中间不可信的因素存在使数据信息遭到破坏。
其次。确保备份数据的完整性。数据备份存储不是一个简单的过程,数据信息是通过设备和网络之间传输来完成备份数据存储的。这一个成必须要保障所传输的信息完整地被上传而且这些数据信息不能被其他方拦截和篡改,以破坏备份数据信息的内容和属性等。此外在存储时也要保障数据信息的正确无误完整保存。
再次,备份存储的数据可用性。数据存储必须是可用的,而且是计算机资源用户合理合法的使用。对于网络备份系统的信息和信息用户系统的信息是完全一致的,是可用的。备份数据资料必须在合法用户需要时可以随时安全使用。这是网络数据备份存储必须保证的。
关键词:烟草;数据中心;大数据;Hadoop;Impala
1.大数据技术现状
当前许多企业都已基本实现了信息化建设,企业积累了海量数据。同时企业间的竞争日益加剧,企业为了生存及发展需要保证自身能够更加准确、快速和个性化地为客户提品及服务。而大数据技术能够从海量的数据中获取传统数据分析手段无法获知的价值和模式,帮助企业更加迅速、科学、准确地进行决策和预测。
1.1大数据技术现状
广大企业的迫切需求反之也促进了大数据技术的飞速发展,涌现出了诸如Hadoop、Spark等实用的架构平台。其中,目前最主流的就是Hadoop。Hadoop的分布式处理架构支持大规模的集群,允许使用简单的编程模型进行跨计算机集群的分布式大数据处理。通过使用专门为分布式计算设计的文件系统HDFS,计算的时候只需要将计算代码推送到存储节点上,即可在存储节点上完成数据本地化计算。因此,Hadoop实现了高可靠性、高可拓展性、高容错性和高效性,可以轻松应对PB级别的数据处理。
1.2大数据技术对烟草数据中心建设的影响
当前,烟草企业基于多年的信息化建设已经积累了海量数据,同时每天还不断有新的各种数据产生。在高并发、大体量的情况下,需要在数据采集、存储和运算方面采用与以往完全不同的计算存储模式,这就不可避免地需要采用大数据技术。同时,除了购进单、卷烟交易数据、货源投放数据等结构化数据外,还产生越来越多的非结构化数据,利用大数据技术,对非结构化数据进行预处理,可为人工判断和机器学缩减范围。对海量数据以及非结构化的信息进行分析统计,仅仅依靠传统的技术手段很难实现,只有引入大数据技术才能充分的将所有的数据资源利用起来,成为企业决策的助力。
2.江苏烟草数据中心应用现状
2.1江苏烟草数据中心体系架构
目前江苏烟草数据中心以一体化数据中心、一体化数据管理和一体化数据分析三个部分为核心,构建了一套完整的数据中心架构。一体化数据中心是整个数据中心最核心的部分。通过数据仓库模型、数据存储、ETL工具等组成部分,构建了业务数据的收集、加工、存储、分发的总体架构。建立了按ODS(SODS、UODS)、DW、DM三层结构设计建设的数据仓库。一体化数据管理通过主数据管理、信息代码管理、ESB平台构建了企业主数据收集、标准化、同步分发过程。结合指标管理,全面管控企业的公用基础信息。通过数据质量管理,全面有效管控数据质量。通过数据服务管理,有效提升数据中心的对外服务能力与水平。通过元数据管理来管理数据中心元数据。一体化数据分析通过构建移动信息、业务分析、数据挖掘三大模块,针对性解决当前不同人员的决策、管理以及操作需求,发挥数据中心的数据、技术、平台优势。通过移动信息模块为各级领导提供决策支持;通过业务分析模块为业务人员的日常工作提供支撑;通过数据挖掘模块,发掘数据所蕴含的隐性价值。基于上述一整套架构的支撑,目前数据中心构建了全省范围的数据集成、交换体系,一方面提升了全省基础数据、业务数据的规范化程度和数据质量,另一方面为在建业务系统的实施、已有系统的改造提供了标准化的高质量数据保障。
2.2大数据技术的应用场景分析
随着江苏数据中心的不断运行,一些基于传统技术架构的功能逐渐暴露出种种问题。其中较为突出的问题有:一是使用者对于大数据量数据的查询需求。基于传统技术架构的查询功能响应较慢;二是分析支持灵活性的不足。传统统计分析应用的数据结构大多是预先定义好的,面对灵活的非传统的统计查询需求难以支撑,需要进行额外的加工处理。江苏烟草数据中心结合互联网大数据技术特性,引入Hadoop平台以及Impala等工具,搭建基于大数据的自定义数据查询平台,以补充基于传统技术架构的功能不足,并为未来进一步发展建设基于大数据技术和云环境的数据中心做好准备。
3.基于大数据的自定义数据查询平台实现
3.1设计思路及架构
基于大数据的自定义数据查询平台是在现有数据中心的建设成果之上,以数据中心的数据存储为基础,以Hadoop、Hive、Impala等大数据技术工具为手段,以简单灵活、快速高效的查询展现为目标,建立的数据查询分析支持平台。
3.2技术方案
自定义数据查询平台的建设主要涉及数据存储架构、后台数据加工准备、前端展现三块内容。自定义数据查询平台的数据存储分为两部分。一部分为KETTLE、Impala等工具以及自定义查询相关的元数据存储,另一部分则是查询所需的各种统计数据的存储。元数据的存储根据元数据库的不同主要分为两部分。第一部分为基于Mysql数据库的元数据存储。这部分元数据主要包括有ETL工具KETTLE的元数据,以及前端自定义查询需要定义的权限、数据源、表、列和表列关系等信息。第二部分为基于Hive的元数据存储。这部分存储的是前端查询需要使用的Impala工具的元数据。统计数据的存储则是使用Hadoop的HDFS实现的。根据Hadoop平台架构,自定义数据查询平台的HDFS建立在6台虚拟主机构建的集群上的。其中:2台虚拟主机作为NameNode,一台为主节点,另一台为备份节点;其余4台虚拟主机都作为DataNode用于存储数据。所有数据将会统一分块自动分配存储到4个DataNode上。自定义数据查询平台的数据加工,是通过开源ETL工具KETTLE实现的。通过KETTLE从数据中心现有数据仓库及数据集市中读取需要的数据,根据自定义数据查询平台的数据模型定义对数据进行处理,最终加载到Hadoop的HDFS文件系统中。自定义数据查询平台的前端展现功能,主要是基于JSP技术实现页面开发,通过JDBC或者ODBC对后台Mysql数据库进行访问。使用者在查询页面中组织定义查询的内容,查询服务自动根据获取的元数据信息将定义的查询内容拼接转换成为查询SQL,之后通过Impala执行查询SQL对HDFS文件系统中的统计数据进行查询。
3.3系统实现效果
利用大数据技术,自定义数据查询平台较好地解决了目前数据中心所面对的问题,满足了使用人员对于大数据量以及分析灵活性的需求。面对使用人员层出不穷的查询需求,自定义数据查询平台通过预先梳理、分类定义各种维度以及统计指标。使用者可以自由的根据实际需求选择分析所需的维度及统计指标,同时还可以基于这些基础的内容更进一步自定义过滤条件以及计算公式,并指定其展现形式。在大数据量查询效率方面,自定义查询平台相比传统架构的查询功能有了较大提升。
4.结束语
大数据技术的发展方兴未艾,应用前景无比广阔,对各行各业的巨大作用正在逐步展现。江苏烟草数据中心的建设既要看到大数据技术未来的前景,更需要明确地认识到大数据平台的建设并非一朝一夕,需要有明确而长远的规划,不断完善数据环境建设、云计算环境的构建以及数据服务的扩展。
参考文献
[1]陈鹏.大数据时代下的信息安全问题研究[J].电子制,2015,18:48
[2]刘忆鲁,刘长银,侯艳权.大数据时代下的信息安全问题论述[J].信息通信.2016,181-182
关键词:大数据;数据库技术;数据标签
1引言
数据库技术主要是通过相关的技术措施对信息数据进行有效的存储管理、优化数据结构、设计数据管理模式等。另外,数据库技术还可以对库里的数据进行科学合理的整合分析,挖掘数据的真实性和实用性,找出不同数据之间的联系,这也是当前社会发展的实际需求,对于现代信息技术的发展起着十分重要的作用和意义。
2数据库技术简介
随着大数据技术的不断改革完善,作为近年来兴起的新型技术,它在一定程度上是随着云计算的出现而发展的。立足于云计算的相关技术,对人们生活和工作中产生的大量数据进行综合处理,结合计算机技术、网络通信技术、数据库技术等,有效推动社会经济的稳步发展。数据库技术在推广和普及过程中,主要是以计算机信息技术为载体,充分结合传统数据信息处理技术和互联网技术,对社会中的生产要素和业务要素进行及时有效的分析和更新,调整社会中现有的业务结构和发展模式,从而有效实现经济转型。
3大数据时代背景下数据库技术的应用现状
3.1构建与面向对象实际需求相结合的数据库
在进行数据库的开发和利用过程中,应当充分立足于用户的实际需求,有效结合面向对象方法,根据数据库的分析情况,充分了解用户的需求,为用户提供更为全面和细致的服务。从一定意义上来讲,不仅可以体现出个性化服务,还能保障数据传输过程中的安全性和实效性[1]。根据相关调查研究可以看出,当前我国数据库技术仍处于不断发展和创新时期,面向对象搭建出高效的数据库,并且根据用户需求不断进行调整优化。
3.2构建与多媒体技术相结合的数据库
一方面,对大多数群体来说,多媒体数据库中所存储的资料数据更多,界面的设置也更加多元化,能够在第一时间吸引人们的注意力,从而更好地满足人们的个性化需求,实现技术的多元化发展。另一方面,数据库的安全问题一直是人们最为关注的问题,安全隐患一直是制约数据库技术发展的重要因素,通过有效融合数据库技术与多媒体,可以在一定程度上提高数据库的安全性能和稳定性能。在实际工作过程中,为了充分推动数据库的发展和多媒体技术的有效融合,相关工作人员应当解决以下几个问题。第一,多媒体数据库在实际使用过程中必将涉及到用户的个性化需求,在进行设计时应当有针对性的融入相关数字数据,实现多媒体数据的有效管理和存储,已成为了技术节点搭建的重要模块。第二,数据库技术与多媒体技术要实现有效结合必将涉及到系统的兼容性,这不仅是数据之间的融合,还是数据交叉使用的重要内容,如何充分进行二者的融合和兼容,是全面深入实现多媒体数据库面临的主要问题[2]。
4大数据时代背景下的数据库技术特点
4.1统一性
受传统数据库系统搭建模式内容的影响,不同类型的数据库在使用中仍存在不兼容的情况。因此,无法充分利用数据库中的信息资源,造成了资源的闲置或浪费,无法充分满足用户的实际需求。大数据时代背景下的数据库技术可以有效解决这一问题,针对不同类型的数据库进行有效统一的数据库建设,不断完善数据信息资源的检索功能,从而提高用户的满意程度和工作效率,简化操作流程[3]。
4.2共享性
数据库技术的有效实现和价值体现,在一定程度上取决于数据信息资源的共享性。人们可以通过方便快捷的方式方法获取资源,不断提高信息的使用效率。在实践应用过程中,相关工作人员可以根据虚拟数据的实际情况对各个数据库中的子节点进行科学合理的搭建,逐渐实现功能的多元化发展和信息资源的共享。随着我国信息技术的不断发展,数据库技术的逐渐拓展和信息资源的共享,在一定程度上实现了信息资源的方便快捷,不断满足用户的多元化需求,从而充分体现出数据库的价值和作用。
5大数据时代背景下数据库技术的应用对策和手段
5.1数据标签
数据标签是大数据时代背景下使用数据库技术的基础,能够充分实现数据的查询和有效定位。在进行数据库的有效搭建和完善过程中,相关技术人员应当有针对性地凸显出数据库中相关资源的特殊性,充分立足于社会发展的实际需求,科学合理的设置相应字符长度,不断提高数据标签的科学性和合理性。
5.2节点建设
在使用数据库时,节点建设应当是建设的核心和关键,各个要素之间的有效搭建能够充分满足用户的实际需求,体现出个性化发展目标。根据实际情况可以看出,当前我国在节点建设中仍存在一定的问题,比如过于注重其标准性,采用固定的某种模式进行搭建,没有充分考虑到实际需求,使得节点建设脱离实际,无法充分发挥数据库技术的作用和功能。基于此,相关技术人员应当在原有数据库技术基础上进行优化完善,结合原有的地址内容和关键词检索信息,对整个数据信息资源进行重新整合,从而提高数据库的有效性。
5.3虚拟大数据系统
在数据库中灵活有效搭建出虚拟大数据技术可以更好地实现数据的海量管理,对数据库综合性能的提升和创新改革服务内容等都有着极其重要的作用和意义。虚拟大数据系统为数据群的前台,其功能的实现直接影响了数据库和节点信息资源的收集交汇,合理分配任务。虚拟大数据系统应当是整个虚拟数据中的关键所在,只有确保其正常高效运行,才能为用户提供更为更全面的服务[4]。
5.4信息获取
我国现有的数据库技术更为注重数据信息资源获取渠道和机制的创新完善,通过交互式管理模式,不断进行信息的重组和创新。一方面,对于信息的获取应当充分考虑到用户的实际需求,搭建出由上而下的健全数据信息获取途径,使得用户获得更为全面系统的数据信息,确保信息的真实性和可靠性。另一方面,在获取元数据时,技术人员应当充分运用虚拟大数据技术,对数据进行有效获取。