大数据技术与管理决策
上QQ阅读APP看书,第一时间看更新

第三节 大数据技术及其发展

一、数据与大数据

(一)数据的概念与内涵

数据是对客观事物的性质、状态及相互关系等进行记载的物理符号或这些物理符号的组合,是用于表示客观事物的未经加工的原始素材。

在计算机系统中,数据以二进制信息单元0和1的形式表示,所有能输入到计算机并被计算机程序处理的符号、数字、字母、模拟量等都叫数据。通俗来说,数据是指尚未被整理成被人们理解和使用的形式之前的表示,即发生于组织或组织所处环境中的原始事实的符号串。日常工作、生活、学习、娱乐过程中形成的文字、字母、数字符号的组合、图形、图像、视频、音频等,以及对各种事物的属性、数量、位置及其相互关系的抽象表示,都是数据。

与数据经常一起谈及的,还有信息和知识。信息是指为了某种需求而对原始数据加工重组后形成的有意义、有用途的数据。知识是指在信息的基础上提炼和总结的具有普遍指导意义的内容,包括共性规律、理论和模型模式方法等。如图1-5所示,数据、信息和知识三者既有区别又有紧密联系、不可分离。

图1-5 数据、信息、知识三者的关系

三者的关系具体表现在:①信息源于数据,但高于数据。数据是信息的表现形式和载体,是信息的原始记录;信息是经过加工后的对某现象具有一定解释力的数据,是有价值的数据。②知识是信息的进一步提升,是更加系统化、理论化的信息。③从数据到信息再到知识的阶梯式递进方式,也是从认识局部到认识整体的过程。值得注意的是,数据本身并没有意义,数据只有对实体行为产生影响时才成为信息,具有意义。

(二)大数据的概念与内涵

近年来,“大数据”(Big Data)已成为一个受全世界关注的热门词汇,在科研、电信、金融、教育、医疗、军事、电子商务甚至国家及政府机构决策时都离不开大数据的身影,大数据已成为国家重要的基础性战略资源,正引领新一轮科技创新,推动经济转型发展。目前,国际上关于大数据尚未形成统一定义。

(1)麦肯锡全球研究院(McKinsey Global Institute)指出,“大数据是指大小超出常规数据库工具获取、存储、管理和分析能力的数据集”,并强调并不一定只有超过特定值的数据集才算是大数据。

(2)国际数据公司(IDC)从四个特征定义大数据,即海量的数据规模(Volume)、快速的数据流转和动态的数据体系(Velocity)、多样的数据类型(Variety)和巨大的数据价值(Value)。

(3)国际研究机构Gartner指出,“大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产”。

(4)亚马逊大数据科学家John Rauser将大数据简单定义为任何超过了一台计算机处理能力的数据量。

(5)维基百科指出,“大数据是指所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理以帮助企业经营决策目的的信息”。

(6)美国国家科学基金会(NSF)指出,“大数据是由科学仪器、传感设备、互联网交易、电子邮件、音视频软件、网络点击流等多种数据源生成的大规模、多元化、复杂、长期的分布式数据集”。

(7)我国国务院于2015年发布的《促进大数据发展行动纲要》中,对大数据进行了全新界定,即“大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态”。

大数据是一个宽泛的概念,以上几个定义都无一例外地突出了“大”字。诚然“大”是大数据的一个重要特征,但并不是全部。本书认为,大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理,需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的数据集合。

我们可以从趋势变化角度更加深刻地理解大数据的内涵。在数据内容维度,大数据从生产管理、财务管理扩展到用户行为、产品状态、社交数据等数据;在数据结构维度,大数据从结构化数据逐渐扩展到网页、文档、视频等非结构化数据;在数据工具维度,大数据促使数据工具从数据库演变到了数据仓库,再到分布式数据管理系统。此外,值得注意的是,技术是大数据价值体现的手段和前进的基石,而实践是大数据的最终价值体现。大数据不仅仅是一种工具,更是一种战略、世界观和文化,是提倡用数据说话,减少主观主义和经验主义错误的战略思维。

(三)大数据的发展历程

大数据的发展历程总体上可以划分为4个重要阶段:萌芽期、突破期、成熟期和大规模应用期,见表1-3。

表1-3 大数据发展的4个阶段

2008年9月,《自然》杂志(Nature)推出“大数据”封面专栏,“大数据”受到人们关注并逐渐成为互联网技术热门词汇。

2011年5月,麦肯锡全球研究院发布了题为《大数据:创新、竞争和生产力的下一个前沿》的报告。该报告认为数据已经成为经济社会发展的重要推动力,并对大数据会产生的影响、所需关键技术以及应用领域等进行了较详尽的分析。

2012年3月,美国奥巴马政府发布了《大数据研究和发展倡议》,正式启动“大数据发展计划”,大数据上升为美国国家发展战略。

2012年7月,日本推出“新ICT战略研究计划”,把大数据发展作为国家层面的战略提出。

2013年12月,中国计算机学会发布《中国大数据技术与产业发展白皮书》,系统总结了大数据的核心科学与技术问题,推动了我国大数据学科的建设与发展。全球范围内,世界各国政府均高度重视大数据技术的研究和产业发展,纷纷把大数据上升为国家战略加以重点推进,以期在“第三次信息化浪潮”中抢占先机,引领市场。

2017年1月,工信部发布《大数据产业发展规划(2016― 2020年)》,全面制定了“十三五”期间的大数据产业发展计划。

2021年11月底,工信部发布《“十四五”大数据产业发展规划》,提出“十四五”时期的总体目标:到2025年我国大数据产业测算规模突破3万亿元,年均复合增长率保持25%左右,创新力强、附加值高、自主可控的现代化大数据产业体系基本形成。

随着信息网络技术、生物信息技术和计算机科学的迅猛发展,医药卫生、互联网、社会经济等各领域的数据日新月异、呈井喷式积累。根据国际机构Statista的统计和预测,全球数据量在2019年约达到41ZB(ZB:十万亿亿字节)。国际数据公司(IDC)统计显示,全球90%的数据是在过去两年内积累的,预计到2025年,全球数据量将比2016年的18ZB增加8倍,达到163ZB。如图1-6所示,人类社会进入了大数据时代,大数据的影响力和作用力正迅速触及社会的每个角落。

图1-6 2016—2020年全球产生数据量

(四)大数据的分类

1.按表现形式的不同分类

按表现形式不同,大数据分为模拟数据和数字数据。其中,模拟数据是指由传感器采集得到的连续变化的值,如温度、压力,以及电话、无线电和电视广播中的声音、视频等。伴随着物联网技术的发展与应用,数以亿计的传感器实时产生模拟信号,形成巨大规模的数据。数字数据则是指模拟数据经量化后得到的离散的值,例如,文字、数字以及用二进制代码表示的字符、图形、音频、视频等。

2.按载体的不同分类

按载体不同,大数据分为文本数据、图片数据、音频数据和视频数据。其中电子文档(如TXT文本、Excel电子表格)等属于文本数据;手机、相机拍摄的照片、扫描照片等属于图片数据;语音、音乐、效果音等数字化声音属于音频数据;录像、电影等连续的图像序列属于视频数据,具有信息内容丰富、数据量巨大等特点。值得注意的是,随着信息技术的发展,人们在各大媒体平台看到的大多为融合了文本、图片、音频、视频的多媒体数据。

3.按数据结构的不同分类

按数据结构的不同,大数据分为结构化数据、非结构化数据和半结构化数据。

(1)结构化数据。结构化数据是指由二维表结构来逻辑表达和实现的数据,如表格数据、面向对象数据库中的数据等。结构化数据主要通过关系数据库进行存储和管理,严格遵循数据格式与长度规范,字段之间相互独立,是传统数据的主体。

(2)非结构化数据。非结构化数据是指数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、图片、图像、音频、视频信息等。由于非结构化数据格式多样,在存储、检索、发布及利用过程中需要更加智能化的IT技术,如海量存储、智能检索、知识挖掘、内容保护、信息的增值开发利用等。

(3)半结构化数据。半结构化数据是指介于结构化数据和非结构化数据之间的,以自描述的文本方式记录的数据,如HTML文档、模型文档等。此外,由于自描述数据无须满足关系数据库的严格结构,在使用过程中非常方便,因此很多网站和应用访问日志多采用半结构化格式。非结构化和半结构化数据是大数据的主体,其增长速度远大于结构化数据。

4.按数据来源的不同分类

按数据来源不同,大数据分为交易数据、移动通信数据、人为数据、机器和传感器数据。

(1)交易数据。交易数据又称业务数据,是指业务处理过程中或事务处理所产生的数据。如客户关系管理(CRM)系统数据、库存数据、销售点终端机(POS机)数据、销售数据、生产数据等。交易数据是面向应用的操作型数据,具有时效性强、数据量大等特点,目前大数据平台能够获取时间跨度更大、更海量的结构化交易数据并进行数据分析。

(2)移动通信数据。移动通信数据是指被移动通信设备所记录的数据,包括运用软件存储的交易数据、个人信息资料或状态报告事件等。随着智能手机等移动设备普及性增强,移动设备上的软件能够追踪和沟通无数事件,移动通信设备记录的数据量和数据立体完整度逐渐丰富。

(3)人为数据。人为数据包括电子邮件、文档、图片、音频、视频,以及通过微信、微博等社交媒体产生的数据流。这些数据大多数为非结构化数据,需要用文本分析功能进行分析。

(4)机器和传感器数据。机器和传感器数据是指来自感应器、量表和其他设施的数据,包括呼叫记录(Call Detail Record)、智能仪表数据、工业设备传感器数据、设备日志、交易数据等。

(五)大数据的特征

大数据的5V特征包括容量大、类型多样、价值密度低、流转速度快和真实性要求高。

1.容量大(Volume)

根据著名咨询机构IDC提出的“大数据摩尔定律”,人类社会产生的数据一直都在以每年50%的速度增长,也就是说,每两年数据量将增加一倍多,这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量之和。根据统计和预测,如图1-7所示,2025年全球数据产生量预计达到163ZB,而到2035年,这一数字将达到2142ZB,全球数据量即将迎来更大规模的爆发。

图1-7 全球每年产生数据量估算图

2.类型多样(Variety)

大数据的数据来源广泛、数据类型丰富,涉及互联网、医药、保险、金融、环境等诸多领域,包含文本、图片、音视频、数据库、网页等各类结构化、半结构化及非结构化数据。其中,结构化数据占10%左右,主要是指存储在关系数据库中的数据;半结构化及非结构化数据占90%左右,主要包括网络日志、音频、视频、图片、地理位置信息等。繁多的异构数据存在无序化、碎片化、非结构化、非标准化等问题,对数据的处理能力提出了更高的要求。

3.价值密度低(Value)

在大数据时代,很多有价值的信息都是分散在海量数据中的,数据商业价值高,但价值密度低。以小区监控视频为例,在连续不间断的监控过程中,可能有用的数据仅有2~3s,若没有意外事件发生,连续不断产生的数据都没有任何价值。因此,大数据的价值密度远远低于传统关系数据库中已经有的那些数据。

4.流转速度快(Velocity)

大数据时代的很多应用都需要基于快速生成的数据给出实时分析结果以指导生产和生活实践,数据由离线处理变为在线处理,可以随时调用和计算是大数据区别于传统数据的最大特征,这对数据采集设备的读取速度、存储设备的吞吐量和交换设备的传输速度等都提出了较高的要求。

5.真实性要求高(Veracity)

大数据的内容是与真实世界息息相关的,研究大数据就是从庞大的数据中提取能够解释和预测现实事件的过程。因此,大数据时代对数据准确性、可信赖度、安全性均提出了较高要求。

二、大数据技术及其架构

(一)大数据技术

大数据技术是指伴随着大数据的采集、存储、分析和应用的相关技术,是使用非传统的工具来对大量的结构化、半结构化和非结构化数据进行处理,从而获得分析和预测结果的一系列数据处理和分析技术。大数据技术是生产力提高和科技进步的必然结果,是社会发展和时代变革的助推器。

大数据技术是一系列技术的集合体,通过这些技术可从大数据中挖掘信息,协助制定决策并实现系列大数据服务。从数据分析全流程的角度,大数据技术主要包括数据采集与预处理、数据存储和管理、数据处理和分析、数据安全和隐私保护等层面的内容。常规的大数据分析技术涉及统计分析、数据挖掘、机器学习、自然语言处理、文本分析、图像语音识别、可视化技术等,见表1-4。

表1-4 常见的大数据技术

(二)大数据技术架构

根据大数据从来源到应用的流程,可以将大数据技术架构分为数据采集层、数据存储层、数据分析层和数据应用层,如图1-8所示。

图1-8 大数据技术架构

1.数据采集层

数据无处不在,互联网网站、办公系统、政务系统、传感器、监控摄像头等都在每时每刻产生数据。数据采集层通过传感器、社交网络、移动互联网等设备或软件将分散在各处的海量数据收集起来,为后续的分析和应用提供数据基础。

数据采集主要包括数据获取、数据传输、数据初步整理和数据入库四个环节。具体来看,用户从数据源抽取所需数据,利用抽取、转换、装载(ETL)工具将异构数据源中的数据(如关系数据、平面数据文件等)抽取到临时中间层后进行清洗、转换、集成,按照预先定义好的数据模型将数据加载到数据仓库或数据集市中,成为联机分析处理(OLAP)、数据挖掘的基础;也可以利用日志采集工具(如Flume、Scribe等)把实时采集的数据作为流式计算系统的输入,进行实时处理分析。

通常大数据采集的数据类型主要有互联网数据、系统日志数据、内部数据库数据和传感数据,可能存在不同的结构和模式,需要将来自不同数据集的数据收集、整理、清洗、转换后,生成一个新的数据集,为后续查询和分析处理提供统一的数据视图。

2.数据存储层

大数据存储与管理是指用存储设备对收集的数据进行存储,建立数据库并进行管理和调用。数据存储层利用分布式文件系统、数据仓库、关系数据库、云数据库等,实现对结构化、半结构化和非结构化海量数据的存储和管理。

数据存储分为持久化存储和非持久化存储。持久化存储表示把数据存储在磁盘中,关机或断电后数据依然不会丢失。非持久化存储表示把数据存储在内存中,读写速度快,但是关机或断电后会引起数据丢失。目前大数据存储主要通过采用弹性可扩展、高容错、高可用、高吞吐量、高效且成本低的分布式存储系统实现,即将各种类型的数据存储在分散的物理设备节点上,在不同节点上进行副本备份,并通过网络连接存储资源。目前代表性的分布式架构大数据存储技术是Google(谷歌)的GFS和Hadoop的HDFS。

3.数据分析层

本层运用数据分析、基于统计学的数据挖掘和机器学习算法等分析和解释数据集,帮助企业挖掘数据价值,实现数据深加工。大数据处理分为在线处理(实时处理)和离线处理(批量处理)两类。所谓在线处理,是指对实时响应要求非常高的处理,如数据库的一次查询;离线处理是对实时响应没有要求的处理,如批量压缩文档等。Hadoop的MapReduce计算就是一种非常适合的离线批处理框架。为提升效率,下一代的管理框架YARN和更迅速的计算框架Spark最近几年也在逐步成型中。在此基础上,人们又提出了Hive、Pig、Impala和Spark SQL等工具,进一步简化了某些常见查询。此外,Spark Streaming和Storm则在映射和归约思想的基础上,提供了流式计算框架,进一步提升处理的实时性。

4.数据应用层

大数据的价值体现在帮助企业进行决策和为终端用户提供服务的应用上。数据应用层是大数据技术与应用的目标层,通常包括信息检索、关联分析等功能。大数据应用需要深入分析行业数据特点,梳理行业数据产品需求,建立适用于不同行业的数据应用产品。大数据的充分应用能够为企业提供竞争优势,并对大数据技术提出新的要求。

三、大数据的价值与应用

(一)大数据的价值

大数据的真正价值不在于大,而在于它的全,即空间维度上多角度、多层次信息的交叉复现和时间维度上与人或社会活动相关联的信息持续呈现。大数据将各行各业的用户、方案提供商、服务商、运营商及整个生态链上的相关者都融入一个大环境中,无论是消费者市场还是企业级市场,抑或是政府公共服务,都与大数据息息相关。消费者用户对大数据的需求主要体现在按需搜索、智能信息的提供、用户体验更方便快捷等;企业用户对大数据的需求主要体现在降低企业交易摩擦成本和经营风险,挖掘细分市场,提高企业的商业决策水平等。此外,大数据也被不断应用到政府日常管理中,成为政府改革和转型的技术支撑杠杆和推动政府政务公开、完善服务、依法行政的重要手段。

从业务角度出发,大数据的核心价值主要有以下三点:

(1)数据辅助决策。大数据及其技术能够为企业提供基础的数据统计报表分析服务并获取数据产出分析报告,指导产品运营。管理层通过数据掌握公司业务运营状况,辅助战略决策;产品经理通过统计数据完善产品功能、改善用户体验;运营人员通过数据发现运营问题、确定运营策略。

(2)数据驱动业务。管理者通过数据产品、数据挖掘模型实现企业产品和运营智能化,从而极大地提高企业整体效能产出,如基于个性化推荐技术的精准营销服务、基于模型算法的反欺诈服务等。

(3)数据对外变现。企业通过对数据进行精心包装,对外提供数据服务,获得现金收入。例如,数据公司利用所掌握的大数据提供数据开放平台服务,实现导客、导流、精准营销。

(二)大数据应用

1.大数据应用的层次

按照数据开发应用深入程度不同,可将大数据应用分为描述性分析应用、预测性分析应用和指导性分析应用三个层次,如图1-9所示。

图1-9 大数据应用的层次

(1)描述性分析应用。描述性分析应用是指从大数据中总结、抽取相关的信息和知识,帮助人们分析发生了什么,并呈现事物发展历程的过程。例如,美国的DOMO公司从其企业客户的各个信息系统中抽取、整合数据,再以统计图表等可视化形式将数据蕴含的信息推送给不同岗位的业务人员和管理者,帮助其更好地了解企业现状,进而做出判断和决策。

(2)预测性分析应用。预测性分析应用是指从大数据中分析事物之间的关联关系、发展模式等,并据此对事物发展的趋势进行预测。例如,微软公司纽约研究院研究员David Rothschild通过收集和分析赌博市场、好莱坞证券交易所、社交媒体用户发布的帖子等大量公开数据,建立预测模型,对多届奥斯卡奖项归属进行预测,准确率达87.5%。

(3)指导性分析应用。指导性分析应用是指在前两个层次的基础上分析不同决策将导致的后果,并对决策进行指导和优化。例如,无人驾驶汽车分析高精度地图数据和海量激光雷达、摄像头等传感器实时感知数据,对车辆不同驾驶行为后果进行预判,并据此指导车辆的自动驾驶。

2.大数据应用领域

(1)电商领域。淘宝、京东等电商平台通过用户浏览足迹收集用户信息,进行用户画像,为用户提供个性化定制推送,进行精准营销。

(2)政府领域。“智慧城市”已经在多地尝试运营,政府部门借助大数据感知社会发展变化需求,更加科学化、精准化、合理化地为市民提供公共服务。

(3)医疗领域。通过临床数据对比、实时统计分析、远程病人数据分析、就诊行为分析等辅助医生进行临床决策,规范诊疗路径,提高工作效率。借助大数据平台收集病人疾病信息、化验和检测报告,建立针对疾病特点的数据库。另外,大数据分析还有助于监测、预测流行性或传染性疾病的暴发时期,协助找到治疗方法。

(4)交通领域。利用大数据传感器数据了解车辆通行密度,合理进行道路规划,防止和缓解交通拥堵,为改善交通状况提供优化方案。

(5)金融领域。在用户画像的基础上,根据客户需求、年龄、资产规模、理财偏好等,对用户群进行精准定位,考虑社交媒体、新闻网络数据构建算法模型,更全面地做出买卖决策。

(6)安防领域。应用大数据技术实现视频图像模糊查询、快速检索、精准定位,进一步挖掘海量视频监控数据背后的价值信息,辅助决策判断。例如,企业防御网络攻击、警察捕捉罪犯、信用卡公司监控欺诈性交易等。

3.大数据应用的发展方向

在大数据时代,通过对海量数据的整合,挖掘其中有价值的信息,指导各领域应用与活动成为大数据发展的趋势。当前,虽然已有很多成功的大数据应用案例,但大数据应用仍处于初级阶段,描述性、预测性分析应用较多,决策指导性分析应用偏少。应用层次最深的决策指导性应用,虽然已在人机博弈等非关键性领域取得较好的应用效果,但在自动驾驶、政府决策、军事指挥、医疗健康等应用价值更高,且与人类生命、财产、发展和安全紧密相关的领域,尚未获得有效应用,仍面临着一系列待解决的重大基础理论和核心技术挑战。

未来,随着应用领域的拓展、技术的提升、数据共享开放机制的完善,以及产业生态的成熟,具有更大潜在价值的预测性和指导性应用将是大数据应用的发展重点。