上QQ阅读APP看书,第一时间看更新
1.2.1 数据采集
数据采集是指从传感器、智能设备、企业在线或离线系统、社交网络、互联网平台等渠道获取数据的过程。数据采集方法包括以下几种。
● 数据库采集:从关系/非关系型数据库获取数据。这是最常见的数据采集方法。
● 系统日志采集:日志对大型应用系统来说非常重要,是系统运维的关键,用户可以使用工具对日志进行统一的管理和查询,例如轻量级日志收集处理工具ELK(一种日志分析系统,由Elasticsearch、Logstash、Kibana 3个组件组成)。ELK能够提供完整的日志收集、搜索和展示功能。
● 网络数据采集:用户可通过网络爬虫或网站公开API(Application Program Interface,应用程序接口)等工具从网站获取数据,并从中抽取所需的属性内容。
● 感知设备数据采集:通过传感器、摄像头和智能终端采集信号、图片、声音或视频等数据。
在数据采集过程中,分布式发布和订阅消息系统Kafka是一种常用的系统,用户可以使用Kafka采集各个服务的日志,并以统一接口服务的方式将日志开放给其他组件。