公司新闻

为什么要进行日志采集?

大数据系统一般分为数据采集、数据计算、数据服务、数据应用这几个层次。谈到大数据,头一步总是数据采集,有了原始数据,接下来的存储、处理、分析、应用和展示都是可能的。数据采集有两个难点,一是技术问题:如何采集数据,二是政策问题:如何获取非本公司的数据。政策问题更多的依赖于双方的平等交换,给数据提供者带来利益,这比技术问题更难得到有效的解决。

日志采集

在数据采集层,主要分为日志采集和数据源的数据同步,日志采集是一种重要的数据采集方式。所谓日志采集,就是统计用户信息和行为数据的操作。我们可以在前端埋点,在后端采集和统计脚本来分析网站的访问和使用瓶颈。日志采集的作用是通过分析用户和用户的行为来提高系统的性能,从而提高系统承载能力,及时发现系统的瓶颈,也可以方便技术人员根据用户的实际访问情况进行优化。

日志采集根据产品类型可以分为:浏览器页面采集和客户端采集。页面显示采集的两个基本指标包括页面浏览量和访客量。页面交互采集主要采集用户的互动行为数据,并量化用户的兴趣点和体验优化点。一般会针对APP客户端的数据采集开发专门的统计SDK。除了应用环境的一些基础数据,更多的数据将从按事件,比如点击事件、登录事件、业务操作事件等等角度来采集数据。

系统平台每天会产生大量的日志,处理这些日志需要特定的实时日志采集组件,目前每个大公司都有自己的系统。日志采集由页面的HTML文档中嵌入的JavaScript脚本执行。采集脚本由浏览器加载解析后执行,当前页面的参数、浏览行为的上下文信息(如用户访问当前页面时读取上一页)和运行环境信息(如当前浏览器和分辨率等)是在执行过程中采集的。采集脚本可以由业务服务器在响应业务请求时动态执行,也可以由开发人员在开发页面时手动植入。

数据采集本身不是目的,只有采集到的数据才能被使用,才能服务于应用分析。