Google Analytics(分析) – 如何从Google Analytics(分析)中提取数据并从中构建数据仓库(webhouse)?

点击流数据,例如引荐网址,顶级目标网页,顶端退出页面以及Google Analytics(分析)中的所有网页浏览量,访问次数和退回等指标.没有数据库可以存储所有这些信息.我需要从头开始构建一个数据仓库(据我所知的是网站),所以我需要从Google Analytics(分析)中提取数据,并将其自动加载到仓库中.我的问题是:

1)有可能吗?每天的数据都会增加(有些在指标或措施方面,例如访问量和某些新引用站点),仓库的加载过程如何?

2)什么ETL工具可以帮助我实现这一点? Pentaho我相信有办法从Google Analytics(分析)中提取数据,有人使用过吗?这个过程怎么样?
除了答案之外,任何参考文献,链接都将不胜感激.

最佳答案
与往常一样,知道底层事务数据的结构 – 用于构建DW的原子组件是第一个也是最大的一步.

基本上两个选项是基于你如何检索数据.其中一个,在此问题的以前的答案中已经提到过,是通过GA API访问您的GA数据.这与数据在GA报表中显示的格式非常接近,而不是事务性数据.使用它作为数据源的优点是,您的“ETL”非常简单,只需解析XML容器中的数据即可.

第二个选项涉及到更接近源的抓取数据.

没有什么复杂的,仍然有几行背景在这里也许是有帮助的.

GA网路仪表板由…创建
解析/过滤GA事务日志
(容器
这保存了GA数据
对应一个配置文件
帐户).
>此日志中的每一行代表a
单一交易并交付
以GA的形式发送给GA服务器
来自客户端的HTTP请求.
>追加到该请求(即
名义上是一个单像素GIF)是
包含所有的单个字符串
从那里返回的数据
_TrackPageview函数调用加数据从客户端DOM,GA cookies
为这个客户设定,和
浏览器位置的内容
酒吧(http://www….).
>虽然这个请求来自于
客户端,由GA调用
脚本(驻留在客户端)
立即执行GA的小学
数据收集功能
(_trackPageview).

所以直接使用这个交易数据可能是构建数据仓库最自然的方式;另一个优点是您避免了中间API的额外开销).

GA日志的各行通常不符合GA用户.尽管如此,它很容易得到它们.这两个步骤就足够了

>修改站点每页上的GA跟踪代码
发送每个GIF请求的副本
(GA日志文件中的一行)给你
自己的服务器,具体来说,
在电话之前
_trackPageview(),添加这一行:

pageTracker._setLocalRemoteServerMode();

>接下来,只要放一个单像素的gif
图像在您的文档根和调用
它“__utm.gif”.

因此,现在,您的服务器活动日志将包含这些单独的交叉行,它们再次从追加GA跟踪像素的HTTP请求以及请求中的其他数据(例如用户代理字符串)中构建.这个前一个字符串只是键值对的连接,每个键都以字母“utm”开头(可能是“urching tracker”).每个GIF请求中都不显示每个utm参数,例如,其中几个仅用于电子商务交易 – 这取决于交易.

以下是实际的GIF请求(帐户ID已被清理,否则是完整的):

07002

您可以看到,这个字符串由一组键值对组成,每一对用“&”分隔.只需两个简单的步骤:(i)在&符号上分割此字符串;和(ii)用简短的描述性短语替换每个gif参数(键),使其更容易阅读:

gatc_version 1

GIF_req_unique_id 1669045322

language_encoding UTF-8

screen_resolution 1280×800

screen_color_depth 24位

browser_language en-us

java_enabled 1

flash_version 10.0 r45

campaign_session_new 1

page_title位置列表|林登实验室

host_name lindenlab.hrmdirect.com

referral_url http://lindenlab.com/employment

page_request /employment/openings.php?sort=da

account_string UA-XXXXXX-X

cookies __utma = 87045125.1669045322.1274256051.1274256051.1274256051.1; + __ utmb = 87045125; + __ utmc = 87045125; + __ utmz = 87045125.1274256051.1.1.utmccn =(referral)| utmcsr = lindenlab.com | utmcct = / employment | utmcmd = referral; +

饼干也很容易解析(参见Google的简明描述here):例如,

> __utma是唯一的访问者cookie,
> __utmb,__utmc是会话cookie,和
> __utmz是推荐类型.

GA Cookie存储用户记录每个交互的大部分数据(例如,点击标记的下载链接,点击站点上另一个页面的链接,随后的第二天访问等).所以例如,__utma cookie由一组整数组成,每组由“.”分隔;最后一个组是该用户的访问次数(在这种情况下为“1”).

转载注明原文:Google Analytics(分析) – 如何从Google Analytics(分析)中提取数据并从中构建数据仓库(webhouse)? - 代码日志