网络数据的背后-网络日志的分析指标【转】

   通常网站分析的技术包括页面标签分析技术(JS技术)和日志文件分析技术两种,两种网站分析技术各有优缺点,譬如下文中介绍的基于回话的统计和点击流分析日志文件分析法就要优于页面标签分析法,通常,两种技术具有一定的互补性,这也是转载下文的目的之一。

网络数据的背后鈥斺斖缛罩镜姆治鲋副

----------------------------------------转载正文----------------------------------------------

【原文地址】:网络数据的背后——网络日志的分析指标               

     常用的定量分析是问卷调查,这可以收集到用户对产品的主观反馈,它的结果受问卷题目的影响,不能完全客观地反映用户如何使用产品,他们在实际环境中遇到了哪些问题。而针对网站的定量分析,网络服务器的日志文件能真实反映用户的当前体验,解释行为的深层特点,能够更有效地改进产品。

  网络日志可以帮我们回答很多问题,比如用户在什么时间段浏览网站;对网站的什么板块比较感兴趣;是怎样了解到网站;多少用户会转成重复用户;在网站上找到兴趣点的路径是什么;应该怎样优化使用过程,提高用户体验,等等。要系统地分析日志,得到有价值的用户反馈,主要考虑聚合度量、基于会话的统计、基于用户的统计和点击流分析四方面。


1. 聚合度量

  可以理解为将大量网站数据进行合并分析。下面结合某旅游论坛的日志数据说明常用的聚合度量指标。特别说明一下,本论坛纯属虚构,数据也是为了说明概念虚构的。

(1)网站的浏览量。

  同时间段的浏览量比较,可以得出用户关注度的变化趋势。图1显示了某旅游论坛2008年6月至2010年12月浏览量变化情况,其中09年6月左右浏览量骤然上升,09年12月逐渐趋于平缓,曲线的变化可能与论坛的营销手段、设计等有关,因此能见证采取措施带来的效果。

1.jpg

                                     图1 某旅游论坛的浏览量

(2)一天内各时间段浏览量的分布。

  从图2可以判断用户主要在休息时间浏览该论坛,因此论坛应当突出休闲轻松的内容。

2.jpg

                              图2 某旅游论坛一天内各时间段的浏览量

(3)网站各板块的浏览分布。

  可以分析具体板块、单个页面、同类页面组的浏览分布情况,判断用户的兴趣点。图3说明论坛用户主要对东南亚、日本比较感兴趣。
3.jpg

图3 该论坛国外旅游版的浏览比例

(4)操作系统和浏览器比例。

  方便网站更好的适应操作系统和浏览器。图4显示用户使用的操作系统以windows为主;图5表明浏览器中IE占多半比例,Firefox和Chrome的用户量也比较大。因此设计或改版时,需要重点满足windows模式,显示效果主要保证IE、Firefox和Chrome的兼容性。

4.jpg

               图4 该论坛用户使用操作系统的比例                    

5.jpg


                               图5 该论坛用户使用浏览器的比例

(5)推荐链接网站。

  即打开网页前,用户浏览的上一个网页。了解推荐链接网站,便于知道用户怎样进入网站,了解使用的情境。用该论坛举例,有近30%的用户是从搜索引擎进入网站,约60%则是从收藏或者地址栏输入直接进入论坛,这就说明用户忠诚度比较高,已经有了相对稳定的用户群。

(6)搜索引擎推荐和关键词。

  如果推荐链接来自搜索引擎,其中含有的关键词能帮助确定关键词的营销方案;如果是网站内部搜索的关键词,则更有助于向用户推荐内容。例如该旅游论坛内部搜索的热门关键词是“攻略”、“自驾”、“蜜月”、“海南”和“五一”,用户关注什么,这方面就需要多多提供参考。

 

2. 基于会话的统计

  会话是指通过链接与网站进行的信息交互。

(1)每次会话的平均访问的页面量。

  典型会话可以说明用户访问网站的广度。例如搜索类网站广度较小,用户的目的是查找信息,达到目标后就会终止,所以支持这个主要任务需要的页面较少,框架简单。但如果是电子商务类网站,使用目的是浏览、完成交易,过程复杂,访问页自然较多,因此需要不同的指引支持整个过程。

(2)会话平均的持续时间。

  从持续时间的长短,能判断用户的兴趣点;也可以判断出哪些是过渡页,哪些是内容页。图6是查询北京周边旅游景点的过程,小框的内容是这步查看的页面和查看的时长。从时长可以判断出列表页和当地旅游版属于过渡页面,但同样是过渡页,两者耗费的时间不同,这种现象也许是因为没有明显的推荐景点入口,因此查找时间较长。
8E14E73B-F5C5-4CEE-B06E-E99E2E82114A.jpg

                                图6 查询北京周边旅游景点攻略的过程

 

3. 基于用户的统计

  主要利用cookie(网站储存在用户本地终端上的数据)得到。

(1)访问次数。

  主要用来衡量用户的忠诚度和对网站的信任度,相对而言访问次数与这两者成正比。

(2)访问频率。

  可以用来决定网站内容的更新频率。图7显示了上述旅游论坛某三个版块的更新与访问频率的统计情况,第一个版更新太慢,可以通过访谈得到用户想要的信息,增加更新频率;第二版更新与访问同步,发布的信息能让用户尽量接受;第三版更新太快,很多内容被埋没,是吃力不讨好的做法。

7.jpg

                           图7 旅游论坛某三个版块的更新与访问频率

(4)保留率。

  是某时间段回访的用户数与该时间段总用户数的比值,时间段的长短需要根据网站本身的定位决定。还是用旅游论坛说明,用户一般会在旅行前一个月内查询旅游的相关信息,因此可以考虑以月为间隔统计保留率。如图8所示,该论坛保留用户的能力稳定。

8.jpg

                                图8 该旅游论坛2010年用户的保留率

(5)转换率。

  转换率等于进入下一页的用户与浏览当前页用户的比例。从下表可以看出用户从旅游版面的列表打开贴子的用户较少,回复贴子的比例也很低,因此可以向用户推荐有价值的贴,同时考虑增加回帖的激励措施。

biao.jpg

 

4. 点击流分析

  即分析得到用户是如何使用网站的。

  路径分析。从论坛的查找景点攻略的目的,是快速了解目标景点的信息,目前的过程可以精简为图9所示的关键路径。因此可以考虑是否把图6中的过渡页“首页列表”设计为论坛的侧边栏。同时像“八达岭”、“秦皇岛”、“海河”等属于关注度高的景点,因此可以考虑将热点景点的链接直接呈现在列表中,将旅游版面这一过渡页也省略。

9.jpg

                                        图9 查询景点攻略的过程

  上面提到的各个指标都是单独呈现的,有时需要结合多个指标综合考虑。例如可以利用基于会话统计中的平均持续时间、平均访问页面,以及基于用户统计的访问次数、访问频率等分析用户的忠诚度,这里就不详细阐述了。

  网站日志分析主要能得出用户在网站上做什么,怎样做,但为什么做需要通过访谈、焦点小组、可用性测试再进一步了解。

  上面是在学习网站日志分析时整理的比较有用的资料,相对浅显,更深入的研究希望可以随时交流~

  参考资料:Kuniavsky, M. (2003). Observing the user experience: a practitioner’s guide to user research. San Francisco,CA: Morgan Kaufmann.

 

本文转载自:http://cdc.tencent.com/?p=3885

转载于:https://www.cnblogs.com/skylaugh/archive/2011/06/28/2092764.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/475587.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

词云图 - WorldCloud - Python代码实现

目录 第一步:安装必要的包WorldCloud(安装好并且没有出错的可跳过这一步) 第二步:准备文件,词云图的图片和文章,按照自己喜好准备吧 第三步:Python实现-源码 第一步:安装必要的包…

[Hands On ML] 2. 一个完整的机器学习项目(加州房价预测)

文章目录1. 项目介绍2. 性能指标3. 确定任务类型4. 查看数据5. 创建测试集6. 数据可视化7. 查找数据关联8. 特征组合9. 为算法准备数据9.1 数据清洗9.2 处理文本特征10. 自定义转换器11. 特征缩放12. 转换流水线Pipeline13. 训练模型14. 交叉验证15. 微调模型15.1 网格搜索15.2…

线性回归 - 机器学习多元线性回归 - 一步一步详解 - Python代码实现

目录 数据导入 单变量线性回归 绘制散点图 相关系数R 拆分训练集和测试集 多变量线性回归 数据检验(判断是否可以做线性回归) 训练线性回归模型 先甩几个典型的线性回归的模型,帮助大家捡起那些年被忘记的数学。 ● 单变量线性回归&…

聚类分析 - K-means - Python代码实现

算法简介 K-means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。 算法过程如下&…

数据归一化 - MinMaxScaler()/MaxAbsScaler() - Python代码

目录 归一化 数据归一化的背景介绍 MinMaxScaler:归一到 [ 0,1 ] MaxAbsScaler:归一到 [ -1,1 ] 标准化 去均值,方差规模化 归一化 数据归一化的背景介绍 在之前做聚类分析的时候我们发现,聚类的…

loadrunner 配置远程监控windows服务器系统资源

今天决定监控远程windows xp上的系统资源,本来以为应该很好连接,在同一个局域网内,结果出了一堆问题,可能是第一次就让我遇到了一个棘手的操作系统,郁闷! (1)保证装有loadrunner的测…

Python数据清洗 - 洗什么?怎么洗?看完就明白了

目录 缺失值处理 删除缺失值 插补缺失值 不处理缺失值 重复值处理 异常值处理 遍历查找异常值,并根据规则调整大小 删除异常值 视为缺失值后进行插补 数据挖掘过程中,采集的原始数据里存在着各种不利于分析与建模工作的因素,比如数…

LeetCode 743. 网络延迟时间(最短路径)

文章目录1. 题目2. 解题2.1 弗洛伊德1. 题目 有 N 个网络节点,标记为 1 到 N。 给定一个列表 times,表示信号经过有向边的传递时间。 times[i] (u, v, w),其中 u 是源节点,v 是目标节点, w 是一个信号从源节点传递到…

逻辑回归 - sklearn (LR、LRCV、MLP、RLR)- Python代码实现

目录 LR(LogisticRegression) - 线性回归 LRCV(LogisticRegressionCV )- 逻辑回归 MLP(MLPRegressor) - 人工神经网络 RLR(RandomizedLogisticRegression)-随机逻辑回归 logisti…

轻松看懂机器学习十大常用算法 - 基础知识

通过本篇文章可以对机器学习ML的常用算法有个常识性的认识,没有代码,没有复杂的理论推导,就是图解一下,知道这些算法是什么,它们是怎么应用的,例子主要是分类问题。 算法如下: 决策树随机森林算…

数据离散化 - 等宽等频聚类离散 - Python代码

目录 等宽离散 等频离散 聚类离散 附录: rolling_mean函数解释 cut函数解释 其他数据预处理方法 一些数据挖掘算法中,特别是某些分类算法(eg:ID3算法、Aprioroi算法等),要求数据是分类属性形式。因此常常需要将…

LeetCode 1444. 切披萨的方案数(DP)

1. 题目 给你一个 rows x cols 大小的矩形披萨和一个整数 k ,矩形包含两种字符: ‘A’ (表示苹果)和 ‘.’ (表示空白格子)。 你需要切披萨 k-1 次,得到 k 块披萨并送给别人。 切披萨的每一刀…

获取数据 - 将Excel文件读入矩阵matrix中 - Python代码

机器学习中,很多算法的计算逻辑是基于数学的,免不了求特征值和特征向量这种事情,因此,在数据预处理的时候,将数据源中的数据转储成矩阵格式是很有必要的。 原数据: 代码: import numpy as np…

Visual Studio 2010 调试 C 语言程序

转:http://woyouxian.net/c/using_visual_studio_write_pure_ansi_c_program.html 本篇文章讲述如何用微软的 Visual Studio 编写纯C语言程序,这里的纯C语言,指的是 ANSI C 语言。 要在 Visual Studio 里创建一个 ANSI C语言程序,…

Silverlight 4之旅(三)数据绑定(中)

在上篇文章中我们已经看过了绑定的基础知识,以及绑定数据源的选择问题。在本篇文章中我们看下绑定时Target的现实的问题。 自定义显示 很多时候我们的DataSource存储的数据并不可以直接用来显示,比如说我们对于Bool类型,需要显示为“是”或则…

LeetCode 第 28 场双周赛(505/2144,前23.6%)

文章目录1. 比赛结果2. 题目1. LeetCode 5420. 商品折扣后的最终价格 easy2. LeetCode 5422. 子矩形查询 medium3. LeetCode 5423. 找两个和为目标值且不重叠的子数组 medium4. LeetCode 5421. 安排邮筒 hard1. 比赛结果 两题选手😂,前两题很水&#xf…

决策树模型 - (ID3算法、C4.5算法) - Python代码实现

目录 算法简介 信息熵(Entropy) 信息增益(Information gain) - ID3算法 信息增益率(gain ratio) - C4.5算法 源数据 代码实现 - ID3算法 代码实现 - C4.5算法 画决策树代码-treePlotter 算法简介 决策数(Decision Tree)在机器学习中也是比较常见的一种算法&#xff0c…

重复值处理 - 清洗 DataFrame 中的各种重复类型 - Python代码

目录 所有列是否完全重复 指定某一列是否重复 根据多列判断是否重复,防止误删数据 其他数据预处理方法 通过八爪鱼或者火车头等采集器从全网抓取的数据中,总会存在各种各样的重复数据,为保证数据在使用过程中的准确性,总要先进…

Silverlight带关闭动画的内容控件,可移动的内容控件(一)

本例给大家介绍两个自定义控件&#xff0c;一个有显示和关闭两种状态&#xff0c;在状态切换时有动画效果。另外一个是可以拖动的内容控件&#xff0c;可以制作能拖动的面板。 A&#xff0e;带关闭动画的内容控件。 .xaml View Code <ResourceDictionary xmlns"htt…

Autodesk云计算系列视频 --- 云计算与Civil 3D

前面的视频介绍了云计算与AutoCAD/Revit/Inventor的结合&#xff0c;这一节是云计算与Civil 3D的结合例子&#xff1a; 演示中使用的云计算程序源代码可以从下面链接下载&#xff1a; The sample code used in the demonstration is available here. 转载于:https://www.cnblo…