互联网日志的种类、存储和计算

最近几年,经常听到数据挖掘这个词。

不过,我仔细看了下,发现这个词还是挺模糊的。

挖掘

这个词,应该指从数据中发现有价值的信息。

比如从搜索词中,发现网民的关注点,进而指导广告投放、产品推荐,生产用户需要的产品。

数据

根据我有限的阅历来看,数据最常见的形式就是日志,各种各样的日志。

限于从业经验有限,本文只是简要介绍下日志的种类、存储和计算,仅供参考。

日志的种类

1.浏览日志

a.广告曝光日志

  一个广告的一次曝光,会产生一条曝光日志。

  日志格式:广告位ID、媒体、频道、曝光时间、IP、来源、操作系统、浏览器、用户ID等。

  注:可以用监测点ID来代替媒体和频道等更多信息。

b.网页访问日志

  网页被一个用户访问一次,产生一条访问日志。

  日志格式:网页URL、用户ID、访问时间、来源、操作系统、浏览器等。

2.行为日志

a.广告点击日志

日志格式:广告位ID、媒体、频道、点击时间、IP、来源、操作系统、浏览器、用户ID等。

b.内容点击日志

 用户点击了站内的链接,记录这个日志,可以得出用户的喜好。

日志格式: 与网页访问和广告点击日志类似。

c.分享日志

 用户分享了文章或者文章的一部分。

d.收藏

用户收藏了商品、文章、代码等。

e.搜索

  百度肯定记录了用户的搜索记录。

 优酷等视频网站、新浪等媒体网站也有吧。

 更多日志,不再一一列举。

日志的存储

百度、优酷等大型互联网网站,肯定有很多服务器。

日志也会存储到多台服务器上。

日志可以存储到文件中,一条日志一个文件,或者多个日志共用一个文件。

至于怎样更合理,我还没有啥实际经验。

两个疑问

1.日志数据作为互联网公司的重要资产,是否会统一存储起来呢?

我觉得最终会统一存放到数据仓库中,一台机器显然是不够的,会有很多台。

2.这些日志数据有必要备份么?

 我觉得有必要。

日志的计算

1.实时计算

  来一条日志,或者一定量的日志,就计算。

  然后,把多态服务器上的计算结果累加,得出最终的结果。

  现在,很多客户都要求“实时数据”。比如,广告投放15分钟之后,就可以看到监测数据了。

 实时计算能力已经成为一个技术公司的核心竞争力了。

2.非实时计算

  等所有相关数据都出来了,然后再统一计算。

  这种方式,准确度会更高。

云存储

有的技术公司,有自己私有的云存储技术,不对外提供。

有的技术公司,不但有私有的云存储技术,还对外提供服务。比如百度、金山、QQ等都有免费提供给用户的云存储服务。

公司内部与向外提供还是有区别的。比如象访问和点击日志这种,文件比较小。而对外提供的,文件可能比较大。

场景和需求的不同,也就决定了云存储技术还是会分化成好几种。

云计算

我一直没有搞清楚“云计算”和“分布式计算”有啥区别,总感觉“云”就是一个模糊的让人“云山雾绕”的概念。

姑且就认为云计算=分布式计算。

我的理解,云计算就是把一个复杂的计算问题,拆分成了可以单独计算的多个部分,然后把多个计算结果进行合并。

(上周末看了《云计算-大数据时代的系统工程》这本书,对云计算有了更清晰的认识。)

友情提示

本人从业时间有限,经验有限,因此本文仅供参考。

本人正在努力学习和研究当中。

欢迎提出建设性的意见和建议。

原文链接:http://blog.fansunion.cn/articles/3445(小雷博客-blog.fansunion.cn)

转载于:https://www.cnblogs.com/qitian1/p/6463369.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/408238.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[转]2006年十二星座运程 目录

白羊座2006年运程 金牛座2006年运程 双子座2006年运程 巨蟹座2006年运程 狮子座2006年运程 处女座2006年运程 天秤座2006年运程 天蝎座2006年运程 射手座2006年运程 摩羯座2006年运程 水瓶座2006年运程 双鱼座2006年运程作者Blog:http://blog.csdn.net/cndg…

双指针法(leetcode分类解题,C++代码详细注释)

双指针法前言167.两数之和 II - 输入有序数组88.合并两个有序数组142. 环形链表 II633.平方数之和680. 验证回文字符串 Ⅱ27. 移除元素344. 反转字符串剑指 Offer 05. 替换空格151. 翻转字符串里的单词206.反转链表125. 验证回文串19. 删除链表的倒数第 N 个结点面试题 02.02. …

ADSL技术的系统结构

ADSL技术的系统结构 1. ADSL原理和技术性能 现存的用户环路主要由UTP(非屏蔽双绞线)组成。UTP对信号的衰减主要与传输距离和信号的频率有关,如果信号传输超过一定距离,信号的传输质量将难以保证。此外,线路上的桥接抽头…

DiskSim

1.使用笔记 http://feifei432.blog.163.com/blog/static/140253361201022211949152/ http://feifei432.blog.163.com/blog/static/140253361201022212253597/ 2.安装 http://blog.sina.com.cn/s/blog_448574810101bb65.html转载于:https://www.cnblogs.com/yaolei/p/3487598.ht…

二分法(leetcode分类解题,C++代码详细注释)

二分法前言69. x 的平方根35. 搜索插入位置前言 二分查找也常被称为二分法或者折半查找,每次查找时通过将待查找区间分成两部分并只取一部分继续查找,将查找的复杂度大大减少。对于一个长度为 O(n) 的数组,二分查找的时间复杂度为 O(log n)。…

kernel module required key not available

UEFI主板中禁用Secure Boot转载于:https://www.cnblogs.com/jhaohai/p/3489818.html

我自横刀向天笑,我命由我不由天

那么豪放不羁,慷慨如歌.虽然江湖再来,翠山远逝,肝胆乾坤有去留, 可人生至此,交友如斯,生复何恨,死有何悲呢?我一直在想,“向天笑”的这个笑是怎样的笑,怎样的心情?不有行者,无以图将来;不有死者,无以酬圣猪…

UNIX网络编程学习笔记(代码超详细解析)(持续更新)

1. 其他函数准备 1. TCP 回射服务器程序: str_echo 函数 #include “unp.h”void str_echo(int sockfd) {ssize_t n;char buf[MAXLINE];again:/*write() 函数定义:ssize_t write (int fd, const void * buf, size_t count); 函数说明:w…

oracle数据库中函数和存储过程中的区别

一、函数必须有返回值,过程没有返回值; 二、函数可以单独执行,过程必须通过execute执行; 三、函数可以嵌入SQL中执行,过程不能。 可以将比较复杂的查询写成函数,然后在过程中调用。转载于:https://www.cnbl…

百川2大模型微调问题解决

之前用https://github.com/FlagAlpha/Llama2-Chinese微调过几个模型,总体来说llama2的生态还是比较好的,过程很顺利。微调百川2就没那么顺利了,所以简单做个记录 1. 数据准备,我的数据是单轮对话,之前微调llama2已经按…

Aspx页面javascript的几个trick

1、一般而言,如果想给aspx页面上的web form control加上一些javascript的特性,可以用Attributes.Add来实现。例如,对TextBox txt,可以:txt.Attributes.Add("onclick", "fcn0();");那么&#xff0c…

ArcGIS 10——地理数据库管理GIS数据

写本文的最初意向是当前正在进行的项目中有实现ESRI版本化数据管理的功能模块,碰到一些棘手的问题,几经周折还是决定系统学习ArcGIS10的帮助文档。(文章摘抄的比较多) 地理数据库是用于保存数据集集合的“容器”。首先了解一下Arc…

阿特拉斯神(一)

Atlas出来很久了,因为用不上,所以没有学习过,今天准备学了,却发现资料虽不少,但是觉得有点乱,还是自己从英文资料循序渐进学吧。说真的没有扎实学过什么,那么就从Atlas开始吧,希望也…

Qt学习笔记(持续更新)

第一个应用程序 #include "widget.h" #include <QApplication> #include<QLabel> int main(int argc, char *argv[]) {//创建qt应用程序对象QApplication a(argc, argv);//创建标签控件QLabel label("你好");//来吧&#xff0c;展示label.sho…