大数据下的用户行为分析

news/2024/7/8 1:33:41

1. Consumer behaviour is the study of when,why,how and where people do or don't buy a product。
用户行为一般指用户通过中间资源,购买、使用和评价某种产品的记录。同时辅以用户、资源、产品自身及环境的信息。
用户行为记录一般可以表示一组属性的集合:{属性1,属性2,...,属性N}
2. 用户行为分析主要是研究对象用户的行为。数据来源包括用户的日志信息用户主体信息外界环境信息。通过特定的工具对用户在互联网/移动互联网上的行为进行记录,记录的信息通常称为用户日志。
数据内容:
(1)网站日志:用户在访问某个目标网站时,网站记录的用户相关行为信息;
(2)搜索引擎日志:搜索引擎日志系统所记录的用户在搜索引擎上的相关行为信息;
(3)用户浏览日志:通过特定的工具和途径记录用户所记录的用户在该搜索引擎上的相关行为信息;
(4)用户主体数据:如用户群的年龄、受教育程度、兴趣爱好等;
(5)外界环境数据:如移动互联网流量、手机上网用户增长、自费套餐等;
数据特点:
(1)大数据量/海量数据,big data;
(2)实时分析/准实时分析、离线分析;
(3)由于用户日志包含大量用户个人信息,为避免涉及过多的用户隐私,日志工具通常对用户个人信息进行加密,不涉及具体用户行为的细节内容,保护用户隐私;
(4)日志信息通常含有较多的噪音,因此,基于个人行为信息分析得到的结论常常存在着很大的不可靠性。
3. 用户行为分析平台主要面临海量数据处理困难分析模型算法复杂建设和运营成本高昂等方面的技术难点和挑战。
海量数据处理困难:
(1)问题:面临TB甚至PB级的海量数据,传统关系数据库存储尚可,但对OLAP分析效仿低下;
(2)难点:如何可实现可扩展的数据存储、灵活快捷的数据访问?
(3)思路:利用Nosql数据库解决大数据存储,通过水平扩展读写负载提高访问性能;
分析模型算法复杂:
(1)问题:分析需要运用预警预测、聚类、协同过滤等数据挖掘算法,算法的编程复杂度和计算复杂度都非常大;
(2)难点:如何实现分析模型,并提供实时高速的复杂分析;
(3)思路:改造开源的数据挖掘模型库,并运用Hadoop等并行计算框架;
建设和运维成本高昂:
(1)问题:传统数据库和分析软件进行海量数据分析将导致天价的软件授权许可费用;外部数据分析服务同样价格昂贵,并且面临安全性和灵活性局限;
(2)难点:如何低成本高效率的建设和运维系统?
(3)思路:基于可靠的开源解决方案构建独立自主经济灵活的分析平台。
4. Hadoop是基于Google有关大数据的论文实现的开源项目,最初的框架由Doug Cutting在2005年提出,目前是由Apache维护的开源项目。从最初到现在,Hadoop系统在7年中开发完成了一系列重要的子项目,已经形成 了一个涵盖数据存储、管理和分析功能的较为完整的大数据生态系统,成为大数据存储与处理领域地位最重要、应用最广泛的开源框架。
核心组件:
(1)MapReduce
· Hadoop的分析式并行处理框架;
· 实现对HDFS上海量数据的批量分析;
(2)HDFS
· Hadoop的一个分布式文件系统;
· 高容错性,部署在低廉商业硬件;
· 提供高吞吐量,适合批量处理;
Hadoop是运行在大量通常计算单位上提供海量数据存储与并行计算的平台框架:
· 基于x86集群水平可扩展;
· 基于MapReduce的并行计算能力;
· 设计规模:PB级的数据量,数千台计算节点;
5. Hadoop的优势:
(1)高可靠性
· 按位存储和处理数据的能力值得信赖;
(2)高扩展性
· 可以管理数以千计的存储和计算节点;
(3)高性能
· 实现数千计算节点的并行计算;
(4)高容错性
· 自动备份和自动失败任务重起;
Hadoop的不足:
(1)性能可优化
· 与硬件的理论性能存在差距,具有优化空间;
(2)可扩展性和可靠性
· 受单一Namenode,单一Jobtracker的设计严重制约,存在明显的单点故障源;
· 单一的Namenode的内容容量和性能有限,使得Hadoop集群的节点数量被限制到2000个左右,能支持的文件系统被限制在10-50PB,最多支持的文件数量大约为1.5亿;
(3)欠缺各种企业特性
· 企业的个性化需求、定制化开发和可靠的运营维护服务;
企业版Hadoop改进主要方向:
(1)消除单点故障制约;
(2)改进MapReduce;
(3)完善数据管理和数据源整合;
(4)镜像、快照等容灾能力;
(5)可靠的服务支持;
6. 数据挖掘算法的编程复杂度和计算复杂度都非常大,往往称为制约分析项目按期完成的瓶颈,精细化运营分析平台利用支持Hadoop并行计算框架的开源数据挖 掘模型数据库Mahout,实现了数据挖掘算法的快速实施和高效表现。基于这些经验,未来我们将研究整合其他的开源算法库(如Weka和R等),以及商业 算法库,以保证分析的精确性和性能。
利用Mahout的聚类和协同过滤算法库的实现价值评估分析智能推荐引擎
7. 用户行为分析平台建立了大量的分析主题,分析结果的呈现能力对平台的应用效能影响重大。利用研制管理决策支持系统的经验,我们可以提供灵活可制定的报表编制和数据展现方式,并建立了主动推送和移动跨平台访问结合的数据访问能力,提高分析材料的生成和呈现速度。

 

http://slucx.blog.chinaunix.net/uid-28806348-id-4093333.html


http://www.niftyadmin.cn/n/3297874.html

相关文章

C#概念整理

一、C#中多继承的问题C# 不支持对类的多继承,每个类只能继承一个类;但支持多继承于接口,即每个类可以多继承于多个接口;二、C# 中结构体和类的区别c 中结构体和类的区别主要在于默认的可见程度不同。结构体的默认是public&#xf…

Stack栈和Heap堆的区别[转]

面试题常考题Stack—栈,Heap—堆。 堆存储: heapstorage 堆存储分配: heapstorage allocation 堆存储管理: heap storage management栈编址: stack addressing 栈变换:stack transformation 栈存储器&am…

Hadoop项目实战-用户行为分析之分析与设计

Hadoop项目实战-用户行为分析之分析与设计 http://www.cnblogs.com/smartloli/p/4569882.html 1.概述 本课程的视频教程地址:《用户行为分析之分析与设计》 下面开始本教程的学习,本教程以用户行为分析案例为基础,带着大家对项目的…

有关TinyXML使用的简单总结(转)

这次使用了TinyXML后,觉得这个东西真是不错,于是将使用方法坐下总结来和大家分享。 该解析库在开源网站(http://sourceforge.net )上有下载,在本Blog也提供下载(下载TinyXML) TinyXML是一个开源…

Problem--1A--Codeforces--TheatreSquare

Theatre Square time limit per test1 second memory limit per test256 megabytes inputstandard input outputstandard outputTheatre Square in the capital city of Berland has a rectangular shape with the size n  m meters. On the occasion of the city’s anniver…

数据挖掘算法介绍

数据挖掘算法是创建挖掘模型的机制。若要创建模型,算法将首先分析一组数据,查找特定模式和趋势。然后,算法将使用此分析的结果来定义挖掘模型的参数。 算法创建的挖掘模型可以采用多种形式,这包括: 说明在交易中如何将…

FastDFS、Nginx安装、配置、测试(java client)

生产环境结果应该如下: 本文tracker、storage都在一台机器上!本机既是tracker,又是storage,仅用于测试! 一、需要下载的 fastdfs-nginx-module_v1.15.tar.gz nginx-1.4.1.tar.gz libevent-2.0.21-stable.tar.gz FastDF…

Problem--71A--Codeforces--Way Too Long Words

Way Too Long Words time limit per test2 seconds memory limit per test256 megabytes inputstandard input outputstandard outputSometimes some words like “localization” or “internationalization” are so long that writing them many times in one text is quite…