八爪鱼,百万用户信赖的网络爬虫工具

网络采集和数据分析如何帮助您实现业务增长?

作者:keven 发布时间:2019/10/16 17:57:29 6427 人已阅读

摘要:大数据时代,数据分析已经渗透了工作。基于有价值的数据分析,企业更容易洞察市场需求实现业务增长。

大数据时代,数据分析已经渗透了工作。基于有价值的数据分析,企业更容易洞察市场需求实现业务增长。

 

为了与亚马逊竞争,沃尔玛推出了一个基于统计分析和语义分析的搜索引擎“北极星”。当用户在社交媒体Facebook上选择/喜欢/保存了某件产品,北极星会受到信息。基于此,沃尔玛获得了对消费者的控制主导权。

 

受沃尔玛数据驱动的案例启发,我分析了【用户登录频率】与【购买商品数量】之间可能存在的相关性。以下我分享“如何获取用户数据”、“如何做数据分析”。

 

第1部分,收集用户数据记录

 

在您的【在线用户管理系统】中可能有大量的用户记录数据。我们需要将其导出为一个更结构化的数据集,并存储到本地以便进行进一步分析。对于大多数企业来说,通过编程从网站上抓取数据的成本可能很高。使用Octoparse是一个很好的选择,这是一款为非程序员设计的网页数据采集器,可以通过简单的拖拽和点击,情动手机目标数据。

 

由于用户记录是隐私数据,我不能演示如何爬取自己的【在线用户管理系统】数据。在这里以 Rakuten.com 为例向您展示如何使用Octoparse 抓取目标数据。

 

 

步骤1,输入目标URL。等待在内置浏览器中完全加载web页面。

步骤2,设置分页循环。八爪鱼采集器将自动跳转到下一页,为您提供完整的数据集。

步骤3,构建一个循环列表,包括包含目标数据字段的所有块,就像上面显示的红色框一样。

步骤4,开始捕获数据字段,如本例中的Name、Price、Click frequency。在本例中,我需要登录频率、购买商品编号和用户id。

步骤5,按照说明,点击下一步,选择“本地采集”。然后,您就可以看到如何在短时间内在数据提取面板中提取数据。

 

 

八爪鱼抓取数据完成以后,可以Excel、数据库、CSV、HTML等形式导出。

 

第二部分,数据分析

 

步骤1,假设

回到我的实验案例,我已经将全部数据导出到excel中。现在,我将深入探讨这两个因素(登录频率、商品数量)是否真的相互关联。收集到的数据被重新组织,如下表所示(注意:该表只显示了抓取的部分数据)。

 

 

利用这些抓取的数据,我们可以绘制一个散点图来观察这些假定的坐标点(登录频率、购买编号)是有规律分布的。最终的散点图如下所示。从购买数量分布中,我们可以看出大部分分散的点都集中在2 - 5个左右,我们可以将他们定义为高质量的用户。

这假设了一个场景,登录频率在2到5之间的人可能表现出更高的购买倾向。此外,通过观察红色趋势线,我们可以推测,在这个范围内登录频率越高,客户愿意购买的产品越多。然而,这只是一个主观的猜测。现在我们需要进一步验证我们的假设。

 

 

步骤2,统计假设检验分析(p值法)

现在,让我们假设用户的登录频率和他们的购买数量之间可能存在潜在的相关性。

首先,我假设登录频率号在[2,5]之内。

接下来,通过筛选出2、3、5为特征登录频数,进行统计假设检验分析。

首先,我从整个数据集中随机抽取22条样本数据记录进行实验,如下表所示。

 

 

然后,您可以使用Matlab或任何其他可用的数据分析工具来进行单因素方差分析。请注意,我们设置了显著性水平α,犯了一个错误的概率是0.05。

最终结果如下。从方差分析中可以看出,这三个组在Avg上的表现是不同的。因此我们可以明确一个假设——样本组的差异是由实验采样误差引起的。

比较α的假定值,我们可以看到假定值小于α,因此我们可以拒绝零假设的备择假设,这些三组间存在差异。此外,我们还可以验证用户购买数量编号是否受到登录频率的影响。      

通过以上的分析,我可以更加关注特定登录频率的目标用户,专注于我的目标和预算计划,也可以更好的服务于那些高质量的用户。


欢迎咨询在线客服
  • 免费版QQ群
  • 159956780
  • 257583266
  • 专业版QQ群
  • 135071723
  • 385161018
  • 月旗舰版QQ群
  • 196097783
  • 157692830
  • 月旗舰+QQ群
  • 431013573
  • 年旗舰版QQ群
  • 415864512
  • 年旗舰+QQ群
  • 592777128
欢迎您申请试用