深圳市场调查:大数据与“共享单车”上书房信息咨询_共享单车大数据分析

其他范文 时间:2020-02-28 03:58:54 收藏本文下载本文
【www.daodoc.com - 其他范文】

深圳市场调查:大数据与“共享单车”上书房信息咨询由刀豆文库小编整理,希望给你工作、学习、生活带来方便,猜你可能喜欢“共享单车大数据分析”。

www.daodoc.com

深圳市场调查:大数据与“共享单车”

2016年底以来,国内共享单车毫无征兆的就火爆了起来,彼时一张手机截屏蹿红网络—在这张截图上,24个共享单车应用的图标霸满了整个手机屏幕,昭示着共享单车市场抢夺大战的激烈和残酷。

数据统计:共享单车领域两大巨头—摩拜单车和ofo近一年的客户端用户增长数据,二者的用户增长曲线别无二致,都是一路高歌猛进,共享单车领域的火爆势头在短时间内不会遏止。

同时,在全国各大城市,在街头巷尾,在居民小区和创业园区,排满了各种颜色的共享单车,仿佛一夜之间,共享单车如“千树万树”的梨花一般,盛开到了泛滥成灾的地步了。

与此同时,各种乱象也是接踵而至,触目惊心:人为肆意毁坏单车、车身乱贴小广告、街上随意停放„

对于当下共享单车在互联网界的火热状况,从大数据文本挖掘的角度来做一番分析,主要是从海量的文本数据中找到有价值的讯息和观察视角,透过文本挖掘了解共享单车相关的热门话题和潜在趋势。

以下是本文的行文路线图和所涉及的文本挖掘方法。

1、数据采集和预处理

在数据采集部分,想采集跟共享单车关联性强的文本数据,没有去写爬虫去爬取数据,而是用到了新浪微舆情“信息监测”中的“数据导出”功能,根据设置的关键词检索逻辑,将所有涉及到共享单车的各类媒体文章的标题、发布时间、媒体名称、正文及正文分词等数据下载下来,省去文本数据的清洗和预处理过程,直接进行文本挖掘部分。

在这里,选取了市场上主流的26个共享单车品牌,再加上关键字“共享单车”,形成如下的关键词检索逻辑:

共享单车+(永安行 |ofo|小鸣单车 |小蓝单车 |智享单车 |北京公共自行车 |骑点 |奇奇出行 |CCbike |7号电单车 |黑鸟单车 |hellobike |酷骑单车 |1步单车 |由你单车 |踏踏 |Funbike单车 |悠悠单车 |骑呗 |熊猫单车 |云单车 |优拜单车 |电电Go单车 |小鹿单车 |小白单车 |快兔出行 |摩拜单车 | 绿游GreenBike)选取2017-3-1~2017-6-30之间的数据,经由上面的检索关键词,可以得到我们想要的数

www.daodoc.com

据,为节省时间,仅选取“新闻”这一信息来源的文本数据作为分析对象,因为这部分的数据比较符合要求,包含的噪音较小。

2、常规描述性数据统计

在正式的文本分析之前,再对上述预处理后的数据进行描述性分析,先从表层获得这些数据的直观印象。

首先是这4个月有关共享单车的文章数量的分布情况。

经统计,共有4056个媒体发布了跟共享单车有关的文章,在Excel中使用“数据分析-描述统计”对这些媒体发文数据进行描述统计,得出如下结果:

由此可见,在文章总数88,291篇、发文媒体4,056个的情况下,平均每个媒体的发文数约为22篇(21.66),其中的中位数为3篇,众数为1篇,最大发文数为4,815篇。结合下面的直方图,数量分布呈现明显的左偏态,主要集中在“0-300篇”这个区间内(其中绝大部分为1篇)。

再来展示发文数量TOP30媒体的情况。排名榜首的是突袭网,它是一个信息资讯“大杂烩”(上面有各类转载过来的信息和琳琅满目的广告,而且经常不标明信息来源„„),其次是腾讯新闻、搜狐媒体平台、新浪和网易这样的综合信息门户网站。有点意外的是,汉丰网(www.daodoc.com

根据上面的阐述,权重值大小与词频数不呈正比。对这88,291篇文章的关键词提取和词频统计如下。

从上表可以看出,提取出的关键词跟共享单车的关联性很明显,大致上有如下几类: 共享单车的品牌及其创始人:“小黄车”(ofo)、“摩拜单车”、“永安行”、“小鸣(单车)”、“胡玮炜”、“戴威”等。

投融资、资本运作:“资本”、“投资”、“融资”、“战略”、“资金”、“金融”、“商业”、“投资人”、“合伙人”等。

政府对共享单车行业的监管:“政府”、“规范”、“监管”、“车管”、“城管”、“机动车”、“车道”、“秩序”、“政策”等。

共享单车运营相关(包括其中出现的问题):“投放”、“运营”、“停车”、“支付”、“手机”、“拥堵”、“街头”、“开锁”、“地铁站”、“环境”等。

然后根据这些词的词频大小制作出共享单车形状的个性化词云,显示如下: 关键词的提取只是获取这些文本讯息的“初の印象”,好戏还在后头!

4、文档聚类

接下来采用的是基于谱联合聚类算法(Spectral Co-clustering algorithm)的文档聚类,这部分的原理涉及到艰深的数学和算法知识,可能会引起小伙伴们的阅读不适感,如果是这样,请快速跳过,直接看后面的操作和结果。

先将待分析的文本经TF-IDF向量化构成了词频矩阵,然后使用Dhillon的谱联合聚类算法(Spectral Co-clustering algorithm)进行双重聚类(Biclusters)。所得到的“文档-词汇”双聚类(Biclusters)会把某些文档子集中的常用词汇聚集在一起,由若干个关键词构成某个主题。

在正式分析前,现将先前Excel中的正文分词文本按月份进行分类,将其单独放进所属的月份文件夹下。

最终的结果是,系统自动形成的几个文档簇群,以及每个簇群下面最重要的TOP30关键词。结果如下图所示:

上面四个话题可以很容易的得出:

www.daodoc.com

类别0:共享单车相关的创投、资本和竞争相关,行业的视角 类别1:共享单车相关的行政监管、整治,政府的视角 类别2:共享单车运营中出现的各种社会问题,社会的视角

类别3:共享单车方面的负面信息,很多已经上升到违法违规,甚至触犯刑法的层面了,法律的视角

由上面的数据,还可以得到这4个话题在总文本中的占比情况。

5、情感分析

在新浪微舆情“信息监测”上观察到,3~6月间关于共享单车的负面信息的走势情况,显然,这段时间内的负面信息一直处于一个较高的水平,平均每天好几W的负面新闻报道量。

紧接着,使用机器学习的方法,对这8W多条文章的标题进行本地的情感分析,以便获得媒体对共享单车报道的“情感倾向”的总体情况。

这里的“情感倾向”是以一个介于0~1之间的“情感极性值”来表征—如果某条评论的情感极性值越接近于0,说明它的负面情感倾向越明显,越接近于1,说明它的正面情感倾向越明显,而取值在0.5左右徘徊,这说明这种情感倾向不明显,是为“中性”。将情感倾向值的取值区间0~1细分为3个子区间,分别对应不同的情感倾向。

整体上看,与媒体的报道不同,绝大部分网民对于共享单车的“泛滥成灾”是持“喜悦”情绪的,由上面的LDA主题模型可以了解到,“便利出行”是形成这种赞许态度的原因之一。

6、LSI文本相似度索引

在上面的主题分析和文本聚类分析中,“融资”这个关键词出现了若干次,它成功的攫取了的眼球。为此,想通过“融资”这个关键词去找寻与其最相关的TOP20新闻标题。在这里,不采用直接通过关键词查找的方法去寻找这些相关标题,而是通过语义上的关联性去寻找,也就是说,即使这些语句不包含“融资”二字,只要体现这个含义就是我要寻找的目标。

鉴于此,采用了基于LSI(Latent Semantic Index,潜在语义索引)的方法去查找文本相似度最高的20个语句,大致上比较文本向量化后的余弦夹角值(介于0-1之间),值越大,就代表相似度越高。详细的原理推导,小伙伴们可以自行Google脑补。

www.daodoc.com

经过分析,找到了跟“融资”语义最相关的20条新闻。可以看到,里面很多没有包含“融资”二字,但意义上都有体现资本运作,比如“共享单车又掀起新一轮‘互掐’”这条新闻,里面有这样的论述:“公开资料显示,截至2017年4月,两家公司共计融资总额超过10亿美元,其中ofo刚刚完成D3轮融资,估值超过16亿美元”,第二个“„ofo共享单车获4.5亿美元”,也是讲的融资方面的新闻,剩下的相似语句以此类推。

从这些新闻标题来看,共享单车领域的竞争不仅出现在用户获取和地盘争夺上,在资本领域的也是刀光剑影,撕得不可开交。

由此可以看到,计算机通过LSI算法变得“聪明”了不少,在某种程度上,能“理解”自然语言了!

下载深圳市场调查:大数据与“共享单车”上书房信息咨询word格式文档
下载深圳市场调查:大数据与“共享单车”上书房信息咨询.doc
将本文档下载到自己电脑,方便修改和收藏。
点此处下载文档

文档为doc格式

    热门文章
      整站推荐
        点击下载本文