人生倒计时
- 今日已经过去小时
- 这周已经过去天
- 本月已经过去天
- 今年已经过去个月
twitter数据分析案例(twitter 数据)
《机器学习实用案例解析》epub下载在线阅读全文,求百度网盘云资源
《机器学习实用案例解析》((美)DrewConwayJohnMylesWhite)电子书网盘下载免费在线阅读
(使用浏览器扫码进入在线客服窗口)
复制联系方式
链接:
提取码: gh9a
书名:机器学习实用案例解析
豆瓣评分:7.6
作者:(美)DrewConwayJohnMylesWhite
出版社: 机械工业出版社
副标题:实用案例解析
原作名: Machine Learning for Hackers
译者: 陈开江 / 刘逸哲 / 孟晓楠 / 罗森林 审校
出版年: 2013-4-1
页数: 320
内容简介
这本书为机器学习技术提供了一些非常棒的案例研究。它并不想成为一本关于机器学习的工具书或者理论书籍,它注重的是一个学习的过程,因而对于任何有一些编程背景和定量思维的人来说,它都是不错的选择。
——Max Shron OkCupid
机器学习是计算机科学和人工智能中非常重要的一个研究领域,近年来,机器学习不但在计算机科学的众多领域中大显身手,而且成为一些交叉学科的重要支撑技术。本书比较全面系统地介绍了机器学习的方法和技术,不仅详细阐述了许多经典的学习方法,还讨论了一些有生命力的新理论、新方法。
全书案例既有分类问题,也有回归问题;既包含监督学习,也涵盖无监督学习。本书讨论的案例从分类讲到回归,然后讨论了聚类、降维、最优化问题等。这些案例包括分类:垃圾邮件识别,排序:智能收件箱,回归模型:预测网页访问量,正则化:文本回归,最优化:密码破解,无监督学习:构建股票市场指数,空间相似度:用投票记录对美国参议员聚类,推荐系统:给用户推荐R语言包,社交网络分析:在Twitter上感兴趣的人,模型比较:给你的问题找到最佳算法。各章对原理的叙述力求概念清晰、表达准确,突出理论联系实际,富有启发性,易于理解。在探索这些案例的过程中用到的基本工具就是R统计编程语言。R语言非常适合用于机器学习的案例研究,因为它是一种用于数据分析的高水平、功能性脚本语言。
本书主要内容:
·开发一个朴素贝叶斯分类器,仅仅根据邮件的文本信息来判断这封邮件是否是垃圾邮件;
·使用线性回归来预测互联网排名前1000网站的PV;
·利用文本回归理解图书中词与词之间的关系;
·通过尝试破译一个简单的密码来学习优化技术;
·利用无监督学习构建股票市场指数,用于衡量整体市场行情的好坏;
·根据美国参议院的投票情况,从统计学的角度对美国参议员聚类;
·通过K近邻算法构建向用户推荐R语言包;
·利用Twitter数据来构建一个“你可能感兴趣的人”的推荐系统;
·模型比较:给你的问题找到最佳算法。
作者简介
【作者介绍】
Drew Conway 机器学习专家,拥有丰富的数据分析与处理工作经验。目前主要利用数学、统计学和计算机技术研究国际关系、冲突和恐怖主义等。他曾作为研究员在美国情报和国防部门供职数年。他拥有纽约大学政治系博士学位,曾为多种杂志撰写文章,是机器学习领域的著名学者。
John Myles White 机器学习专家,拥有丰富的数据分析与处理工作经验。目前主要从理论和实验的角度来研究人类如何做出决定,同时还是几个流行的R语言程序包的主要维护者,包括ProjectTemplate和log4r。他拥有普林斯顿大学哲学系博士学位,曾为多家技术杂志撰稿,发表过许多关于机器学习的论文,并在众多国际会议上发表演讲。
【译者介绍】
罗森林 博士,教授,博导。现任北京理工大学信息系统及安全对抗实验中心主任、专业责任教授。国防科技工业局科学技术委员会成员;《中国医学影像技术杂志》、《中国介入影像与治疗学》编委会委员;全国大学生信息安全技术专题邀请赛专家组副组长;中国人工智能学会智能信息安全专业委员会委员等。主要研究方向为信息安全、数据挖掘、媒体计算、中文信息处理等。负责或参加完成国家自然科学基金、国家科技支撑计划、863计划、国家242计划等省部级以上项目40余项。已发表学术论文90余篇,出版著作8部,出版译著1部,获授权专利3项。
陈开江 新浪微博搜索部研发工程师,曾独立负责微博内容反垃圾系统、微博精选内容挖掘算法、自助客服系统(包括自动回复、主动挖掘、舆情监测)等项目,目前主要从事社交挖掘、推荐算法研究、机器学习、自然语言处理相关工作,研究兴趣是社交网络的个性化推荐。
刘逸哲 阿里巴巴,CBU基础平台部搜索与推荐团队核心技术与query分析方向负责人,机器学习技术领域及圈子负责人。曾任中国雅虎相关性团队、自然语言处理团队算法工程师;AvePoint.inc开发工程师,从事企业级搜索引擎开发。研究兴趣是机器学习、自然语言处理及个性化推荐等算法在大规模数据上的应用。
孟晓楠 一淘广告技术,阿里非搜索广告算法负责人,负责用户行为分析、建模与细分,RTB竞价算法,展示广告CTR预估与SEM优化。曾工作于网易杭州研究院,参与过分布式全文检索系统和网易博客产品的数据挖掘算法开发。研究兴趣是计算广告技术、机器学习、大数据技术、信息检索等。
数据可视化常用的五种方式及案例分析
概念借助于图形化的手段,清晰、快捷有效的传达与沟通信息。从用户的角度,数据可视化可以让用户快速抓住要点信息,让关键的数据点从人类的眼睛快速通往心灵深处。 数据可视化一般会具备以下几个特点:准确性、创新性 和 简洁性。
常用五种可视化方法
下面从最常用和实用的维度总结了如下5种数据可视化方法,让我们来一一看一下:
一、面积尺寸可视化对同一类图形(例如柱状、圆环和蜘蛛图等)的长度、高度或面积加以区别,来清晰的表达不同指标对应的指标值之间的对比。
这种方法会让浏览者对数据及其之间的对比一目了然。制作这类数据可视化图形时,要用数学公式计算,来表达准确的尺度和比例。
a: 天猫的店铺动态评分天猫店铺动态评分模块右侧的条状图按精确的比例清晰的表达了不同评分用户的占比。从下图中我们第一眼就可以强烈的感知到5分动态评分的用户占绝对的比例。
b: 联邦预算图如下图,在美国联邦预算剖面图里,用不同高度的货币流清晰的表达了资金的来源去向,及每一项所占金额的比重。
c: 公司黄页-企业能力模型蜘蛛图如下图,通过蜘蛛图的表现,公司综合实力与同行平均水平的对比便一目了然。
二、颜色可视化
通过颜色的深浅来表达指标值的强弱和大小,是数据可视化设计的常用方法,用户一眼看上去便可整体的看出哪一部分指标的数据值更突出。a: 点击频次热力图比如下面这张眼球热力图,通过颜色的差异,我们可以直观的看到用户的关注点。
b: 2013年美国失业率统计在图中可以看到,通过对美国地图以州为单位的划分,用不同的颜色来代表不同的失业率等级范围,整个的全美失业率状况便尽收眼底了。
c: 美国手机用户城市分布图中红点是用iPhone的人,绿点是用安卓的人。这两张在微博上看到的图,第一张是美国一个城市的一览,第二张图特写了纽约的市中心,尤其是曼哈顿地区。我们可以看到在市中心和主干道的人用iPhone居多,而用安卓的人都在郊区。这也引起了人们的热议,有的说在美国富人都住郊区别墅,所以富人爱用安卓手机;有的反驳说曼哈顿地区的人几乎都用iPhone,说明富人喜欢用iPhone手机。不管结论如何,都足以说明用户都被这些图所吸引,所以可视化的方式效果真的很直观。
注:科学家统计了2年里30亿条含有地理数据的twitter推文,根据客户端总结出来的数据。
三、图形可视化在我们设计指标及数据时,使用有对应实际含义的图形来结合呈现,会使数据图表更加生动的被展现,更便于用户理解图表要表达的主题。
Examples:
a: iOS手机及平板分布如下图所示,当展示使用不同类型的手机和平板用户占比时,直接用总的苹果图形为背景来划分用户比例,让用户第一眼就可以直观的看到这些图是在描述苹果设备的,直观而清晰。
b: 人人网用户的网购调查下图可以看出,该数据可视化的设计直接采用男性和女性的图形,这样的设计让分类一目了然。再结合了颜色可视化(左面蓝色右面粉色),同时也采用了面积尺寸可视化,不同的比例用不同长度的条形。这些可视化方法的组合使用,大大加强了数据的可理解性。
四、地域空间可视化当指标数据要表达的主题跟地域有关联时,我们一般会选择用地图为大背景。
这样用户可以直观的了解整体的数据情况,同时也可以根据地理位置快速的定位到某一地区来查看详细数据。
a: 美国最好喝啤酒的产地分布下图中,通过以美国地图为大背景,清晰的记录了不同州所产啤酒在1987-2007年间在美国啤酒节中获得的奖牌累计总数。再辅以颜色可视化的方法,让用户清晰的看到美国哪些州更盛产好喝的啤酒。
五、概念可视化通过将抽象的指标数据转换成我们熟悉的容易感知的数据时,用户便更容易理解图形要表达的意义。
a: 厕所贴士下图是厕所里贴在墙上的节省纸张的环保贴士,用了概念转换的方法,让用户清晰的感受到员工们一年的用纸量之多。
如果只是描述擦手纸的量及堆积可达高度,我们还没有什么显性化概念。但当用户看到用纸的堆积高度比世界最高建筑还高、同时需砍伐500多颗树时,想必用户的节省纸张甚至禁用纸张的情怀便油然而生了。所以可见用概念转换的方法是多么的重要和有效。
b: Flickr云存储空间达1TB的可视化描述Flickr对云存储空间升至1TB确实是让人开心的事情,但相信很多人对这一数量级所代表的含义并不清晰。
所以Flickr在宣传这一新的升级产品时,采用了概念可视化的方案。从下图可以看出,用户可以动态的选择照片的大小,之后Flickr会采用动态交互的方式计算和显示出1TB能容纳多少张对应大小的图片。这样一来,用户便有了清晰的概念,知道这1TB是什么量级的容量了。
注意事项在总结了常见维度的数据可视化方法和范例之后,要再次总体强调下做数据可视化设计时的注意事项,总结了三点如下:
1)设计的方案至少适用于两个层次:一是能够整体展示大的图形轮廓,让用户能够快速的了解图表所要表达的整体概念;之后再以合适的方式对局部的详细数据加以呈现(如鼠标hover展示)。
2)做数据可视化时,上述的五个方法经常是混合用的,尤其是做一些复杂图形和多维度数据的展示时。
3)做出的可视化图表一定要易于理解,在显性化的基础上越美观越好,切忌华而不实。
总结:作为设计师,除了掌握方法来有针对性的设计之外,还要在平时多留心积累素材,同时培养自己的创造力和专业素养,保持一颗好奇心,才能真正的设计出样式精美又实用的数据可视化图表。

数据可视化的16个经典案例
[数据可视化]
本文编译自:Ross Crooks
数据可视化是指将数据以视觉的形式来呈现,如图表或地图,以帮助人们了解这些数据的意义。通过观察数字、统计数据的转换以获得清晰的结论并不是一件容易的事。而人类大脑对视觉信息的处理优于对文本的处理——因此使用图表、图形和设计元素,数据可视化可以帮你更容易的解释数据模式、趋势、统计数据和数据相关性,而这些内容在其他呈现方式下可能难以被发现。
数据可视化可以是静态的或交互的。几个世纪以来,人们一直在使用静态数据可视化,如图表和地图。交互式的数据可视化则相对更为先进:人们能够使用电脑和移动设备深入到这些图表和图形的具体细节,然后用交互的方式改变他们看到的数据及数据的处理方式。
我们必须用一个合乎逻辑的、易于理解的方式来呈现数据。但是,并非所有数据可视化作品的效果都一样好。那么,如何将数据组织起来,使其既有吸引力又易于理解?让我们通过下面的16个有趣的例子获得启发,它们是既注重风格也注重内容的数据可视化经典案例。
1:为什么会有“巴士群”现象
这里有一个关于复杂数据集的很好的例子,它看起来感觉像一个游戏。在这个例子里,Setosa网站为我们呈现了“巴士群”现象是如何发生的,即当一辆巴士被延迟,就会导致多辆巴士在同一时间到站。
只用数字讲述这个故事是非常困难的,所以取而代之的是,他们把它变成一个互动游戏。当巴士沿着路线旋转时,我们可以点击并按住一个按钮来使巴士延迟。然后,我们所要做的就是观察一个短暂的延迟如何使巴士在一段时间以后聚集起来。
2:世界上的语言
这个由DensityDesign设计的互动作品令人印象深刻,它将世界上众多(或者说,我们大多数人)语言用非语言的方法表现出来,一共有2678种。
这件作品可以让你浏览使用共同语言的家庭,看看哪些语言是最常用的,并查看语言在世界各地的使用范围。这是一种了不起的视觉叙事方法:将一个有深度的主题用一种易于理解的方式进行解读。
3:按年龄段分布的美国人口百分比
应该用什么方式去呈现一种单一的数据?这是一个令人信服的好榜样。
Pew Research创造了这个GIF动画,显示人口统计数量随着时间推移的的变化。这是一个好方法,它将一个内容较多的故事压缩成了一个小的动图包。此外,这种类型的微内容很容易在社交网络上分享或在博客中嵌入,扩大了内容的传播范围。
4:NFL(国家橄榄球联盟)的完整历史
体育世界有着丰富的数据,但这些数据并不总是能有效地呈现。然而,FiveThirtyEight网站做得特别好。
在下面这个交互式可视化评级中,他们对国家橄榄球联盟史上的每一场比赛计算“等级分” – – 根据比赛结果对球队实力进行简单的衡量 。总共有超过30,000个评级,观众可以通过比较各个队伍的等级分来了解每个队伍在数十年间的比赛表现。
5:Google Flights 上的美国感恩节
下面是将一段时间内在空中移动的物体进行可视化的好方法。这是由Google Trends驱动的项目,它跟踪感恩节前出发、到达和穿越美国的航班。
可视化始于当天很早的时间,随着时间的推移,像播放电影一样显示在全国各地飞行中的航班。不需要显示时间外的任何数字,观众即可以看到当天哪段时间是国际航班、国内航班以及往返于全国各地不同枢纽的航班的热门时间。
6:是什么真正造成了全球变暖?
我们都知道,“不要只简单地展示数据,讲个故事吧”。这正是彭博商业正在做的可视化 ——用互动的方式来讲述故事的来龙去脉。。
此图的关键是要反驳用自然原因解释全球变暖的理论。首先你会看到从1880年至今观测到的温度上升情况。为了使故事内容更加丰富,当你向下滚动时,这个可视化图会让你清楚的了解到相较于已被观测到的因素,造成全球变暖的不同因素到底有多少。作者希望观众能够得到非常清晰的结论。
7:在叙利亚,谁和谁在战斗?
许多不同的团体之间的关系可能令人很难理解 – 尤其是当有11个这样的团体存在的时候。这些团体之间有的结盟,有的敌对,反之亦然。这让人难以理解。
但是,Slate网站通过表格的形式和熟悉的视觉表达,将这些数据简化为一种简单的、易于理解和可交互的形式。观众可以点击任一张脸来查看双方关系的简要描述。
8:最有价值的运动队
这是通过叠加数据来讲述深层故事的一个典型例子。
这个交互由Column Five设计,受福布斯“2014年最具价值的运动队50强”名单得到的启发。但是它不仅将列表可视化,用户还可以通过它看到每支队伍参赛的时间以及夺得总冠军的数量。这为各队的历史和成功提供了更全面的概况信息。
9:美国风图
下面是一个类似感恩节航班的可视化图,除了图中显示的时刻,它还能实时显示美国本土的风速和风向。
它是直观设计的一个很好的案例:风速用线条移动的快慢来表示,方向通过线条移动的路径来表示。它会即时显示美国风向的总体趋势,无需任何数字,除非你在地图上点击鼠标。另外,使用时设定最多两个变量会使它更容易操作。
10:政治新闻受众渠道分布图
据Pew研究中心称,当设计师在信息内容很多又不能删的时候,他们通常会把信息放到数据表中,以使其更紧凑。但是,他们在这里使用分布图来代替。
为什么呢?因为分布图可以让观众在频谱上看到每个媒体的渠道。在分布图上,每个媒体的渠道之间的距离尤为显著。如果这些点仅仅是在表中列出,那么观众就无法看到每个渠道之间的对比效果。
11:著名创意人士的日程安排
这个数据可视化图是用奇特的想法描绘出的一个简单概念。这个表格利用Mason Currey的《日常惯例》一书中的信息展示了那些著名创意人士的日程安排,解读其时间和活动安排。这不仅是一个数据分析的例子(因为你可以通过单独的活动来浏览日程安排),也是一个品牌宣传的佳作。
12:今年发生了哪些新闻?
最好的数据可视化方式,就是用直观和美丽的方式传达信息。Echelon Insights致力于这一方式,将2014年Twitter上最受关注的新闻进行了可视化。
1亿8450万条推文是什么样子?就是如下图所示的艺术品。
13:问题的深度
当你想强调规模的时候,静态数据可视化是表达你的观点的极佳方式。下面这张来自《华盛顿邮报》的信息图长得令人难以置信…这是故意的。他们在图中展示了一架飞机可以探测到的深海信号是多么的深,通过比较飞机的探测深度与高层建筑、已知哺乳动物的最大深度、泰坦尼克号沉船的深度等。这是简单的视觉效果和颜色梯度的极佳使用方式。
最后,将数据添加到新闻报道中(文中为失踪的马航)是提供背景的好方式。
14:前沿预算
上述图表相对简单,以下是创造设计精致的、传递大量数据的图表的方法。秘诀何在?——用简单和干净的格式,便于读者理解数据。
这个由GOOD Magazine 和 Column Five制作的图表,解读了NASA的五年预算,显示资金将怎么花、花在哪里。此外,它还有一个主题设计,这真是一个全面成功的作品!
15: Kontakladen慈善年报
不是所有的数据可视化都需要用动画的形式来表达。当现实世界的数据通过现实生活中的例子进行可视化,结果会令人惊叹。设计师Marion Luttenberger把包含在Kontakladen慈善年报中的数据以一种独特的方法表现出来。
该组织为奥地利的吸毒者提供支持,所以Luttenberger就通过现实生活中的视觉元素来宣传他们的使命。例如,这辆购物车的形象表现出受助者每一天可以负担得起多少生活必需品。
16:奥地利太阳能年报
虽然有许多方法都能使数据可视化,但是其中,使用真实信息主体去创建数据可视化作品的做法非常了不起。这份来自Austria Solar的年度报告,通过在页面上使用太阳光感墨水,用真正的太阳能给公司数据赋予生命。
一句话总结:他们是天才。
社会化媒体营销案例分析
随着互联网对社会影响力的逐步扩大,新媒体不断崛起。以微信、微博、朋友圈等为代表的自媒体营销更是如火如荼。那么接下来我跟读者一起来看一下社会化媒体营销案例分析吧。
社会化媒体营销案例分析一
多芬: 让美丽发声
妮丝·帕特洛(Gwyneth Paltrow)的照片相比,大多数女性都会觉得自己虽然不漂亮但也很胖啊
2014年,全球女性共在Twitter上发布了500万条推,抱怨自己的容貌和身材。与之相比,微信朋友圈上的中国女性立马显得自信而向上。
多芬希望改变Twitter上自卑和自怨。其联手Twitter,应用语义分析监测负面的自我评价,鼓励发推人自信起来,并推送由专家提供的“美不在外表”的“建设性”建议。此外,在奥斯卡颁奖典礼期间,多芬发布了一系列推文,鼓励女性在看到红毯上的明星时不要“自卑自弃”。
从2004年开始,多芬花了11年的时间纠正我们的审美。 从《真美素描》(Real Beauty Sketches)到选择美丽(Choose Beautiful), 以 Real Beauty为母题的各种活动不断鼓励全球各地的女孩们相信自己的内在美和外在美。
所谓的品牌价值传递和文化引领,以及品牌和消费者“共生和共赢”的关系,应该就是这样吧。而探索与社交媒体平台的更高层次的合作,是多芬“让美丽发声”案例值得思考的地方。
社会化媒体营销案例分析二
Uber
作为在2015年讨论量巨大的一个品牌,Uber在社会化媒体营销上的成功是毋庸置疑的,但是如果你要说Uber在2015年做了什么惊天动地的社会化营销大案,似乎也没有。Uber在2015年的成功有两点,一是产品本身引发的讨论,作为共享经济的始祖级别产品,Uber的出现有利于闲置社会资源的利用,也更有利于居民的方便出行,它是一个对用户来说足够好的产品,共享经济汽车的竞争者是另一端的垄断性出租行业,因此Uber当然会损伤受益者的利益,但因为其产品的价值,每当管制部门作出不利于Uber的决策,它总是会在社交网络上得到声量巨大的支持,它在社交网络似乎给人造成这样一种错觉——反对Uber就是反对经济和社会进步。
当然除产品本身的价值点之外,Uber成功的第二点是基于平台的巨大用户量作出的一系列营销案例,而且由于其一直持续不下的声量,很多其他品牌都将与Uber进行跨界营销合作视为一种荣幸,这点看看年末刷爆朋友圈的那篇《微信平台全面封杀UBER的24小时里,优步做了什么?》就会有所了解。
社会化媒体营销案例分析三
大圣归来
说到优秀的国产动画片,大部分人的记忆还停留在上世纪90年代黑猫警长,葫芦娃上。国产动画似乎在那之后就默契地陷入了集体沉迷。2015年一部国产电影《大圣归来》的成功则让人看到了一点振兴的希望。
《大圣归来》票房的成功可以说与社交网络的助推密不可分。这部低调的在上映前没有做过太多宣传的电影在上映的前几天排片量很低,但口碑不错,看起来它很可能遭遇大部分小众电影的结局——口碑不错,但上映几天后排片量迅速下降,最终票房惨淡,但《大圣归来》的结局却并未如此。在上映几天后,开始有大批量的人在社交网络上讨论这部电影并给予非常高的评价,同时大批人对这部优秀电影如此低的排片量表示不满。很快开始有人以支持国产动画片为口号号召网友到电影院给予这部电影实际支持,利益至上的电影院似乎看到这部电影的潜力,在舆论的引导下逐渐提高《大圣归来》的排期,某影院还以支持国产动画为由在微博上公开宣布大幅提升排片量并号召网友前来。于是这部看起来小众的电影走了一条口碑逆袭,进而逆袭票房的路线。
《大圣归来》的票房最终超过10亿,这个数字在电影上映前没人能想到。
社会化媒体营销案例分析四
2015年农历年后,很多人上班后的第一件事就是被柴静的“穹顶之下”刷屏。“穹顶之下”来的正是时候,中国多个城市连年遭遇雾霾,人民对空气质量的关注度空前提高,对城市的生存环境日益不满,2月28日,柴静的《穹顶之下》在多个视频网站播出,迅速引发巨大关注,接下来在更短的时间内它借助社交网络引发了巨大的社会讨论,它的影响从一线城市扩散到三线城市,从社交网络扩散到日常生活中,在一段时间内成为人们茶余饭后的谈资。
在3月2日,视频播出几天后,腾讯视频的播放量超过1亿次,乐视和优酷等各大视频网站的播放量也超过了千万。一个关注度巨大的社会热点问题,往往也会引发争议,《穹顶之下》同样如此,但伴随争议的则是讨论量的几何级上升,雾霾问题从未在短时间内集中获得过如此巨大的讨论。如果没有社交网络,《穹顶之下》引发的雾霾问题同样会引发关注,但它的关注度绝不会这么高。

