-
众说纷纭 机器学习究竟是什么?
所谓数据科学家,是指那些能够利用最合适的工具与方法完成自身工作的专业人士。最出色的数据科学家能够将自己完整的知识集与模式发现方案充分利用于统计分析工作当中。 我们应该如何对科学技术数据的积累总和进行查...
-
数据分析要避免辛普森悖论
辛普森悖论在数据集方面看上去广泛,而且没有被分解成有意义的片段。辛普森悖论是研究中被忽略的“混淆变量”结果。混淆变量本质上是一个与核心研究无关的变量,它随着自变量的改变而改变。 假设相同的货币化(也就...
-
-
如何识别虚假数据?
决策本身就够困难的了,更不要说是根据一些糟糕的数据做出决策了。 好的决策应该是“数据驱动”的,但是如果数据有效性不好,就不可能据此做出好的决定。我的整个职业生涯几乎都在做市场调研和调查数据分析方面的工...
-
数据挖掘中易犯的10大错误
按照Elder博士的总结,这10大易犯错误包括: 0. 缺乏数据(Lack Data) 1. 太关注训练(Focus on Training) 2. 只依赖一项技术(Rely on One Techn...
-
数据可视化:纽约地铁的数字地图
如果你是一个痴迷于研究地图、都市化和数据可视化这类东西的纽约人,那么这款名为“地铁视野”的新手机应用在你看来一定美妙如诗;如果你对这些东西都不感兴趣,这款应用也能在你等地铁无聊的时候给你带来一点乐趣。...
-
如何使用大数据管理工具来满足用户期望?
随着移动化进程,社交网络以及云技术要求应用软件来处理越来越多的基于Web的大量信息,并且这些信息需要实时处理与访问。这一趋势为需要使用大数据管理工具从海量信息以及他们的处理中获取价值的企业创造了环境。...
-
机器学习中的数学(1)-回归和梯度下降
上次写过一篇关于贝叶斯概率论的数学,最近时间比较紧,coding的任务比较重,不过还是抽空看了一些机器学习的书和视频,其中很推荐两个:一个是stanford的machine learning公开课,在...
-
机器学习促进大数据分析走向繁荣
【独家特稿】机器生成的日志数据可以说是大数据宇宙当中的暗物质。它由分布式信息技术生态系统当中的每一层、每个节点乃至每种组件所产生,其范畴从智能手机到物联网终端可谓无所不包。它无穷无尽、无处不在,我们能...
-
想从事大数据工作,如何自学打基础
海量数据分成两块,一是系统建设技术,二,海量数据应用。 先说系统建设,现在主流的技术是HADOOP,主要基于mapreduce的分布式框架。目前可以先学习这个。但是我的观点,在分布式系统出来之前,主要...
