-
大数据中非结构化数据的挖掘:文本
搜索词:我们永远无法准确定义用户的搜索词都有哪些;完整URL地址:尤其是含有特定监测Tag的地址;特定监测标签:通常鉴于以URL Tag形式进行监测的情形;页面名称:名称的规范性取决于系统配置信息;用...
-
关于用户行为大数据计算
用户行为类数据的特点在于用户数量庞大,但每个用户的行为数量较小,针对用户行为的计算较为复杂,用户之间的关联计算相对较少。 用户数量庞大。通话记录中的电话号码、访问日志中的用户编号、账户信息中的银行账户...
-
周涛:传统行业更需要大数据
如果你还在等待和顾盼,不妨听听《大数据时代》一书的译者、电子科技大学教授周涛博士的劝告:大数据的道路上没有戈多,我们已经在路上,晃晃悠悠。 举重若轻又行云流水 下班路上,你走进单位附近的川菜馆,在手机...
-
Windows下Redis的安装使用
Redis是一个key-value存储系统。和Memcached类似,它支持存储的value类型相对更多,包括string(字符串)、list(链表)、set(集合)、zset(sorted set...
-
正确使用PostgreSQL的数组类型
在Heap中,我们依靠PostgreSQL支撑大多数后端繁重的任务,我们存储每个事件为一个hstore blob,我们为每个跟踪的用户维护一个已完成事件的PostgreSQL数组,并将这些事件按时间排...
-
大数据精确分析提高能效 物联网助力雾霾治理
雾霾成因复杂 大数据可实现全面监测 虽然雾霾是因为人类的工业活动所导致的污染性灾害天气,但它的形成因素和普通的自然天气一样复杂,在气象预报的分析模型中,影响雾霾形成的因素,涉及到大气物理、化学、生物、...
-
大数据已经说滥了?数据落地哪儿那么容易
大数据已经说滥了?数据落地哪儿那么容易 曾经有一位业内知名厂商的研发专家表示,对于数据更快的处理和拥有更可靠的数据质量,以及给应用市场进行更加精细的花费,这些都是未来大数据时代我们首当其中要做的。 让...
-
Hadoop虽然强大,但不是万能的
在下面这几种场景就不适合使用Hadoop: 1、低延迟的数据访问 Hadoop并不适用于需要实时查询和低延迟的数据访问。数据库通过索引记录可以降低延迟和快速响应,这一点单纯的用Hadoop是没有办法代...
-
PostgreSQL的最佳特性 你用了吗?
SQL语句通常不是很容易理解,特别是你阅读别人已经写好的语句。因此,很多人指出我们应该遵循在其他语言中遵循的原则,像加上注释和功能模块化。 我***注意到一个很多人都没有使用的Postgres关键特性...
-
Hadoop日志分析工具:White Elephant
快速入门 你可以在GitHub上的 White Elephant项目check out代码,或者下载***的snapshot版本。 可以使用一些测试数据尝试这个服务: cd server ant ./...
