Quantcast
Channel: 多看 - Hank的备忘录,关注互联网技术和创业 »数据挖掘
Browsing all 31 articles
Browse latest View live

时间序列预测技术之一

今天先谈谈时间序列(Time-Series Forecasting)的预测问题! 预测:是对尚未发生或目前还不明确的事物进行预先的估计和推测,是在现时对事物将要发生的结果进行探讨和研究,简单地说就是指从已知事件测定未知事件。 为什么要预测呢,因为预测可以帮助了解事物发展的未来状况后,人们可以在目前为它的到来做好准...[阅读全文]关键字: 数据挖掘, 精品收录

View Article


分层回归分析

分层回归其实是对两个或多个回归模型进行比较。我们可以根据两个模型所解释的变异量的差异来比较所建立的两个模型。一个模型解释了越多的变异,则它对数据的拟合就越好。假如在其他条件相等的情况下,一个模型比另一个模型解释了更多的变异,则这个模型是一个更好的模型。两个模型所解释的变异量之间的差异可以...[阅读全文]关键字: 数据挖掘, 精品收录

View Article


数据分析

数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析,以求最大化地开发数据资料的功能,发挥数据的作用。是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。数据也称观测值,是实验、测量、观察、调查等的结果,常以数量的形式给出。 数据分析(Data Analysis) &n...[阅读全文]关键字: 数据挖掘, 精品收录

View Article

互联网时代的社会语言学:基于SNS的文本数据挖掘

今年上半年,我在人人网实习了一段时间,期间得到了很多宝贵的数据,并做了一些还算有意义的事情,在这里和大家一块儿分享。感谢人人网提供的数据与工作环境,感谢赵继承博士、詹卫东老师的支持和建议。在这项工作中,我得到了很多与众人交流的机会,特别感谢 OpenParty 、 TEDxBeijing 提供的平台。本文已发表...[阅读全文]关键字: 数据挖掘, 精品收录

View Article

吴军:搜索引擎是西瓜还是芝麻

来自:http://v.qq.com/cover/q/q3w7h1htxh4uppg.html?vid=z0010bUzVVk&_out=2 [阅读全文]关键字: 数据挖掘, 精品收录

View Article


谈谈机器学习(Machine Learning)大家 (full version) (ZZ)

谈谈机器学习(Machine Learning)大家 (full version) 送交者: HiT, 2005年8月23日08:58:07 于 [教育与学术]http://www.bbsland.com 闲着无事,想写点一些我所了解的machine...

View Article

数据可视化是怎样创造出来的

我多次被炫目的数据可视化或信息可视化震惊,在我知道这些图片背后的数据来源和创造历程后,更是为之诧异不止。它涉足制图学、图形绘制设计、计算机视觉、数据采集、统计学、图解技术、数型结合以及动画、立体渲染、用户交互等。相关领域有影像学、视知觉。空间分析、科学建模等。 这是创造性设计美学和严谨...[阅读全文]关键字: PHP, timeline, 数据挖掘, 精品收录

View Article

为什么很多看起来不是很复杂的网站比如 Facebook、淘宝,需要大量顶尖高手来开发?

子柳,淘宝技术大学校长 码农 就拿淘宝来说说,当作给新人一些科普。 先说你看到的页面上,最重要的几个: 【搜索商品】——这个功能,如果你有几千条商品,完全可以用select * from tableXX where title like %XX%这样的操作来搞定。但是——当你有10000000000(一百亿)条商品的时候,任何一个数据库都无法存...[阅读全文]关键字: 数据挖掘, 精品收录

View Article


百度“凤巢”的“二阶拍卖体系”如何理解?

首先,二价拍卖体系并非百度原创,在拍卖界已经比较成熟,而谷歌更是更早使用了该体系。 要了解二价拍卖首先要了解一价拍卖。 假设现在有个关键词A,3个广告位,4个广告主。 每个广告主的出价能力都不同,分别为10元,8元,6元,4元。那么根据一价规则,每个广告主最后的出价是他们各自定价的价钱,也就是10+8...[阅读全文]关键字: 数据挖掘, 精品收录

View Article


数据分析这点事

       先声明一下,按照传统的定义,我还真不是数据分析高手,各种关联算法,只会最简单的一种(话说不少场合还算管用);各种挖掘技术,基本上一窍不通;各种牛逼的数据分析工具,除了最简单的几个免费统计平台之外,基本上一个都不会用。所以,各种高手高高手请随意BS,或自行忽略。这里说点高手不...[阅读全文]关键字: 数据挖掘, 精品收录

View Article

为什么我对大数据(Big Data)持怀疑态度

收集、处理和分析数据是一件有意义的事,并必将产生价值。问题在于:我们能从大数据里挖掘出多少价值?是否真的如人们想象得那样多? 据统计,2012年大数据直接相关业务的产值达到100亿美元。而预测称5年以后这个数字将达到500亿美元。如果考虑Google,Facebook,Twitter,Amazon这几家收集和处理大数据能力最...[阅读全文]关键字: 数据挖掘, 精品收录

View Article

stanford公开课: machine learning

视频地址: http://v.163.com/special/opencourse/machinelearning.html VIA:http://xiaozu.renren.com/xiaozu/121443/356858058 [阅读全文]关键字: 数据挖掘, 精品收录, 视频

View Article

读《机器学习手记系列 1: Pearson 相关系数》所思所想:特征选择

刚刚拜读了叶文同学的《机器学习手记系列 1: Pearson 相关系数》,这篇文章为我们介绍了一种进行特征选择的方法。个人认为,机器学习就是以合适的数据为基础对过去所发生事件的规律性进行归纳,然后将这种规律性推演到未来以达到预测的目的,简而言之,机器学习着眼于两件事情: 1 寻找合适的数据,是为特征...[阅读全文]关键字: 数据挖掘, 精品收录

View Article


机器学习经典算法之支持向量机

SVM(支持向量机) 支持向量机,英文为Support Vector Machine,简称SV机(论文中一般简称SVM)。它是一种监督式学习的方法,它广泛的应用于统计分类以及回归分析中。 支持向量机属于一般化线性分类器。它们也可以被认为是提克洛夫规范化(Tikhonov Regularization)方法的一个特例。这种分类器的特点是他们...[阅读全文]关键字: 数据挖掘, 精品收录

View Article

机器学习手记系列 1: Pearson 相关系数

http://www.yewen.us/blog/2012/05/machine-learning-1-pearson-r/ 系列说明 按合总指示, 给人人的机器学习小组写点科普性质的东西. 其实自己好像一直都没去系统的学过这些东西, 都是野路子乱搞, 这里把过去学的一点东西写出来, 记录一下, 班门弄斧, 欢迎拍砖. 自己接触到的机器学习, 几乎都是在用历史预估未来...[阅读全文]关键字:...

View Article


[机器学习之SVM] 无偏的高斯核SVM (Unbiased SVM: USVM)

采用高斯核或其它RBF核的SVM通常用来解决非线性可分的问题。SVM的决策函数形式为f(x) = sum_i a(i)*kernel(x,xi) + b, 其中系数a = y(i)*alpha(i),b为偏差项。 上图是一个2D的例子,实线表示分类界面f(x)=0,虚线表示支撑面f(x)=+/-1。可以看出分界面是有明显偏向性的,原因是b>0,导致分界面明显偏向于蓝...[阅读全文]关键字:...

View Article

[机器学习之SVM] “最精简”的SVM求解算法FastSMO?

SVM的优化问题的对偶问题是求解一个二次规划问题(quadratic programming),即 min Q(x) = 0.5*x’*A*x – 1′*x s.t. b’*x = 0, 0<=x<=C 其中A是n*n的矩阵,aij = yi*yj*kernel(xi, xj),向量b = y, {(x1,y1), …, (xn, yn)}为训练样本集。...

View Article


[机器学习之SVM] “最精简”的UnbiasedSVM求解算法FastSMO?

Unbiased SVM的预测函数为f(x) = sum_i yi*ai*kernel(x, xi),对偶优化问题形式为 min Q(a) = 0.5*a’*A*a – 1′*a s.t.  0<=a<=C....

View Article

[机器学习之SVM] 稀疏无偏的支持向量机(SparseUnbiasedSVM)?

SVM和USVM都不是很稀疏,原因是核函数项 kernel(x,xi)前的系数 ai = yi*alpha_i 来自于拉格朗日乘子alpha。拉格朗日乘子决定了: 1. 支撑面上的向量 xi 一般为 “支持向量” (0< alpha_i <C,有可能alpha_i=0或C) 2. 两支撑面之间的向量 xi 都为“支持向...[阅读全文]关键字: 数据挖掘, 精品收录

View Article

Songza:根据情境生成歌单的在线听歌应用

用手机在线听歌是一件再普通不过的事情,但《QQ音乐》之类的应用普遍存在的问题是,用户只能自行搜索歌曲,或是使用应用推荐的各种歌单。今天我们要介绍的这款名为Songza的在线听歌应用颇具新意:它能根据不同时间、不同地点、不同情境,随机为用户生成歌单。   打开Songza,可以看到应用下部的5个按钮:...[阅读全文]关键字: 数据挖掘, 精品收录

View Article
Browsing all 31 articles
Browse latest View live