Quantcast
Channel: 多看 - Hank的备忘录,关注互联网技术和创业 »数据挖掘
Browsing latest articles
Browse All 31 View Live

分层回归分析

分层回归其实是对两个或多个回归模型进行比较。我们可以根据两个模型所解释的变异量的差异来比较所建立的两个模型。一个模型解释了越多的变异,则它对数据的拟合就越好。假如在其他条件相等的情况下,一个模型比另一个模型解释了更多的变异,则这个模型是一个更好的模型。两个模型所解释的变异量之间的差异可以...[阅读全文]关键字: 数据挖掘, 精品收录

View Article


数据分析

数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析,以求最大化地开发数据资料的功能,发挥数据的作用。是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。数据也称观测值,是实验、测量、观察、调查等的结果,常以数量的形式给出。 数据分析(Data Analysis) &n...[阅读全文]关键字: 数据挖掘, 精品收录

View Article


互联网时代的社会语言学:基于SNS的文本数据挖掘

今年上半年,我在人人网实习了一段时间,期间得到了很多宝贵的数据,并做了一些还算有意义的事情,在这里和大家一块儿分享。感谢人人网提供的数据与工作环境,感谢赵继承博士、詹卫东老师的支持和建议。在这项工作中,我得到了很多与众人交流的机会,特别感谢 OpenParty 、 TEDxBeijing 提供的平台。本文已发表...[阅读全文]关键字: 数据挖掘, 精品收录

View Article

吴军:搜索引擎是西瓜还是芝麻

来自:http://v.qq.com/cover/q/q3w7h1htxh4uppg.html?vid=z0010bUzVVk&_out=2 [阅读全文]关键字: 数据挖掘, 精品收录

View Article

谈谈机器学习(Machine Learning)大家 (full version) (ZZ)

谈谈机器学习(Machine Learning)大家 (full version) 送交者: HiT, 2005年8月23日08:58:07 于 [教育与学术]http://www.bbsland.com 闲着无事,想写点一些我所了解的machine...

View Article


数据可视化是怎样创造出来的

我多次被炫目的数据可视化或信息可视化震惊,在我知道这些图片背后的数据来源和创造历程后,更是为之诧异不止。它涉足制图学、图形绘制设计、计算机视觉、数据采集、统计学、图解技术、数型结合以及动画、立体渲染、用户交互等。相关领域有影像学、视知觉。空间分析、科学建模等。 这是创造性设计美学和严谨...[阅读全文]关键字: PHP, timeline, 数据挖掘, 精品收录

View Article

为什么很多看起来不是很复杂的网站比如 Facebook、淘宝,需要大量顶尖高手来开发?

子柳,淘宝技术大学校长 码农 就拿淘宝来说说,当作给新人一些科普。 先说你看到的页面上,最重要的几个: 【搜索商品】——这个功能,如果你有几千条商品,完全可以用select * from tableXX where title like %XX%这样的操作来搞定。但是——当你有10000000000(一百亿)条商品的时候,任何一个数据库都无法存...[阅读全文]关键字: 数据挖掘, 精品收录

View Article

百度“凤巢”的“二阶拍卖体系”如何理解?

首先,二价拍卖体系并非百度原创,在拍卖界已经比较成熟,而谷歌更是更早使用了该体系。 要了解二价拍卖首先要了解一价拍卖。 假设现在有个关键词A,3个广告位,4个广告主。 每个广告主的出价能力都不同,分别为10元,8元,6元,4元。那么根据一价规则,每个广告主最后的出价是他们各自定价的价钱,也就是10+8...[阅读全文]关键字: 数据挖掘, 精品收录

View Article


数据分析这点事

       先声明一下,按照传统的定义,我还真不是数据分析高手,各种关联算法,只会最简单的一种(话说不少场合还算管用);各种挖掘技术,基本上一窍不通;各种牛逼的数据分析工具,除了最简单的几个免费统计平台之外,基本上一个都不会用。所以,各种高手高高手请随意BS,或自行忽略。这里说点高手不...[阅读全文]关键字: 数据挖掘, 精品收录

View Article


为什么我对大数据(Big Data)持怀疑态度

收集、处理和分析数据是一件有意义的事,并必将产生价值。问题在于:我们能从大数据里挖掘出多少价值?是否真的如人们想象得那样多? 据统计,2012年大数据直接相关业务的产值达到100亿美元。而预测称5年以后这个数字将达到500亿美元。如果考虑Google,Facebook,Twitter,Amazon这几家收集和处理大数据能力最...[阅读全文]关键字: 数据挖掘, 精品收录

View Article

stanford公开课: machine learning

视频地址: http://v.163.com/special/opencourse/machinelearning.html VIA:http://xiaozu.renren.com/xiaozu/121443/356858058 [阅读全文]关键字: 数据挖掘, 精品收录, 视频

View Article

读《机器学习手记系列 1: Pearson 相关系数》所思所想:特征选择

刚刚拜读了叶文同学的《机器学习手记系列 1: Pearson 相关系数》,这篇文章为我们介绍了一种进行特征选择的方法。个人认为,机器学习就是以合适的数据为基础对过去所发生事件的规律性进行归纳,然后将这种规律性推演到未来以达到预测的目的,简而言之,机器学习着眼于两件事情: 1 寻找合适的数据,是为特征...[阅读全文]关键字: 数据挖掘, 精品收录

View Article

机器学习经典算法之支持向量机

SVM(支持向量机) 支持向量机,英文为Support Vector Machine,简称SV机(论文中一般简称SVM)。它是一种监督式学习的方法,它广泛的应用于统计分类以及回归分析中。 支持向量机属于一般化线性分类器。它们也可以被认为是提克洛夫规范化(Tikhonov Regularization)方法的一个特例。这种分类器的特点是他们...[阅读全文]关键字: 数据挖掘, 精品收录

View Article


机器学习手记系列 1: Pearson 相关系数

http://www.yewen.us/blog/2012/05/machine-learning-1-pearson-r/ 系列说明 按合总指示, 给人人的机器学习小组写点科普性质的东西. 其实自己好像一直都没去系统的学过这些东西, 都是野路子乱搞, 这里把过去学的一点东西写出来, 记录一下, 班门弄斧, 欢迎拍砖. 自己接触到的机器学习, 几乎都是在用历史预估未来...[阅读全文]关键字:...

View Article

[机器学习之SVM] 无偏的高斯核SVM (Unbiased SVM: USVM)

采用高斯核或其它RBF核的SVM通常用来解决非线性可分的问题。SVM的决策函数形式为f(x) = sum_i a(i)*kernel(x,xi) + b, 其中系数a = y(i)*alpha(i),b为偏差项。 上图是一个2D的例子,实线表示分类界面f(x)=0,虚线表示支撑面f(x)=+/-1。可以看出分界面是有明显偏向性的,原因是b>0,导致分界面明显偏向于蓝...[阅读全文]关键字:...

View Article


[机器学习之SVM] “最精简”的SVM求解算法FastSMO?

SVM的优化问题的对偶问题是求解一个二次规划问题(quadratic programming),即 min Q(x) = 0.5*x’*A*x – 1′*x s.t. b’*x = 0, 0<=x<=C 其中A是n*n的矩阵,aij = yi*yj*kernel(xi, xj),向量b = y, {(x1,y1), …, (xn, yn)}为训练样本集。...

View Article

[机器学习之SVM] “最精简”的UnbiasedSVM求解算法FastSMO?

Unbiased SVM的预测函数为f(x) = sum_i yi*ai*kernel(x, xi),对偶优化问题形式为 min Q(a) = 0.5*a’*A*a – 1′*a s.t.  0<=a<=C....

View Article


[机器学习之SVM] 稀疏无偏的支持向量机(SparseUnbiasedSVM)?

SVM和USVM都不是很稀疏,原因是核函数项 kernel(x,xi)前的系数 ai = yi*alpha_i 来自于拉格朗日乘子alpha。拉格朗日乘子决定了: 1. 支撑面上的向量 xi 一般为 “支持向量” (0< alpha_i <C,有可能alpha_i=0或C) 2. 两支撑面之间的向量 xi 都为“支持向...[阅读全文]关键字: 数据挖掘, 精品收录

View Article

Songza:根据情境生成歌单的在线听歌应用

用手机在线听歌是一件再普通不过的事情,但《QQ音乐》之类的应用普遍存在的问题是,用户只能自行搜索歌曲,或是使用应用推荐的各种歌单。今天我们要介绍的这款名为Songza的在线听歌应用颇具新意:它能根据不同时间、不同地点、不同情境,随机为用户生成歌单。   打开Songza,可以看到应用下部的5个按钮:...[阅读全文]关键字: 数据挖掘, 精品收录

View Article

寂寞男算法Facemash网站算法

  《社交网络》中,Eduardo在玻璃上写下了两个式子,Mark以此算法,建立了www.facemash.com,从学校内的网站抓取大部分女生的照片上传。男生们在凌晨四点钟疯狂浏览此网站,在随机跳出的两副女生照片中,选择两者较“美”者,一举出名,导致哈佛网络瘫痪,下面我们来研究研究它的算法。 不过,那两个...[阅读全文]关键字: 图片, 数据挖掘, 精品收录

View Article

理解矩阵(个人认为这是关于矩阵最精彩的理解,推荐~~)

     线性代数课程,无论你从行列式入手还是直接从矩阵入手,从一开始就充斥着莫名其妙。比如说,在全国一般工科院系教学中应用最广泛的同济线性代数教材(现在到了第四版),一上来就介绍逆序数这个“前无古人,后无来者”的古怪概念,然后用逆序数给出行列式的一个极不直观的定义,接着是一些简直犯傻的...[阅读全文]关键字: 人人网, 图片, 推荐, 数据挖掘, 移动, 精品收录, 设计

View Article


商务统计人士必看的10个中文博客

数据分析,商务统计人士必看的10个中文博客 小博的主题定位在专业有效的商务图表,不少朋友希望我能推荐一些类似主题的博客,其实我自今年才开始接触博客这个事物,了解也不多。在网上搜索,发现类似的专门主题中文博客非常少。不过,这1年的博客经历,我也认识了几位博友,今天整理在一起,成为:数据分析人士...[阅读全文]关键字: ppt, 技巧, 推荐, 数据挖掘, 精品收录, 设计

View Article


R与SAS、SPSS的比较

R语言 R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。 R 是统计领域广泛使用的诞生于 1980年左右的 S 语言的一个分支。 R是S语言的一种实现。S语言是由 AT&T贝尔实验室开发的一种用来进行数据探索、统计分析、作...[阅读全文]关键字: category, tag, 兼容, 功能,...

View Article

Clustering Algorithms Nina Mishra -Reading List

k-Center Clustering to minimize the maximum intercluster distance, T. F. Gonzalez. Theoretical Computer Science, 38: 293-306, (1985). A unified approach to approximation algorithms for bottleneck...

View Article

深入浅出谈数据挖掘

编者的话:本文对数据挖掘概念的产生,数据挖掘与常规数据分析的主要区别,所能解决的几大类问题和所应用的领域都有着非常清晰的论述。作者在此篇文章中认为数据挖掘最重要的要素是分析人员的相关业务知识和思维模式。丰富的业务知识是设计有效的相关变量的必要条件,而分析人员的思维模式从另外一个方面也保障...[阅读全文]关键字: 数据挖掘, 精品收录

View Article


数据挖掘著名案例——啤酒与尿布

“啤酒与尿布”的故事是营销届的神话,“啤酒”和“尿布”两个看上去没有关系的商品摆放在一起进行销售、并获得了很好的销售收益,这种现象就是卖场中商品之间的关联性,研究“啤酒与尿布”关联的方法就是购物篮分析,购物篮分析曾经是沃尔玛秘而不宣的独门武器,购物篮分析可以帮助我们在门店的销售过程中找到...[阅读全文]关键字: 数据挖掘, 精品收录

View Article

SPSS在市场调查统计分析中的应用

SPSS是“社会科学统计软件包”(StatisticalPackagefortheSocialScience)的简称,是一种集成化的计算机数据处理应用软件,是目前世界上流行的三大统计软件之一,除了适用于社会科学之外,还适用于自然科学各领域的统计分析。将其应用于市场调查统计分析的过程,能使研究者以客观的态度,通过对受众的系统提问...[阅读全文]关键字: spss, 数据挖掘, 精品收录

View Article

路径分析

概念     一种研究多个变量之间多层因果关系及其相关强度的方法。由美国遗传学家S.赖特于1921年首创,后被引入社会学的研究中,并发展成为社会学的主要分析方法之一。 目的 路径分析的主要目的是检验一个假想的因果模型的准确和可靠程度,测量变量间因果关系的强弱,回答下述问题:①模型中两变量xj与xi间...[阅读全文]关键字: 数据挖掘, 精品收录

View Article

比较R语言、perl语言,matlab中for循环和while循环的使用

对于海量数据的处理时代,各种语言如数据处理的,统计计算的都应该掌握一下,各取所长,达到高效的目的。 对于R语言、perl语言,matlab中的for循环也是各有不同。 (一)R语言 R语言和matlab中以对象处理为主,体现出强大的智能性,因此对于语言的循环设计中以操作对象为主, 例如: for(i in 1:20){ cat(i); ...[阅读全文]关键字: 数据挖掘, 精品收录

View Article



时间序列预测技术之一

今天先谈谈时间序列(Time-Series Forecasting)的预测问题! 预测:是对尚未发生或目前还不明确的事物进行预先的估计和推测,是在现时对事物将要发生的结果进行探讨和研究,简单地说就是指从已知事件测定未知事件。 为什么要预测呢,因为预测可以帮助了解事物发展的未来状况后,人们可以在目前为它的到来做好准...[阅读全文]关键字: 数据挖掘, 精品收录

View Article
Browsing latest articles
Browse All 31 View Live