您的位置:首页 > 其它

Statistical Modelling: The two Cultures 读书笔记

2018-03-10 00:05 211 查看
Notes for Statistical Modelling: The twoCultures:
 
1. statistical modelling中有两种文化|:
(1)一种使用algorithmic models并且认为datamechanism是未知的。这个领域在统计学之外得到了很大发展。可以用在大数据集中,并且相比于小数据集,它能更加精确并且可以获取更多信息。
(2)一种使用data models,即传统统计学。
 
2. 统计学认为数据是由一个黑箱生成,大概就是y ←nature←x这样一个流程,nature是一个黑箱。分析数据目的分为prediction和information。
 
3. The data modelling culture
这个思想起源于假设数据是stochastic的。y=f(x,e,p) p是parameter, e 是 error。然后上面的黑箱就用一些回归模型填充。 model validation:yes-no using goodness-of-fit tests and residual examination. estimated culturepopulation是98%统计学家使用的方法。
 
4. The Algorithmic Modelling Culture (machine learning)
这种流派认为黑箱的内容是未知的。解决办法是寻找一个函数f(x)——即一种算法,使得x能够预测y。这里的黑箱就变成了:
 

 
model validation: measured bypredictive accuracy.
estimated culture population.
 
5. 这个论文就是为了argue data model派的会有一些缺陷:
(1)会导致不相关的理论和有疑问的结论产生(questionable conclusions)
(2)让统计学家不能使用合适的算法模型
(3)不利于新问题的研究
 
6. 作者参加的几个项目(虽然很吸引人,但是只是个例,不排除其他因素的干扰阿):
(1)臭氧预测:预测12小时之后的臭氧浓度。采用了传统的,看起来类似5757,用了large linear regression with quadratic terms and interactions。结果是失败的。
(2)通过光谱预测氯气浓度,开始也是用了linear discriminant analysis with quadratic terms,但是很难拟合dimensional variable。之后作者开始思考用决策树。The domainknowledge was incorporated into the decision tree algorithm by the design of theset of 1500 yes-no questions that could be applied to 质量光谱 of any dimensionality.结果是决策树预测对了95%的氯气。
 
7. perceptions on statistical analysis
(1) 专注于找到一个好的解决方法——这也是consultants的主要收入
(2)在开始建模之前就要充分了解data,比如只想linear regression更适合这个data,但是不去想为什么
(3)寻找一个能够给你好的解决办法的model,无论是哪种culture下的
(4)预测准确度是衡量一个model好坏的决策因素
(5)学会运用电脑
 
8. data model不可避免的非常依赖data的好坏,那么有没有办法能让即使不那么好的data也能很好的被用来预测呢?
 
9. 当代datamodelling 问题:
(1)goodness-of-fit 被证实除非the alternative isprecisely specified,它的效力很小。除非不fit情况很严重,不然它不会拒绝。
(2)并且当data被修补国——包括删除或者添加,goodnessof fit会变得不合适
(3)同样地, 残差检验也会变得不靠谱
(4)在df上升到4,5之后,它俩都不太靠谱
(5) data model具有多样性。如果AB分别拟合同一组数据,他们使用了不同模型,拟合和模型检验都很好,但是预测结果又很不一样,那应该用谁的呢?
 
10. 如果一个模型有太多parameters,很可能会过度拟合。太过复杂的模型会导致bias,这时候就可以用cv来衡量。但是这就有了machine learning的思想了。
 
11. 大多数情况下我们是很难精确了解数据来源,如何收集,如何处理的,这直接影响了data model的可靠性
 
12. if a man has a hammer, then everyproblem looks like a nail.
 
13.作者觉得Monte Carlo结合贝叶斯的方法就是瞎扯,让data变得更冗杂,没有特性¬¬哈哈哈哈
 
14. algorithmic modelling:
(1) 是工业级的统计学。神经网络和决策树是1980年中期兴起的两个新的算法。之后出现了一批年轻的各种学家开始把这个思想应用在一些model难以解决的问题上:例如语言识别,图像识别,非线性时间序列预测,手写识别,金融市场预测等。
(2) 它的强大优点就是prediction accuracy。
(3) 一个假设就是数据是i.d.d. from an unknown multivariate distribution的。
 
15. 当许多model都有同样的训练结果和测试结果时,被称为instablility。
 
16. 在预测中,simplicity 和 accuracy往往是冲突的。
 
17. forests是一堆由同一组数据生成的决策树组成的。如果我们在做分类,就把new x 放进每个树中然后get a vote for the predictedclass. Let the forest prediction be the class that gets the most votes. All ofthe well-known methods grow the forest by pertrubing the training set, growinga tree on the pertrubed training set, perturbing the training set again,growing another tree, etc. 还有一些类似的方法就是bagging,boosting, arcing, additive logistic regression.
 
该读P10
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: