数据之美----雪球网股票组合分析
2016-10-13 00:22
423 查看
简介
因为工作需要,爬了几个大型的网站,练就一身爬取数据和分析数据的功夫。所以,在无聊的时候写了个爬取系统。主要功能是爬取雪球组合的数据,并进行分析,得出一些有价值有潜力的股票代码。实盘到没有测试,随便估计了一下,至少跟盘不会出现亏损。先普及一下组合的概念:由雪球、微博等平台的投资主理人管理的股票持仓池。
技术架构
特点:简单可依赖多服务器多核心异步架构实时爬取
机器学习、数理统计经典方法分析
6000+组合数据分析的结果秒出
以上有点吹。但是爬取的效果还是准确的。
分析方法
主要是基于统计方法。机器学习也会在后面跟上,获得更多有价值的信息。我们分析了6000+组合的数据,对每个组合的具体持仓进行了分析。得出所有组合持仓的并集,这就是持仓最多的热门股票。当然已经排除停牌股。
同时,计算组合持仓的相同的股票的仓位大小,用总仓位除以持有该股的总组合数,得出平均权重。按大小,排除最佳重仓股。有的人会想,不少主理人喜欢重仓一只股票。所以,我们会特意标出仓位较重的组合名称及他们的个数,以供参考。不得不建议,想跟风最佳重仓股,请折半投资。比如平均仓位大小是90%,那么根据自己的仓位,投资20-45%左右是最佳的方案。
6000+ 组合并不是每一个组合都作为数据的权重出现。对于关停的、僵尸的、长线的组合,对其做分析貌似没有太多的价值。所以,我们分析以下2类组合:
总收益高于280%,月收益高于9%,每日收益震荡在-5% - 20%的组合,一月调仓3次以上
总收益为高于45%,月收益高于15%,每日收益震荡在-3% - 20%的组合,一月调仓5次以上
对外接口
之前在做Restful的一些应用,对于相关的技术还算了解。为了能让别人访问数据,我们做了接口,将分析、处理、加工完的数据开放。只需要用户名即可,不需要密码,因为也没有打算建立用户账户体系。
展示网站
毕竟不是大多数人都会IT技术,所以没有办法。我只好又做了一个网站,专门用于展示分析数据。不知道这个东西有没有人会看,但是希望能帮到大家。
团队简介
谷震平
目前在某一线互联网公司,任职数据仓库工程师,专注是数据采集、ETL。也是本文作者。笔者对这个项目的感情很特别。当初,大学辅修金融,以为自己毕业后能进投行工作,但是没人要。后来做了现在的工作。可能就是心里还有一丝丝抱怨与不甘,才做了现在的事情。希望,能帮助更多的人们,鼓励更多人追求梦想。忆梦涟
一位美少女工程师,北邮研究生,专注NLP、机器学习。数据分析、科学计算的能力了得。结语
写到这里,还有很多想说的没有说完。如果对我们的工作感兴趣,欢迎留言继续交流。关注微信公众号,回复你所持有的股票中文名称,就会得到从6000多人的持仓数据中分析出来的该股情况!
现在只回复4项数据:
日期
平均持仓,该股在当天6000多人的平均持有情况,值在0 - 100%之间
总体持仓,该股在当天6000多人的全体持有情况,值大于0%
所在组合数,该股在当天6000多人的总计买入人数,值大于1
持仓的数据,请自己脑补%(百分号),忘记单位可就不好了。
快快添加关注公众号—-谷震平的专栏吧,也可扫二维码下方二维码:
^-^
相关文章推荐
- 简单使用resquests爬取雪球网数据,分析股票走势
- 使用mex C生成MATLAB的股票数据分析接口
- 使用mex C生成MATLAB的股票数据分析接口
- 互联网金融爬虫怎么写-第三课 雪球网股票爬虫(ajax分析)
- Python 金融数据分析 (一)—— 股票数据
- 互联网金融爬虫怎么写-第四课 雪球网股票爬虫(单页面多数据)
- 测试回顾版-第四讲:参数化,重点分析数据的分配组合
- 互联网金融爬虫怎么写-第三课 雪球网股票爬虫(ajax分析)
- python数据分析5:双色球 两个红球哪组合比例高
- 基于Echarts的销售企业经营数据分析-产品组合
- 聚合数据股票接口分析
- 从分析家中得到股票数据!C#源码 (代码很长,建议火狐)
- 通达信股票软件日线数据分析
- Storm实时数据分析的常用架构(组合):队列服务器+storm集群实时处理+mysql存储
- 互联网金融爬虫怎么写-第三课 雪球网股票爬虫(ajax分析)
- 使用mex C生成MATLAB的股票数据分析接口
- 选择一个股票数据分析的入口
- Storm实时数据分析的常用组合
- 互联网金融爬虫怎么写-第四课 雪球网股票爬虫(单页面多数据)
- Wind量化平台-C++获取股票数据-C++金融数据分析利器 V5.0