您的位置:首页 > 其它

数据之美----雪球网股票组合分析

2016-10-13 00:22 423 查看

简介

因为工作需要,爬了几个大型的网站,练就一身爬取数据和分析数据的功夫。所以,在无聊的时候写了个爬取系统。主要功能是爬取雪球组合的数据,并进行分析,得出一些有价值有潜力的股票代码。实盘到没有测试,随便估计了一下,至少跟盘不会出现亏损。

先普及一下组合的概念:由雪球、微博等平台的投资主理人管理的股票持仓池。

技术架构

特点:简单可依赖

多服务器多核心异步架构实时爬取

机器学习、数理统计经典方法分析

6000+组合数据分析的结果秒出

以上有点吹。但是爬取的效果还是准确的。

分析方法

主要是基于统计方法。机器学习也会在后面跟上,获得更多有价值的信息。

我们分析了6000+组合的数据,对每个组合的具体持仓进行了分析。得出所有组合持仓的并集,这就是持仓最多的热门股票。当然已经排除停牌股。

同时,计算组合持仓的相同的股票的仓位大小,用总仓位除以持有该股的总组合数,得出平均权重。按大小,排除最佳重仓股。有的人会想,不少主理人喜欢重仓一只股票。所以,我们会特意标出仓位较重的组合名称及他们的个数,以供参考。不得不建议,想跟风最佳重仓股,请折半投资。比如平均仓位大小是90%,那么根据自己的仓位,投资20-45%左右是最佳的方案。

6000+ 组合并不是每一个组合都作为数据的权重出现。对于关停的、僵尸的、长线的组合,对其做分析貌似没有太多的价值。所以,我们分析以下2类组合:

总收益高于280%,月收益高于9%,每日收益震荡在-5% - 20%的组合,一月调仓3次以上

总收益为高于45%,月收益高于15%,每日收益震荡在-3% - 20%的组合,一月调仓5次以上

对外接口

之前在做Restful的一些应用,对于相关的技术还算了解。为了能让别人访问数据,我们做了接口,将分析、处理、加工完的数据开放。

只需要用户名即可,不需要密码,因为也没有打算建立用户账户体系。

展示网站

毕竟不是大多数人都会IT技术,所以没有办法。我只好又做了一个网站,专门用于展示分析数据。

不知道这个东西有没有人会看,但是希望能帮到大家。

团队简介

谷震平

目前在某一线互联网公司,任职数据仓库工程师,专注是数据采集、ETL。也是本文作者。笔者对这个项目的感情很特别。当初,大学辅修金融,以为自己毕业后能进投行工作,但是没人要。后来做了现在的工作。可能就是心里还有一丝丝抱怨与不甘,才做了现在的事情。希望,能帮助更多的人们,鼓励更多人追求梦想。

忆梦涟

一位美少女工程师,北邮研究生,专注NLP、机器学习。数据分析、科学计算的能力了得。

结语

写到这里,还有很多想说的没有说完。如果对我们的工作感兴趣,欢迎留言继续交流。

关注微信公众号,回复你所持有的股票中文名称,就会得到从6000多人的持仓数据中分析出来的该股情况!

现在只回复4项数据:

日期

平均持仓,该股在当天6000多人的平均持有情况,值在0 - 100%之间

总体持仓,该股在当天6000多人的全体持有情况,值大于0%

所在组合数,该股在当天6000多人的总计买入人数,值大于1

持仓的数据,请自己脑补%(百分号),忘记单位可就不好了。

快快添加关注公众号—-谷震平的专栏吧,也可扫二维码下方二维码:



^-^
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: