必看,淘宝数据采集回来如何验证数据准确率及覆盖率
2018-04-08 13:52
260 查看
有数据采集需求的朋友们应该都在网上将大大小小的数据公司都了解了一遍,了解过程中无非就是数据准确性,数据覆盖率,价格,时效以及是否能按照要求定制等问题。价格和时效都是直观的,而且可以商量的,但是对于数据而言准确率和覆盖率是最重要的,同时也是最不好验证的,往往这个时候只能任凭数据公司表达他们的采集能力。不好验证,并不代表不能验证。下面分享下antuodata专业的数据验证经验,教大家如何验证采集回来的数据。
验证一:数据覆盖率。我个人觉得如果覆盖率都达不到要求,尤其是高销量/评价的URL严重缺失,那么用数据分析出来的行业报告也就不准确了。所以覆盖率的验证为首要验证。天猫家电商数据为例
步骤1.品类产品URL抽查,将手上的家电数据随机筛选出一个产品A看下 URL数,然后再淘宝平台用关键词搜索产品A,点击“天猫”平台,用销量排序、综合排序、价格排序等方式分别随机抽取10-20条链接,看看这些链接是否在表格中;
步骤2.品类产品品牌URL抽查,在网页分别搜索几个家电产品,点击排名靠前的品牌,然后随机抽取10-20条链接,查看这些链接是否存在在表格中;
步骤3.品类产品型号URL抽查,在网页分别搜索几款家电热销型号,随机抽取10-20条链接,查看这些链接是否存在在表格中;
步骤4.品类产品品牌抽查,在网页随机搜索几个家电产品,尤其是大家电,搜索后,查看页面排名前10的品牌表格中是否都包含了。
京东还可以根据页面搜索某个产品显示的总URL数量与手中URL总数量进行对比,查看是否相差很大。
经过以上多维度的抽查,你手上数据的覆盖率怎么样也就知道个大概了。
验证二:数据准确性。这里说的准确性不包含覆盖率,只是单纯页面信息与手上信息对比。大概可以从以下几个地方着手验证。商品价格维度:售价;满减券后价。检查售价是否与网页一致,满减券后价计算是否准确;商品信息维度:型号、品牌、款式、颜色、促销活动等采集回来的数据是否与页面一致;销量、评价量维:采集回来的数据销量和评价量是否与页面一致;店铺信息维度:店铺名、旺旺名、店铺ID、店铺等级等是否与页面一致。简而言之,就是采集回来的全部字段数据是否与页面一致,这个是采集刚需,如果这些信息都不准确,那么数据也就没什么意义了。
数据验证过程是一个重复且及其无聊的过程,讲究方法方式,还需要细心还和耐心。希望以上经验能帮助大家为数据质量把关。
验证一:数据覆盖率。我个人觉得如果覆盖率都达不到要求,尤其是高销量/评价的URL严重缺失,那么用数据分析出来的行业报告也就不准确了。所以覆盖率的验证为首要验证。天猫家电商数据为例
步骤1.品类产品URL抽查,将手上的家电数据随机筛选出一个产品A看下 URL数,然后再淘宝平台用关键词搜索产品A,点击“天猫”平台,用销量排序、综合排序、价格排序等方式分别随机抽取10-20条链接,看看这些链接是否在表格中;
步骤2.品类产品品牌URL抽查,在网页分别搜索几个家电产品,点击排名靠前的品牌,然后随机抽取10-20条链接,查看这些链接是否存在在表格中;
步骤3.品类产品型号URL抽查,在网页分别搜索几款家电热销型号,随机抽取10-20条链接,查看这些链接是否存在在表格中;
步骤4.品类产品品牌抽查,在网页随机搜索几个家电产品,尤其是大家电,搜索后,查看页面排名前10的品牌表格中是否都包含了。
京东还可以根据页面搜索某个产品显示的总URL数量与手中URL总数量进行对比,查看是否相差很大。
经过以上多维度的抽查,你手上数据的覆盖率怎么样也就知道个大概了。
验证二:数据准确性。这里说的准确性不包含覆盖率,只是单纯页面信息与手上信息对比。大概可以从以下几个地方着手验证。商品价格维度:售价;满减券后价。检查售价是否与网页一致,满减券后价计算是否准确;商品信息维度:型号、品牌、款式、颜色、促销活动等采集回来的数据是否与页面一致;销量、评价量维:采集回来的数据销量和评价量是否与页面一致;店铺信息维度:店铺名、旺旺名、店铺ID、店铺等级等是否与页面一致。简而言之,就是采集回来的全部字段数据是否与页面一致,这个是采集刚需,如果这些信息都不准确,那么数据也就没什么意义了。
数据验证过程是一个重复且及其无聊的过程,讲究方法方式,还需要细心还和耐心。希望以上经验能帮助大家为数据质量把关。
相关文章推荐
- DetailsView中如何进行数据验证,如何处理数据库的异常
- JavaScript如何收集JSP页面的采集到的数据
- python网络数据采集-如何实现文件上传
- 在MVC中如何在使用 MicrosoftMvcValidation验证的前提下使用 jQuery.Ajax 提交数据的时候检查验证是否通过
- Flume + HDFS Sink采集数据及如何添加第三方JAR
- 如何使用JavaScript和正则表达式进行数据验证
- 【数据可视化之采集】如何设计一个前端监控系统(作者未完成)
- 如何高效率采集并分析数据
- 面试题之-淘宝上是如何保证库存和订单之间的数据准确性的?
- 数据采集:完美下载淘宝Ip数据库 简单的程序节省60元人民币而不必购买数据库
- 跟我一起制作数据采集-获取淘宝网店宝贝数据信息
- 为什么需要数据可视化,如何用图表讲故事?【做数据分析的必看】
- 如何一键获取数百万外卖商家数据-饿了么和美团外卖商家数据采集
- 如何使用JavaScript和正则表达式进行数据验证
- 三问 数据采集之一 如何提高会议效率
- php 模拟登录淘宝taobao阿里妈妈|模拟登录淘宝联盟|curl模拟登录淘宝|模拟登陆淘宝采集数据
- C#——小编浅谈如何在DataGridView控件中验证数据输入
- 淘宝客网站怎么批量采集淘宝商品,方维采集淘宝数据思路
- [开源 .NET 跨平台 Crawler 数据采集 爬虫框架: DotnetSpider] [五] 如何做全站采集?
- c#如何实现RTU远程数据采集功能及RTU在水利工程中的运用