您的位置:首页 > 产品设计 > UI/UE

igQuery是Google于2011年底正式推出的一项Web服务

2013-03-16 00:22 856 查看
igQuery是Google于2011年底正式推出的一项Web服务,通过该服务,开发者可以使用Google的架构来运行SQL语句对超大型的数据库进行操作。即BigQuery可以对开发者上传的超大型数据进行直接交互式分析,开发者无需投资建立自己的数据中心。

今天,谷歌升级了BigQuery,带来了更强大的功能,比如更大的查询范围、新的数据类型、更灵活的表结构、更好的分析工具等。具体如下。



1. Big JOIN 和 Big Group Aggregations

从多个庞大的数据集中提取信息是非常具有挑战性且非常耗时,如果你的数据过大(TB级别),往往需要复杂的MapReduce工作流、并需要为基础设施投入大量的资金和时间。

新版本BigQuery中带来了一个新的功能,使得分析师和开发者可以在数据库中更快地运行类似SQL的连接和聚合查询,而无需分批次处理。Big
JOIN功能可以通过公共key合并两个大型数据表,并产生一个结果集,大大简化了数据分析工作。

对于分组查询,可以使用新的Big Group Aggregations功能,允许开发者在结果集分组中包含更多的值。

要使用这些新功能,只需在JOIN或GROUP BY字句中加上EACH修饰符。更多信息:BigQuery query
reference

Sql代码

/* JOIN EACH example

* Selects the top 10 most edited Wikipedia pages

* of words that appear in works of Shakespeare.

*/

SELECT

TOP(wiki.title, 10), COUNT(*)

FROM

[publicdata:samples.wikipedia] AS wiki

JOIN EACH

[publicdata:samples.shakespeare] AS shakespeare

ON

shakespeare.word = wiki.title;

2. 对TIMESTAMP数据类型的原生支持

新版本中增加了TIMESTAMP数据类型,该类型允许开发者导入日期和时间值的同时保留时区偏移信息。此外,还增加了一些函数,用于将TIMESTAMP字段转换为其他格式、计算间隔、提取部分值(小时、星期、时刻等)。更多信息:query
reference#timestamp

Sql代码

/* TIMESTAMP example

* Which hours in the day are the most popular for GitHub actions?

* This query converts github_timeline "created_at" date time

* strings to BigQuery TIMESTAMP, and extracts the hour from each.

*/

SELECT

HOUR(TIMESTAMP(created_at)) AS event_create_hour,

COUNT(*) AS event_count

FROM

[publicdata:samples.github_timeline]

GROUP BY

event_create_hour

ORDER BY

event_count DESC;

3. 添加列到现有BigQuery表格

要使用此功能,只需提供一个新的模式和列数据,并使用BigQuery API方法“Tables: update”或“Tables: patch”即可。更多信息:BigQuery
API reference

4. BigQuery Web UI:数据集链接和数据集共享通知

这提供了一个便捷的方式,使得授权用户可以快速访问数据集,并允许标记和共享。此外,还增加了电子邮件通知,以告知用户他们已经获得了数据集的访问权限。



详细信息:BigQuery
gets big new features to make data analysis even easier
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: