BigQuery 公共数据集
公共数据集是存储于 BigQuery,并通过 Google Cloud 公共数据集计划提供给公众的任何数据集。公共数据集是由 BigQuery 托管的数据集,可供您访问并集成到您的应用中。Google 会支付这些数据集的存储费用,并通过项目提供对数据的公开访问权限。您只需为对数据执行的查询付费。每月免费处理前 1 TB 数据,具体参阅查询价格详情。
您可以使用旧版 SQL 或 GoogleSQL 查询对公共数据集进行分析。查询公共数据集时,请使用完全限定的表名称,例如 bigquery-public-data.bbc_news.fulltext
。如果您的组织限制数据访问(例如使用安全边界),则可能需要与管理员联系以获得访问公共数据集的权限。
您可以通过以下方式访问 BigQuery 公共数据集:使用 Google Cloud 控制台、使用 bq 命令行工具,或者使用各种客户端库(例如 Java、.NET 或 Python)调用 BigQuery REST API。您还可以通过 Analytics Hub 查看和查询公共数据集,这是一个数据交换平台,可帮助您发现和访问数据库。
默认情况下,无法从 VPC Service Controls 边界内访问公共数据集。公共数据集计划没有服务等级协议 (SLA)。
您可以点击 Cloud Marketplace 的“数据集”部分中的相应数据集名称,详细了解各数据集。
准备工作
要开始使用 BigQuery 公共数据集,您必须先创建或选择一个项目。我们提供每月免费处理 1 TB 数据,因此您无需启用结算功能即可开始查询公共数据集。如果您打算处理的数据量超出免费层级范围,则还必须启用结算功能。
- 登录您的 Google Cloud 账号。如果您是 Google Cloud 新手,请创建一个账号来评估我们的产品在实际场景中的表现。新客户还可获享 $300 赠金,用于运行、测试和部署工作负载。
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
- 新项目会自动启用 BigQuery。如需在现有项目中启用 BigQuery,请前往
Enable the BigQuery API.
公共数据集位置
每个公共数据集都存储在一个特定位置,例如 US
或 EU
。目前,BigQuery 示例表存储在 US
多区域位置。在查询示例表时,请在命令行中提供 --location=US
标志,在 Google Cloud 控制台中选择 US
作为处理位置,或者在使用 API 时,在作业资源的 jobReference
部分中指定 location
属性。由于示例表存储在 US,因此您无法将示例表查询结果写入另一区域中的表,也无法将示例表与其他区域中的表连接。
访问 Google Cloud 控制台中的公共数据集
您可以通过以下方法在 Google Cloud 控制台中访问公共数据集:
使用 Analytics Hub 查看和订阅公共数据集。
如需了解数据表的上次更新时间,请转到相应表的详细信息部分(如获取表信息中所述),然后查看上次修改日期字段。 如需详细了解如何选择和移除项目,请参阅使用项目。
其他公共数据集
还有很多其他公共数据集可供您查询,其中一些也由 Google 托管,但更多则是由第三方托管。其他数据集包括:
公开数据集
您可以更改数据集的访问权限控制以允许“所有经过身份验证的用户”访问,从而公开您的任何数据集。要详细了解如何设置数据集访问权限控制,请参阅控制对数据集的访问权限。
当您公开数据集时:
- 与包含该公开共享的数据集的项目关联的结算账号会产生存储费用。
- 与运行查询作业的项目相连接的结算账号会产生查询费用。
如需了解详情,请参阅 BigQuery 价格概览。
示例表
除公共数据集之外,BigQuery 还提供了有限数量的示例表供您查询。这些表包含在 bigquery-public-data:samples
数据集中。
查询 BigQuery 示例表的要求与查询公共数据集的要求相同。
bigquery-public-data:samples
数据集包含以下表:
名称 | 说明 |
---|---|
gsod |
包含 NOAA 收集的天气信息,例如 1929 年末至 2010 年初的降水量和风速。 |
github_nested |
包含操作的时间轴,例如,针对采用嵌套架构的 GitHub 代码库的拉取请求和注释。创建于 2012 年 9 月。 |
github_timeline |
包含操作的时间轴,例如,针对采用平面架构的 GitHub 代码库的拉取请求和注释。创建于 2012 年 5 月。 |
natality |
描述 1969 年至 2008 年期间在美国的 50 个州、哥伦比亚特区和纽约市登记的所有出生人数。 |
shakespeare |
包含莎士比亚作品的字词索引,并提供了每个字词在各文集中出现的次数。 |
trigrams |
包含在 1520 年至 2008 年期间出版的作品样本中的英语三字母组。 |
wikipedia |
包含 2010 年 4 月之前的所有维基百科文章的完整修订历史记录。 |
与我们联系
如果您对 BigQuery 公共数据集计划有任何疑问,请通过 [email protected]
联系我们。
后续步骤
如需了解如何查询公共数据集中的表,请参阅快速入门:使用 Google Cloud 控制台。