BigQuery 公共数据集

公共数据集是存储于 BigQuery,并通过 Google Cloud 公共数据集计划提供给公众的任何数据集。公共数据集是由 BigQuery 托管的数据集,可供您访问并集成到您的应用中。Google 会支付这些数据集的存储费用,并通过项目提供对数据的公开访问权限。您只需为对数据执行的查询付费。每月免费处理前 1 TB 数据,具体参阅查询价格详情

您可以使用旧版 SQL 或 GoogleSQL 查询对公共数据集进行分析。查询公共数据集时,请使用完全限定的表名称,例如 bigquery-public-data.bbc_news.fulltext。如果您的组织限制数据访问(例如使用安全边界),则可能需要与管理员联系以获得访问公共数据集的权限。

您可以通过以下方式访问 BigQuery 公共数据集:使用 Google Cloud 控制台、使用 bq 命令行工具,或者使用各种客户端库(例如 Java.NETPython)调用 BigQuery REST API。您还可以通过 Analytics Hub 查看和查询公共数据集,这是一个数据交换平台,可帮助您发现和访问数据库。

默认情况下,无法从 VPC Service Controls 边界内访问公共数据集。公共数据集计划没有服务等级协议 (SLA)。

转到 Analytics Hub

您可以点击 Cloud Marketplace 的“数据集”部分中的相应数据集名称,详细了解各数据集。

转到 Cloud Marketplace 中的数据集

准备工作

要开始使用 BigQuery 公共数据集,您必须先创建或选择一个项目。我们提供每月免费处理 1 TB 数据,因此您无需启用结算功能即可开始查询公共数据集。如果您打算处理的数据量超出免费层级范围,则还必须启用结算功能。

  1. 登录您的 Google Cloud 账号。如果您是 Google Cloud 新手,请创建一个账号来评估我们的产品在实际场景中的表现。新客户还可获享 $300 赠金,用于运行、测试和部署工作负载。
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. 确保您的 Google Cloud 项目已启用结算功能

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. 确保您的 Google Cloud 项目已启用结算功能

  6. 新项目会自动启用 BigQuery。如需在现有项目中启用 BigQuery,请前往

    Enable the BigQuery API.

    Enable the API

公共数据集位置

每个公共数据集都存储在一个特定位置,例如 USEU。目前,BigQuery 示例表存储在 US 多区域位置。在查询示例表时,请在命令行中提供 --location=US 标志,在 Google Cloud 控制台中选择 US 作为处理位置,或者在使用 API 时,在作业资源jobReference 部分中指定 location 属性。由于示例表存储在 US,因此您无法将示例表查询结果写入另一区域中的表,也无法将示例表与其他区域中的表连接。

访问 Google Cloud 控制台中的公共数据集

您可以通过以下方法在 Google Cloud 控制台中访问公共数据集:

如需了解数据表的上次更新时间,请转到相应表的详细信息部分(如获取表信息中所述),然后查看上次修改日期字段。 如需详细了解如何选择和移除项目,请参阅使用项目

其他公共数据集

还有很多其他公共数据集可供您查询,其中一些也由 Google 托管,但更多则是由第三方托管。其他数据集包括:

公开数据集

您可以更改数据集的访问权限控制以允许“所有经过身份验证的用户”访问,从而公开您的任何数据集。要详细了解如何设置数据集访问权限控制,请参阅控制对数据集的访问权限

当您公开数据集时:

  • 与包含该公开共享的数据集的项目关联的结算账号会产生存储费用。
  • 与运行查询作业的项目相连接的结算账号会产生查询费用。

如需了解详情,请参阅 BigQuery 价格概览

示例表

公共数据集之外,BigQuery 还提供了有限数量的示例表供您查询。这些表包含在 bigquery-public-data:samples 数据集中。

查询 BigQuery 示例表的要求与查询公共数据集的要求相同。

bigquery-public-data:samples 数据集包含以下表:

名称 说明
gsod 包含 NOAA 收集的天气信息,例如 1929 年末至 2010 年初的降水量和风速。
github_nested 包含操作的时间轴,例如,针对采用嵌套架构的 GitHub 代码库的拉取请求和注释。创建于 2012 年 9 月。
github_timeline 包含操作的时间轴,例如,针对采用平面架构的 GitHub 代码库的拉取请求和注释。创建于 2012 年 5 月。
natality 描述 1969 年至 2008 年期间在美国的 50 个州、哥伦比亚特区和纽约市登记的所有出生人数。
shakespeare 包含莎士比亚作品的字词索引,并提供了每个字词在各文集中出现的次数。
trigrams 包含在 1520 年至 2008 年期间出版的作品样本中的英语三字母组。
wikipedia 包含 2010 年 4 月之前的所有维基百科文章的完整修订历史记录。

与我们联系

如果您对 BigQuery 公共数据集计划有任何疑问,请通过 [email protected] 联系我们。

后续步骤

如需了解如何查询公共数据集中的表,请参阅快速入门:使用 Google Cloud 控制台