BigQuery公开数据集元数据

我创建了公共BigQuery表,其中包含有关BigQuery公共数据集的元数据。 众所周知,BigQuery具有包含各种性质和大小的数据的公共数据集。 例如,有比特币和以太坊交易,世界银行的数据,专利数据,各种(主要是美国)代理机构,如劳罗局或森林统计局等。由于它们是公开的,因此,拥有Google Cloud帐户的任何人都可以查询它们并且仅在查询1TB的免费每月配额用完后才对查询的数据量收费。 在以下情况下,公共数据集是理想的资源: –您是从BigQuery开始的,没有足够的数据来试用BigQuery功能 –您想将公共数据集中的数据用于(严重)研究或只是为了娱乐 有关BigQuery公开数据集的一些资源,可以在这里找到: https://cloud.google.com/bigquery/public-data/-通用指南,介绍如何从BigQuery和公共数据集入手 https://www.reddit.com/r/bigquery/wiki/datasets-公开数据集列表以及有关它们的一些信息(来源) https://console.cloud.google.com/marketplace/browse?filter=solution-type:dataset-公开数据集和综合信息以及一些示例查询的列表。 我之所以写这篇文章,是因为我正在浏览至少每天更新一次的公共数据集表,但是从这些可用信息中我很难找到。 我当然尝试过在BigQuery中随机查找几个表以获取信息,但大多数表未更新,因此手动进行会花费很长时间。 因为每个表都包含一些元数据,例如大小,行数,创建/修改的日期,所以我编写了简单的Python脚本以从公共数据集的表中提取信息并将其全部放入一个表中。 完整的代码在Github上https://github.com/zdenulo/bigquery_public_datasets_metadata 获取数据的核心代码是这样的: 导入日期时间 导入日志…