Kaggle 命令行工具¶
参考:Public API Documentation | Kaggle
kaggle 命令行工具安装:
pip install kaggle
Mac/Linux 推荐安装
pip install --user kaggle
安装完成之后,在 API 栏目,点击 Create API Token
按钮,触发浏览器下载包含 API 凭证的 json 文件 kaggle.json
,并将其放在 ~/.kaggle
文件夹下:
{
"username": "",
"key": "",
"path": ""
}
其中,username
字段是 kaggle 账户的用户名,key
字段,则是用户的专属 API Key。path
字段即 Kaggle 下载数据集的目录。如果不设置 path
字段,Kaggle 默认的下载目录是用户主目录即 $HOME
。
使用 competitions
进行交互¶
Kaggle API 和 CLI 工具提供了在 Kaggle 上与 Competitions 交互的简单方法。可用的命令可以使参与竞赛成为模型构建工作流的无缝组成部分。
kaggle competitions list
:列出目前正在进行的比赛kaggle competitions download -c [COMPETITION]
:下载与比赛相关的文件kaggle competitions submit -c [COMPETITION] -f [FILE] -m [MESSAGE]
:提交参赛作品
使用 datasets
进行交互¶
Kaggle API 和 CLI 工具提供了与 Kaggle 上的数据集交互的简单方法。可用的命令可以使搜索和下载 Kaggle 数据集成为您的数据科学工作流的无缝部分。
kaggle datasets list -s [KEYWORD]
:列出匹配搜索项的数据集kaggle datasets download -d [DATASET]
:下载与数据集关联的文件
创建新的数据集¶
以下是在 Kaggle 上创建新数据集的步骤:
创建一个包含要上传的文件的文件夹
运行
kaggle datasets init -p /path/to/dataset
输出 metadata 文件数据集的元数据添加到生成的
datapackage.json
文件中运行
kaggle datasets create -p /path/to/dataset
创建数据集运行
kaggle datasets version -p /path/to/dataset -m "Your message here"
创建数据集的版本
默认情况下,您的数据集是私有的。您也可以添加一个 -u
标志,使其公共时,您创建它,或导航到“设置”>“共享”从您的数据集的页面,使其公共或与合作者共享。
其他¶
为了方便本地电脑使用数据集,可以定义数据集根目录:
def kaggle_root():
import kaggle
config_values = kaggle.api.config_values
root = config_values['path']
return root