配色: 字号:
构建数据科学项目的最佳实践 20221218
2022-12-26 | 阅:  转:  |  分享 
  
构 建 数 据 科 学 项 目 的 最 佳 实 践原 作 Jedrzej Rybicki翻 译 方 建 勇数 据 科 学 项 目 的 目 标 是 从 收 集 的 数 据 中 提 取 知 识 和 见 解 。 重 点 放 在 获得 的 见 解 的 新 颖 性 和 可 用 性 上 。 然 而 , 如 果 不 能 很 好 地 传 达 结 果 , 项目 的 影 响 可 能 会 严 重 降 低 。 在 本 文 中 , 我 们 描 述 了 一 种 管 理 和 描 述 数据 科 学 项 目 成 果 的 方 法 , 以 使 其 最 佳 地 传 达 所 获 得 的 见 解 。 我 们 关 注非 语 言 交 流 的 主 要 工 件 , 即 项 目 结 构 。 特 别 是 , 我 们 调 查 了 关 于 如 何

构 建 项 目 的 三 个 信 息 来 源 : 通 用 管 理 方 法 、 社 区 最 佳 实 践 和 数 据 共 享平 台 。 调 查 得 出 了 一 系 列 关 于 如 何 构 建 项 目 工 件 以 使 其 清 晰 、 直 观 和合 乎 逻 辑 的 建 议 。 我 们 还 提 供 了 有 助 于 有 效 管 理 此 类 结 构 的 工 具 提 示 。本 文 旨 在 激 励 和 支 持 关 于 如 何 构 建 数 据 科 学 项 目 的 知 情 决 策 , 以 促 进成 果 的 更 好 沟 通 。1 引 言对 数 据 科 学 的 直 观 理 解 是 将 其 视 为 从 收 集 的 数 据 中 获 得 新 颖 见 解 的

一 种 方 式 。 它 应 用 了 计 算 机 科 学 、 软 件 工 程 、 应 用 统 计 和 数 据 管 理 等领 域 的 方 法 。 数 据 科 学 项 目 包 括 不 同 的 阶 段 : 收 集 数 据 、 清 理 数 据 、分 析 和 得 出 结 论 。 该 过 程 的 一 个 重 要 部 分 是 交 流 研 究 结 果 , 以 支 持 研究 假 设 或 做 出 商 业 决 策 。 从 更 广 泛 的 意 义 上 讲 , 沟 通 是 使 项 目 及 其 结

果 易 于 理 解 、 可 复 制 和 透 明 的 一 种 手 段 。 因 此 , 数 据 描 述 和 用 于 数 据清 理 和 分 析 的 程 序 的 混 合 , 通 常 伴 随 着 一 些 方 法 和 发 现 的 总 结 , 是 最重 要 的 沟 通 产 物 之 一 。 然 而 , 根 据 我 们 的 经 验 , 许 多 项 目 的 结 构 很 差 ,混 合 了 程 序 、 数 据 和 库 , 并 且 没 有 提 供 如 何 重 做 分 析 的 提 示 。 因 此 ,本 文 的 主 题 是 如 何 准 备 和 构 建 这 样 的 人 工 制 品 , 以 有 效 地 传 达 数 据 科学 项 目 的 结 果 。 我 们 研 究 了 形 成 目 录 结 构 的 最 佳 实 践 , 组 织 它 们 , 并提 供 关 于 如 何 以 及 在 何 处 存 储 所 使 用 的 数 据 和 程 序 的 提 示 。尽 管 在 项 目 中 获 得 的 研 究 成 果 通 常 被 视 为 其 主 要 产 出 , 但 忽 视 项 目 结

构 方 面 的 最 佳 实 践 可 能 会 阻 碍 他 们 的 理 解 并 降 低 项 目 的 整 体 影 响 。 当结 构 明 确 、 直 观 且 可 理 解 时 , 工 件 的 接 受 者 ( 即 另 一 名 研 究 人 员 ) 可以 将 注 意 力 集 中 在 重 要 部 分 : 项 目 发 现 、 使 用 的 算 法 、 数 据 集 成 问 题等 , 而 不 是 花 时 间 掌 握 项 目 的 结 构 和 依 赖 性 。 这 与 软 件 工 程 的 最 佳 实践 有 一 些 相 似 之 处 。 使 用 直 观 的 命 名 惯 例 并 坚 持 既 定 的 编 程 实 践 , 可以 让 您 更 容 易 地 沉 浸 在 现 有 的 软 件 项 目 中 。 成 功 的 数 据 科 学 部 署 在 生产 基 础 设 施 上 , 以 实 践 其 发 现 。 如 果 项 目 结 构 良 好 且 易 于 理 解 , 这 种产 品 化 过 程 也 可 以 以 较 少 费 力 的 方 式 进 行 。 事 实 上 , 这 是 我 们 工 作 的主 要 动 力 来 源 。 我 们 与 欧 洲 最 大 的 数 据 中 心 之 一 建 立 了 合 作 关 系 , 因

此 , 我 们 经 常 面 临 将 项 目 结 果 纳 入 基 础 设 施 的 要 求 。在 本 文 中 , 我 们 从 三 个 主 要 信 息 源 汇 编 了 最 佳 实 践 。 我 们 注 意 到 , 工业 界 和 学 术 界 的 方 法 存 在 差 异 。 因 此 , 我 们 同 时 关 注 这 两 个 世 界 。 首

先 , 我 们 研 究 了 数 据 科 学 和 数 据 挖 掘 项 目 中 最 流 行 的 方 法 。 它 们 已 经是 来 自 行 业 的 最 佳 实 践 的 叠 加 , 因 此 可 能 包 含 对 项 目 结 构 的 重 要 见 解 。第 二 个 信 息 来 源 是 研 究 社 区 的 最 佳 实 践 。 这 些 方 法 或 多 或 少 都 是 形 式化 的 , 在 某 些 方 面 往 往 与 更 为 行 业 驱 动 的 方 法 有 所 不 同 。 最 后 , 我 们分 析 了 在 Kaggle 或 myExperiment 等 流 行 数 据 共 享 平 台 上 发 布 的 工 件的 结 构 。 在 这 里 , 数 据 科 学 的 两 个 世 界 : 学 术 界 和 工 业 界 相 遇 , 因 此这 些 地 方 也 可 以 为 上 述 主 题 提 供 有 价 值 的 提 示 。 本 文 的 目 的 不 是 提 供一 份 随 时 准 备 好 的 指 导 , 而 是 列 出 主 题 的 重 要 方 面 和 解 决 方 案 建 议 。然 后 , 读 者 可 以 比 较 她 当 前 的 解 决 方 案 , 自 行 决 定 什 么 对 她 有 意 义 ,

以 及 应 该 实 施 什 么 建 议 。 我 们 还 整 理 了 通 用 工 具 的 简 要 概 述 , 这 些 工具 可 以 帮 助 构 建 可 共 享 和 可 理 解 的 工 件 。数 据 科 学 位 于 数 据 管 理 和 软 件 工 程 之 间 的 边 界 。 我 们 尽 量 不 在 这 些 领域 做 得 太 过 火 , 因 为 我 们 认 为 应 在 适 用 的 情 况 下 应 用 各 自 的 最 佳 实 践 。关 于 研 究 数 据 管 理 的 最 佳 实 践 , 我 们 请 读 者 参 考 DataOne 的 优 秀 概 述 。软 件 开 发 中 的 最 佳 实 践 在 很 大 程 度 上 取 决 于 所 使 用 的 语 言 , 对 于Python, Reitz 和 Schlusser 提 供 了 一 个 很 好 的 概 述 。 为 了 区 别 于 数 据 和软 件 管 理 , 我 们 ( 任 意 ) 假 设 数 据 科 学 项 目 是 从 数 据 移 入 分 析 环 境 开

始 的 。 该 环 境 由 现 有 软 件 组 成 , 如 果 需 要 , 开 发 新 的 项 目 专 用 软 件 。项 目 结 束 后 , 两 个 软 件 ( 尤 其 是 数 据 ) 都 可 以 移 回 原 来 的 世 界 , 即 数据 管 理 解 决 方 案 或 代 码 库 。 如 何 实 现 这 种 移 动 、 使 用 了 什 么 外 部 代 码以 及 如 何 配 置 这 些 代 码 应 该 是 通 信 人 工 制 品 ( 即 数 据 科 学 项 目 ) 的 一

部 分 。 尽 管 如 此 , 一 种 明 智 且 结 构 化 的 数 据 科 学 项 目 实 施 方 式 可 以 帮助 发 布 结 果 , 例 如 , 通 过 自 动 提 供 数 据 存 储 库 所 需 的 一 些 元 数 据 。2 产 生 结 构 的 方 法在 本 节 中 , 我 们 想 回 顾 一 下 关 于 如 何 从 流 行 的 知 识 发 现 和 数 据 挖 掘 方法 和 过 程 模 型 中 构 建 项 目 工 件 的 建 议 。 Kurgan 和 Musialek 对 数 据 挖 掘过 程 模 型 进 行 了 出 色 的 调 查 。 这 里 , 我 们 只 关 注 实 际 的 项 目 结 构 、 内容 和 相 关 建 议 。

Piatetsky Shapiro 和 Frawley 在 开 创 性 的 论 文 中 描 述 了 数 据 库 中 的 知 识发 现 ( KDD) , 后 来 扩 展 为 更 通 用 的 知 识 发 现 和 数 据 挖 掘 ( KDDM)方 法 。 知 识 发 现 ( KD) 过 程 包 括 选 择 、 预 处 理 、 转 换 、 数 据 挖 掘 和解 释 /评 估 等 阶 段 。 值 得 注 意 的 是 , 尽 管 最 初 的 工 作 将 数 据 库 定 义 为“ 在 一 个 或 多 个 文 件 中 维 护 的 数 据 的 逻 辑 集 成 集 合 ” , 但 其 重 点 关 注关 系 数 据 库 。 因 此 , 尽 管 该 过 程 的 定 义 非 常 宽 泛 , 但 它 对 目 录 结 构 没有 任 何 提 示 。 与 后 来 的 方 法 不 同 , 它 也 没 有 强 调 有 效 沟 通 的 必 要 性 。CRISP-DM( 数 据 挖 掘 跨 行 业 标 准 流 程 ) 最 初 起 草 于 EC 资 助 的 项 目

中 , 目 前 由 主 要 行 业 合 作 伙 伴 组 成 的 联 盟 推 动 。 它 “ 基 于 人 们 如 何 进行 数 据 挖 掘 项 目 的 实 际 、 真 实 经 验 ” 。 该 过 程 包 括 六 个 主 要 阶 段 : 业务 理 解 、 数 据 理 解 、 数 据 准 备 、 建 模 、 评 估 和 部 署 。 该 过 程 不 会 为 项

目 定 义 特 定 的 目 录 结 构 。 然 而 , 我 们 发 现 了 一 个 名 为 py-crisp 的 项 目示 例 , 它 根 据 项 目 的 阶 段 组 织 目 录 结 构 。 CRISP-DM 定 义 了 每 一 步 的输 出 和 可 交 付 成 果 , 这 是 有 意 义 的 。 从 我 们 的 角 度 来 看 , 一 个 重 要 的是 , 例 如 , 数 据 准 备 步 骤 中 的 数 据 描 述 。 它 描 述 了 使 用 的 数 据 以 及 数据 来 源 。 尽 管 如 此 , 尚 不 清 楚 以 这 种 方 式 构 建 的 结 构 是 否 真 的 有 用 ,因 为 原 始 数 据 、 辅 助 数 据 或 分 析 软 件 的 位 置 尚 未 明 确 。 用 于 产 生 结 果的 管 理 过 程 是 否 真 正 相 关 , 是 否 需 要 构 建 到 项 目 可 交 付 成 果 的 结 构 中 ,这 是 值 得 怀 疑 的 。 我 们 将 在 本 文 稍 后 详 细 阐 述 这 一 主 题 。

CRISP-DM 的 替 代 方 案 是 微 软 提 出 的 团 队 数 据 科 学 过 程 ( TDSP) 。TDSP 还 描 述 了 数 据 科 学 项 目 的 生 命 周 期 , 它 分 为 以 下 几 个 阶 段 : 业务 理 解 、 数 据 获 取 和 理 解 、 建 模 、 部 署 和 客 户 接 受 。 该 过 程 提 供 了 许多 关 于 如 何 执 行 特 定 步 骤 以 及 应 产 生 哪 些 输 出 的 建 议 。 在 业 务 理 解 阶段 , 应 确 定 潜 在 相 关 原 始 数 据 的 位 置 , 并 编 写 稍 后 将 数 据 移 动 到 分 析环 境 的 脚 本 。 数 据 采 集 和 理 解 部 分 应 编 制 数 据 质 量 报 告 。 重 要 的 是 ,TDSP 根 据 提 供 的 模 板 定 义 了 标 准 化 项 目 结 构 。 该 结 构 的 三 个 主 要 组成 部 分 是 程 序 ( 在 代 码 目 录 中 ) 、 文 档 ( Docs) 和 数 据 ( 示 例 数 据 ) 。代 码 目 录 应 存 储 已 定 义 项 目 阶 段 的 工 件 , 即 数 据 采 集 或 建 模 。 在 较 低

层 次 层 次 上 , 模 板 建 议 为 建 模 阶 段 中 完 成 的 每 个 实 验 创 建 单 独 的 目 录 ,在 那 里 寻 求 最 佳 方 法 和 参 数 。 数 据 分 为 原 始 、 处 理 和 建 模 部 分 , 不 应包 括 大 数 据 , 而 应 包 括 用 于 验 证 的 小 样 本 数 据 集 和 获 取 实 际 数 据 的 脚本 。 背 后 的 原 因 是 , 除 其 他 外 , 结 构 应 该 保 持 在 版 本 控 制 系 统 中 。 此

类 系 统 通 常 不 用 于 存 储 大 型 文 件 。 TDSP 及 其 目 录 结 构 的 动 机 是 使 项目 与 Microsoft Azure 云 平 台 提 供 的 计 算 设 施 兼 容 。 结 构 中 捕 获 的 隐 式假 设 有 助 于 服 务 之 间 的 互 操 作 。 同 样 , 定 义 良 好 的 结 构 可 以 帮 助 组 织或 研 究 社 区 在 分 布 式 服 务 之 间 更 好 地 交 换 工 作 项 目 。执 行 和 构 建 数 据 科 学 项 目 的 一 种 较 不 正 式 的 方 法 是 Cookie数 据 科 学 。它 是 一 个 逻 辑 化 、 标 准 化 但 不 具 有 约 束 力 的 项 目 结 构 。 这 个 项 目 之 所以 有 趣 , 至 少 有 三 个 原 因 。 首 先 , 它 激 励 并 描 述 了 项 目 的 高 级 目 录 结构 。 该 结 构 包 括 一 个 数 据 目 录 , 该 目 录 进 一 步 分 为 不 言 自 明 的 原 始 文

件 夹 、 临 时 文 件 夹 和 已 处 理 文 件 夹 。 此 外 , 还 有 专 门 的 文 件 、 参 考 和报 告 存 放 位 置 。 所 使 用 的 代 码 根 据 其 功 能 在 src 中 的 子 目 录 之 间 转 换 ,例 如 , 用 于 下 载 数 据 的 脚 本 、 用 于 构 建 功 能 的 脚 本 或 进 行 可 视 化 。 作者 们 还 预 见 了 笔 记 本 电 脑 的 位 置 ( 如 Jupyter、 Apache Zeppelin 等 ) ,这 些 笔 记 本 电 脑 有 望 捕 捉 项 目 的 探 索 阶 段 。 项 目 有 趣 的 第 二 个 原 因 是项 目 文 档 中 收 集 的 “ 意 见 ” 。例 如 , 他 们 建 议 让 数 据 不 可 变 ( 并 且 永 远 不 要 对 其 进 行 任 何 手 动 更 改 ) ,或 者 将 数 据 分 析 理 解 为 有 向 非 循 环 图 , 其 中 后 续 步 骤 之 间 的 转 换 在 脚

本 中 实 现 。 最 后 , 该 项 目 对 可 以 使 用 的 工 具 提 出 了 一 些 很 好 的 实 用 建议 , 如 cookiecutter 或 make。 我 们 将 单 独 一 节 讨 论 这 个 问 题 。 不 同 数据 科 学 方 法 的 比 较 分 析 见 表 1。

3 社 区 建 立 的 结 构组 织 计 算 生 物 学 项 目 的 高 尚 快 速 指 南 描 述 了 “ 进 行 计 算 实 验 的 一 个 好策 略 ” 。 该 论 文 建 议 在 项 目 的 顶 层 使 用 逻 辑 结 构 , 在 底 层 使 用 时 间 结构 。 逻 辑 结 构 中 最 重 要 的 部 分 是 分 别 存 储 固 定 数 据 集 和 处 理 结 果 的 数据 和 结 果 目 录 。 此 外 , 作 者 建 议 对 脚 本 和 程 序 使 用 src 目 录 , 并 将 文档 放 在 doc 中 。 在 较 低 层 次 结 构 上 , 使 用 按 时 间 顺 序 组 织 数 据 和 结 果 。项 目 中 的 每 个 新 ( 子 ) 实 验 都 在 以 当 前 日 期 命 名 的 目 录 中 启 动 。 除 专用 文 件 外 , 建 议 在 README 文 件 中 记 录 每 个 执 行 步 骤 。 该 项 目 还 应

包 含 自 动 执 行 实 验 和 处 理 的 驱 动 程 序 脚 本 。 在 某 种 程 度 上 , 这 样 的 脚本 也 是 一 份 文 档 。 作 者 强 烈 主 张 将 版 本 控 制 系 统 作 为 备 份 的 第 一 行 、执 行 更 改 的 历 史 记 录 以 及 促 进 协 作 的 方 式 。Wilson 等 人 列 出 了 “ 科 学 计 算 方 面 足 够 好 的 实 践 ” 。 该 论 文 与 我 们 的目 标 相 似 , 值 得 一 读 , 因 为 它 捕 捉 了 作 者 在 数 据 管 理 、 软 件 工 程 、 协作 和 项 目 组 织 领 域 的 实 践 经 验 。 建 议 的 组 织 包 括 原 始 数 据 和 元 数 据 、

源 代 码 、 文 档 以 及 所 有 编 译 程 序 和 脚 本 的 单 独 目 录 。 该 目 录 还 应 包 括描 述 项 目 的 自 述 文 件 。 在 数 据 清 理 和 整 合 过 程 中 创 建 的 所 有 中 间 文 件应 存 储 在 /results/目 录 中 , 而 不 是 与 原 始 数 据 一 起 存 储 。 它 还 建 议 将加 工 和 清 洗 分 为 不 同 的 阶 段 及 其 中 间 阶 段 。 如 果 需 要 , 这 种 方 法 只 允许 重 新 启 动 部 分 程 序 。 作 者 假 设 避 免 专 有 数 据 格 式 , 并 使 用 “ 整 洁 数据 ” , 即 使 文 件 中 的 每 一 列 成 为 变 量 , 使 每 一 行 成 为 观 察 结 果 。 作 者强 调 要 跟 踪 变 化 。 这 可 以 通 过 手 动 过 程 实 现 , 在 该 过 程 中 , 每 次 进 行重 大 更 改 时 , 都 会 复 制 整 个 项 目 目 录 。 或 者 , 可 以 使 用 版 本 控 制 系 统 。

4 数 据 共 享 平 台myExperiment 平 台 支 持 共 享 数 据 和 科 学 工 作 流 , 主 要 来 自 生 物 和 医 疗部 门 。 可 以 上 传 所 谓 的 文 件 包 , 即 文 件 集 。 该 平 台 未 规 定 此 类 收 集 的任 何 特 定 结 构 。 然 而 , 它 可 以 借 助 于 一 个 新 兴 的 标 准 OAI-ORE( 开放 档 案 倡 议 : 对 象 重 用 和 交 换 ) 来 描 述 集 合 。 无 论 项 目 采 用 何 种 结 构 ,都 有 必 要 将 其 记 录 下 来 。Kaggle 是 另 一 个 旨 在 共 享 数 据 集 、 分 析 工 具 和 见 解 的 在 线 平 台 。 它 在

项 目 结 构 方 面 不 是 很 正 式 , 但 建 议 根 据 数 据 的 性 质 使 用 CSV、 JSON或 关 系 数 据 库 等 数 据 格 式 。 共 享 内 核 和 笔 记 本 可 以 共 享 分 析 。 这 些 内核 运 行 在 平 台 的 官 方 Docker 映 像 中 , 其 中 包 含 所 有 必 需 的 库 。 数 据被 注 入 到 /input/目 录 中 正 在 运 行 的 Docker 容 器 中 。 Docker 是 一 个 轻

量 级 的 虚 拟 化 解 决 方 案 , 可 用 于 跨 多 个 平 台 传 输 运 行 的 程 序 及 其 所 有依 赖 关 系 。 由 于 许 多 原 因 , 已 经 假 设 使 用 Docker 来 促 进 可 重 复 研 究 。其 中 之 一 是 可 以 将 处 理 与 数 据 明 确 分 开 。 它 可 以 重 复 使 用 不 同 数 据 的方 法 , 也 可 以 选 择 最 适 合 的 数 据 存 储 。 Docker 图 像 也 可 以 进 行 版 本化 , 以 反 映 其 演 变 过 程 。 从 这 个 例 子 中 得 到 的 一 个 明 显 的 教 训 是 数 据和 代 码 的 分 离 , 但 也 有 助 于 为 分 析 建 立 一 个 标 准 化 的 运 行 环 境 。5 讨 论

在 本 节 中 , 我 们 总 结 了 见 解 , 并 指 出 了 应 作 为 项 目 结 构 明 智 决 策 的 一部 分 的 方 面 。 稍 后 , 我 们 还 列 出 了 一 些 可 用 于 定 义 和 实 施 此 类 结 构 的工 具 。5.1 高 级 方 面数 据 科 学 项 目 是 , 或 者 至 少 应 该 是 , 软 件 开 发 与 数 据 管 理 相 结 合 的 地方 。 因 此 , 在 这 些 领 域 坚 持 各 自 的 最 佳 实 践 是 有 意 义 的 。 特 别 是 , 开发 的 软 件 应 该 应 用 逻 辑 代 码 结 构 、 命 名 和 关 注 点 分 离 。 此 外 , 代 码 应

存 储 在 版 本 控 制 系 统 中 , 以 便 于 变 更 跟 踪 、 备 份 和 协 作 。 数 据 科 学 领域 笔 记 本 电 脑 ( Jupyter、 Zeppelin 等 ) 的 日 益 普 及 在 这 方 面 带 来 了 一些 额 外 的 挑 战 。 这 种 笔 记 本 是 代 码 、 可 视 化 和 文 档 的 混 合 体 。 他 们 与版 本 控 制 系 统 相 处 得 不 好 ( 因 为 很 难 跟 踪 代 码 和 标 记 混 合 的 变 化 ) 。

我 们 引 用 的 大 多 数 来 源 都 建 议 使 用 笔 记 本 电 脑 ( 它 们 是 想 法 和 结 果 的绝 佳 载 体 ) , 但 尝 试 将 它 们 从 大 多 数 数 据 处 理 步 骤 中 剥 离 出 来 , 并 将其 外 包 到 单 独 的 程 序 和 脚 本 中 。 这 种 方 法 允 许 快 速 检 查 结 果 和 可 视 化 ,同 时 使 研 究 人 员 能 够 在 需 要 时 更 深 入 地 研 究 处 理 过 程 。 最 后 , 对 于 开发 的 代 码 , 提 供 依 赖 性 管 理 的 方 法 和 代 码 的 简 单 执 行 是 有 意 义 的 。 这可 以 通 过 多 种 方 式 实 现 。 从 驱 动 程 序 脚 本 ( 即 执 行 整 个 处 理 的 一 个 脚本 ) 开 始 , 构 建 诸 如 make 或 cmake 之 类 的 工 具 来 描 述 处 理 工 作 流 程 ,或 者 构 建 诸 如 Docker 之 类 的 虚 拟 化 解 决 方 案 来 共 享 工 作 运 行 环 境 。

至 少 具 有 中 等 复 杂 性 的 数 据 科 学 项 目 包 括 许 多 子 实 验 。 在 我 们 的 调 查中 , 我 们 确 定 了 构 建 项 目 的 三 种 主 要 方 式 : 功 能 性 、 项 目 生 命 周 期 各阶 段 以 及 时 间 性 。 一 些 消 息 来 源 建 议 为 每 个 这 样 的 子 实 验 创 建 目 录 ,并 根 据 开 始 日 期 命 名 。 我 们 认 为 , 捕 捉 这 些 单 一 步 骤 是 有 意 义 的 ( 即使 它 们 对 最 终 结 果 没 有 贡 献 ) , 但 使 用 日 期 作 为 名 称 可 能 不 是 最 好 的选 择 。 特 别 是 当 使 用 版 本 控 制 系 统 时 , 无 论 如 何 都 可 以 获 得 开 始 日 期 。也 许 更 有 意 义 的 名 字 , 反 映 中 间 假 设 是 更 好 的 选 择 。在 数 据 管 理 维 度 中 , 通 常 的 做 法 是 提 供 元 数 据 ( 即 数 据 源 和 结 构 的 描

述 ) 。 几 乎 所 有 经 过 审 查 的 来 源 都 建 议 不 要 将 原 始 数 据 与 代 码 一 起 存储 在 版 本 控 制 系 统 中 , 而 是 使 用 面 向 数 据 的 资 源 并 为 数 据 检 索 提 供 脚本 。 为 了 再 现 性 , 有 必 要 不 对 原 始 数 据 进 行 任 何 手 动 更 改 , 而 是 使 用脚 本 进 行 数 据 清 理 、 过 滤 和 处 理 。

关 于 数 据 , 建 议 使 用 CSV 或 JSON 等 开 放 格 式 。 至 少 在 中 间 处 理 步 骤中 通 常 是 可 能 的 。 此 外 , 使 原 始 数 据 整 洁 也 有 意 义 , 并 且 可 以 促 进 其重 用 。 学 术 界 和 工 业 界 并 不 总 是 遵 循 这 一 建 议 。 原 因 有 很 多 方 面 。 行业 通 常 依 赖 于 强 加 专 有 格 式 的 专 有 工 具 。 类 似 地 , 一 些 研 究 领 域 建 立了 自 己 的 格 式 , 用 于 数 据 存 储 库 。 对 于 数 据 科 学 项 目 中 完 成 的 中 间 处理 步 骤 , 建 议 使 用 开 放 格 式 。尽 管 在 实 施 数 据 科 学 项 目 时 , 我 们 看 到 了 使 用 定 义 方 法 的 优 点 , 但 我们 也 看 到 了 将 项 目 结 构 强 烈 导 向 方 法 阶 段 的 一 些 缺 点 。 本 文 的 中 心 点

是 讨 论 如 何 使 项 目 结 果 易 于 理 解 。但 用 什 么 方 法 得 出 最 终 结 论 真 的 相 关 吗 ? 它 们 是 否 应 该 以 这 样 一 种方 式 制 定 , 即 使 不 知 道 具 体 的 方 法 也 可 以 理 解 ? 另 一 方 面 , 忽 略 严 格定 义 的 阶 段 可 能 会 导 致 创 建 特 殊 假 设 以 恢 复 所 获 得 的 结 果 的 情 况 。 这在 学 术 界 和 工 业 界 都 是 有 问 题 的 , 因 为 它 会 导 致 不 公 布 负 面 结 果 ( 例如 , 最 初 的 假 设 没 有 得 到 证 实 ) , 并 可 能 导 致 产 生 客 户 要 求 以 外 的 其他 结 果 。 如 果 结 果 在 组 织 外 部 共 享 , 即 与 不 了 解 方 法 的 人 员 共 享 , 并且 在 深 入 研 究 结 果 之 前 必 须 首 先 了 解 过 程 , 则 根 据 项 目 的 生 命 周 期 构

建 结 果 结 构 是 有 问 题 的 。 上 述 版 本 控 制 系 统 的 使 用 使 项 目 的 历 史 变 得可 见 , 因 此 在 一 定 程 度 上 可 以 防 止 假 设 与 所 获 得 的 结 果 相 吻 合 。 然 而 ,我 们 建 议 熟 悉 CRISP-DM 或 TDSP 等 方 法 之 一 , 因 为 它 有 助 于 将 数 据

科 学 项 目 置 于 长 期 视 角 , 并 为 其 管 理 提 供 有 用 的 提 示 。5.2 工 具无 论 项 目 、 公 司 或 研 究 小 组 中 商 定 的 结 构 如 何 , 用 或 多 或 少 的 正 式 方式 来 描 述 它 都 是 很 有 意 义 的 。 一 种 明 显 的 方 法 是 编 写 文 档 , 但 结 构 的变 化 必 须 在 文 档 中 反 映 出 来 , 这 有 时 会 有 问 题 。 描 述 现 有 结 构 的 另 一种 方 式 是 使 用 已 经 提 到 的 OAI-ORE。 对 于 许 多 应 用 程 序 来 说 , 它 似乎 有 点 过 于 正 式 , 而 且 不 是 真 正 的 人 类 可 读 。 cookiecutter 工 具 在 可 用

性 和 易 用 性 之 间 取 得 了 很 好 的 平 衡 。 我 们 将 此 工 具 与 Cookiecutter 数据 科 学 项 目 结 构 一 起 提 到 , 但 实 际 上 它 是 一 个 独 立 的 工 具 , 可 以 形 式化 和 共 享 任 何 结 构 。 有 许 多 现 有 的 模 板 可 以 使 用 , 或 根 据 特 定 需 要 进行 调 整 。 从 技 术 上 讲 , 模 板 是 基 于 JOSN 的 结 构 描 述 , 在 创 建 模 板 化项 目 时 , 可 能 需 要 一 些 用 户 输 入 ( 如 项 目 名 称 ) 。 模 板 可 以 存 储 在 存储 库 ( 例 如 GitHub) 中 。数 据 科 学 项 目 中 产 生 的 工 件 的 另 一 个 重 要 部 分 是 入 口 点 脚 本 或 驱 动程 序 脚 本 。 这 是 一 个 用 于 开 始 数 据 检 索 、 清 理 和 实 际 分 析 的 脚 本 。 其

目 的 是 为 项 目 的 接 受 者 提 供 一 种 重 新 进 行 分 析 的 方 法 。 但 这 种 脚 本 的含 义 更 为 深 刻 , 它 是 描 述 所 执 行 分 析 工 作 流 程 的 正 式 ( 计 算 机 可 理 解 )方 式 。 它 与 将 处 理 理 解 为 非 循 环 图 的 推 理 非 常 吻 合 。 有 许 多 工 具 可 以实 现 这 一 点 , 有 些 是 通 用 的 , 有 些 是 特 定 于 所 选 编 程 语 言 或 框 架 的 。

在 更 通 用 的 方 面 , 有 make 和 cmake 等 工 具 。 最 初 , 设 想 用 于 构 建 更复 杂 的 软 件 项 目 。 然 而 , 他 们 在 数 据 科 学 项 目 中 表 现 得 很 好 。 抽 象 地说 , Makefile 描 述 了 工 件 的 一 部 分 及 其 产 生 方 法 。 例 如 , 可 以 确 定 原始 数 据 目 录 中 应 存 在 特 定 的 原 始 数 据 , 如 果 不 存 在 , 则 确 定 将 其 放 在那 里 的 方 法 。 与 项 目 结 构 本 身 不 同 , 根 据 所 采 用 的 方 法 , 按 照 生 命 周期 的 线 来 构 建 或 至 少 定 向 工 作 流 程 描 述 似 乎 是 有 意 义 的 。 这 是 流 程 的附 加 元 描 述 。使 数 据 科 学 项 目 的 研 究 具 有 可 复 制 性 的 一 个 重 要 部 分 是 , 不 仅 要 提 供

共 享 代 码 的 方 法 , 还 要 提 供 运 行 时 环 境 的 描 述 。 有 一 些 特 定 于 所 用 编程 语 言 的 解 决 方 案 。 另 一 种 方 法 是 借 助 虚 拟 化 技 术 共 享 实 际 运 行 环 境 。在 这 方 面 , 有 一 系 列 选 择 : 虚 拟 机 映 像 、 云 基 础 设 施 和 Docker。 最后 一 个 选 项 可 能 是 最 容 易 使 用 的 。 使 用 Docker, 可 以 定 义 一 幅 图 像 ,描 述 如 何 扩 展 和 配 置 基 础 系 统 以 运 行 特 定 程 序 。 Docker Hub 能 够 共享 这 些 图 像 , 并 对 其 进 行 版 本 化 , 以 捕 捉 想 法 和 分 析 的 演 变 。 一 个 有效 的 选 择 是 在 本 地 项 目 中 使 用 现 有 的 Docker 图 像 , 比 如 Kaggle 提 供的 图 像 。 它 已 经 包 含 了 许 多 图 书 馆 , 由 于 其 受 欢 迎 被 视 为 事 实 上 的 标准 数 据 科 学 环 境 。

6 结 论在 本 文 中 , 我 们 汇 编 了 关 于 如 何 构 建 数 据 科 学 项 目 的 最 佳 实 践 。 它 们

来 自 三 个 不 同 的 来 源 , 因 此 , 学 术 界 和 工 业 界 对 这 个 问 题 的 不 同 处 理方 法 层 出 不 穷 。 我 们 总 结 了 一 些 常 见 的 方 面 , 如 捕 捉 项 目 的 发 展 、 原始 数 据 和 中 间 数 据 的 分 离 , 或 处 理 工 作 流 程 的 正 式 描 述 。 这 项 工 作 的主 要 贡 献 归 结 为 以 下 几 个 方 面 。 首 先 , 我 们 打 算 让 人 们 和 组 织 意 识 到公 共 数 据 科 学 项 目 的 需 求 和 好 处 。 第 二 , 我 们 提 供 了 一 项 调 查 , 并 提供 了 有 关 这 一 主 题 的 热 门 信 息 来 源 的 链 接 。 最 后 , 提 出 了 这 方 面 的 建议 清 单 。 这 一 贡 献 的 预 期 用 途 是 支 持 数 据 科 学 项 目 结 构 的 决 策 和 实 施 。我 们 声 称 , 数 据 科 学 项 目 结 构 应 被 视 为 能 够 以 可 理 解 的 方 式 实 现 和 支持 研 究 成 果 交 流 的 沟 通 工 件 之 一 。

在 我 们 未 来 的 研 究 中 , 我 们 计 划 利 用 这 项 工 作 为 在 我 们 的 办 公 设 施 中进 行 的 数 据 科 学 项 目 确 定 一 个 通 用 的 、 正 式 的 结 构 。

献花(0)
+1
(本文系方建勇首藏)