分享

nature杂志给你的生物信息学数据处理11个小技巧

 健明 2021-07-14

nature杂志的TECHNOLOGY FEATURE 栏目在13 JANUARY 2020发表了一个有趣的小短文:Eleven tips for working with large data sets,副标题是:Big data are difficult to handle. These tips and tricks can smooth the way.

我简要概括一下:

珍惜您的数据

  • 多处备份原始数据

  • 冷存储

可视化

  • 一图胜千言

  • 流程里每个步骤独立质量控制,组合质量控制

工作流

结合了软件代码,文本和图形的文档,交互式报表

  • rmarkdown

  • jupyter notebook

版本控制

  • md5文件

  • zenodo

数据的描述信息

  • 描述了如何收集,格式化和组织观测

自动化

记录时间消耗

  • 大数据集需要高性能计算(HPC)

  • 云服务器提供商

系统运行环境

  • 操作系统和软件库

  • Docker容器

流程里面不要下载数据

  • 数据库文件打包在流程

学一门编程语言

善用帮助资源

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多