分享

现实中的数据科学:五个方面的挑战和痛点

 pan_da_ge 2023-05-07 发布于北京

据科学在算法、算力和数据的推动下蓬勃发展,成为当今热门的话题。通过处理、分析和挖掘海量数据,使我们能够深入了解用户行为、市场趋势和社会动态等,并借鉴不同领域的知识为问题解决和创新提供新的方法和工具。

数据科学的重要性体现在基于数据的决策、问题解决和创新驱动方面。它提供了可靠的决策依据,帮助提高效率和降低风险,同时揭示趋势和模式,为未来做出准确预测。此外,数据科学还促进业务流程优化,实现资源的最大化利用。

图片

随着算法复杂度、数据规模和复杂性的增加、特别数据科学的过程比较长(涉及技术点和角色比较多),在数据科学过程面临着巨大的挑战和痛点,这些挑战包含五个方面:业务理解、数据(数据孤岛、数据质量、数据集成)、沟通(团队内和高层管理者)、工具碎片化、安全的挑战等。解决这些问题将是数据科学未来发展的关键,也是确保数据科学能够充分发挥其潜力和价值的关键。

1. 理解业务的本质至关重要

  • 业务理解缺失或不够重视

缺乏对业务问题的充分理解是数据科学家普遍遭遇的难题。他们常常在没有深入了解业务背景的情况下,过于专注于模型构建和数据分析。数据科学家必须深入理解业务问题,并根据数据为其开发解决方案。仅仅花时间在数据集、模型上并不能真正理解业务问题的本质。

数据科学家所需具备的一系列技能、知识和能力的清单起到了重要的作用,帮助他们了解关键问题,并与执行管理层进行有效的沟通和互动。缺乏适当的沟通往往会导致构建和实施的工作流与业务问题不一致,进而产生不准确的结果。

最近的一项Gartner研究发现,数据科学家在没有与管理层充分沟通的情况下执行模型,与业务目标产生矛盾。因此,双方都需要了解业务问题,只有这样,数据科学家才能从数据中得出深刻的见解,并为业务决策提供有价值的洞察。

  • 模型的可解释性差和偏见

由于模型采用了复杂的算法或结构,使其内部逻辑难以直观地解释。很多时候难以理解模型如何得出具体的结果或预测,特别是面对业务相关人时有时难以解释模型的细节问题或具体预测逻辑,这对数据科学家造成比较的挑战。

模型的偏见意味着模型在数据处理和预测中可能存在的倾向或不公正。模型的偏见可能源于数据集的不完整性、采样偏差、特征选择等因素,导致模型对某些特定群体或属性的预测结果不准确或有偏差。数据科学家需要采取措施来纠正或减少其影响,以实现更公平和准确的预测。

2. 数据面临的诸多挑战

  • 数据孤岛

数据孤岛是数据行业长期存在的难题,尽管出现了许多技术解决方案如数据仓库、数据平台和数据湖,但由于多种原因,数据孤岛问题仍然普遍存在。克服数据孤岛是数据科学所面临的主要挑战之一,需要采取综合策略,包括数据整合、标准化和流程优化,以实现数据的高效流动和综合分析。

图片
  • 数据质量

数据质量是指数据的准确性和完整性。如果数据不准确,模型的准确度会大打折扣,模型的准确度与数据质量密切相关,高质量的数据能够提升模型的准确性。数据质量的主要挑战包括:

  1. 数据准确性:确保数据的正确性、真实性和准确性,解决不正确、重复和缺失数据等问题。
  2. 数据完整性:保证数据包含所有必需的信息,解决数据不完整和无关数据的挑战。
  3. 数据及时性:确保数据是最新的,解决过时数据带来的问题。
  4. 数据一致性:保证不同数据源之间的数据可靠性和一致性,解决不同数据格式、重复数据以及结构化和非结构化数据的挑战。
  5. 数据安全性:确保数据的完整性和未被篡改,解决数据被篡改或泄露的问题。

图片

3. 沟通是成功的关键

  • 与高管的沟通

与非领域人员相比,数据科学家具备技术理解能力,但业务目标理解不足,与高级管理层沟通缺乏造成数据科学技术指标偏差和业务目标的误解。另外以为数据科学是万能,很容易对数据科学抱有不切实际的期望。数据科学家如何与高层管理者进行合理沟通,如何达成切合实际的目标及符合业务目标的技术方案,对从事数据科学的人员现实挑战。

图片

虽然数据科学家被描述为21世纪最性感的工作,但是现实中工作并不性感:解释工作的不性感并将人们的期望降低到合理范围内可能是工作中最艰难、最痛苦的部分之一。

  • 跨团队沟通

数据科学过程是一个团队活动的过程,团队的角色包括数据工程师、数据分析是、机器学习工程师、数据科学家以及业务专家。这些角色由于技术差异/任务内容不同,他们在数据科学过程经常在他们之间造成摩擦。例如,与数据工程师相比,数据科学家可以从不同的角度处理问题。公司面临着简化这些差异的挑战,如果处理不当,它们可能会阻碍团队取得富有成效的成果。

与技术专家和非技术团队之间进行有效沟通,以促进合作和共享理解。

图片

4. 碎片化工具造成障碍

  • 碎片化工具支持困难

由于历史使用和个人偏好导致的工具碎片化和知识碎片化,使得先前的工作难以发现并且难以与合作伙伴共享结果。在实施数据科学过程中,需要在多个工具之间切换,而且协作困难,从而妨碍了生产力。

数据科学领域存在各种零散的工具和技术,用于不同的任务和目标,但缺乏整合和统一的框架。这种碎片化可能涉及不同的编程语言、统计软件、数据可视化工具、机器学习算法库等。数据科学从业者需要根据具体需求选择和使用这些工具,同时也需要花费时间和精力来适应和学习不同的工具和技术,以完成数据分析和建模任务。

下图是LinkedIn的数据科学平台架构图,旨在通过构建统一的数据科学平台来应对工具碎片化的挑战。

图片
图片
来源:https://engineering.linkedin.com/blog/2022/darwin--data-science-and-artificial-intelligence-workbench-at-li

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多