我在忙什么呢?最近我在研究各种工具产品的智能化趋势,数据的充沛、算法的成熟,以往我们pc互联网创造的工具都有被改造一遍的可能。 我最看重几个机制,比如数据存储与应用分离、模块化、流程自动化、个人/开发者生产内容、平台与插件生态等等。 这些机制理解起来非常简单,但是可以诞生非常强大的复杂系统/生态。 简单的才是最有效的解决方案。 我喜欢关注各种代码的核心运行机制,欣赏开发者所具备的创造力跟想象力。推荐今天看到一个不错的python库。用于日常的数据挖掘工作非常不错。 Vaex是一个开源的DataFrame库。 先感受下速度,如果在笔记本电脑上运行: Pandas将按每秒数百万字符串的顺序进行; Spark将以每秒1000万个字符串的顺序执行; Vaex每秒可以处理大约1亿个字符串; Vaex可以对表格数据集进行可视化、探索、分析,甚至机器学习,这些数据集和你的硬盘驱动器一样大。它可以在一个n维网格上每秒计算超过10亿(10^9)个对象的平均值、和、计数、标准差等统计信息。 可视化使用直方图、使用直方图、密度图和3D立体渲染进行可视化。为此,Vaex采用了内存映射、高效的外核算法和延迟计算等概念来获得最佳性能(不浪费内存)。所有这些都封装在一个类似Pandas的API中。 GitHub: https://github.com/vaexio/vaex 有兴趣建议尝试下哈~ 最后,mixlab第12期活动开始啦 https://www./event/9521928020400 |
|
来自: Mixlab交叉学科 > 《待分类》