Yahoo Pig 是一个运行在Hadoop(Doug Cutting 在06年3月份加入了Yahoo )上的并行处理架构,有了Pig 使得普通的程序员具有了分析处理gigantic数据集的能力。 Pig目前还是apache的一个孵化器项目, Pig 主页:http://incubator./pig/ Pig wiki:http://wiki./pig/ Yahoo Pig 有如下特点: 1、专注于于大量数据集分析(ad-hoc analysis , ad-hoc 代表:a solution that has been custom designed for a specific problem ); 2、运行在集群的计算架构上,Yahoo Pig 提供了多层抽象,简化并行计算让普通用户使用;这些抽象完成自动把用户请求queries翻译成有效的并行评估计划,然后在物理集群上执行这些计划; 3、提供类似 SQL 的操作语法; 4、开放源代码;