pig实战 pig常用语法总结，教你快速入门

书剑阁2013 2015-05-20

展开全文

　　本文主要来源于google资料的自我总结，对常用的pig语法即“算法”进行了总结

基础概念：
　　relation bag tuple field data
　　关系(relation) = 包(bag)
　　一个包是一个元组(tuple）的集合,在pig中用{}扩起来表示一个包
　　一个元组(tuple)是若干个字段的有序集合(order set),在pig的数据结构中，用()扩起来标识一个元组
　　一个字段(field)是列数据(data)的标识；

　　和数据库的对应关系：
　　　　pig database
　　　　relation/bag table
　　　　tuple one record
　　　　field field(one volume)

　　但是pig中tuple的字段数是随意的，这点和数据库不同

运行模式以及注释：
　　1、运行模式
　　　　a) 本地
　　　　　　i. pig –x local
　　　　b) 集群
　　　　　　i. pig –x mapreduce
　　　　　　ii. 或者pig
　　　　c) 批处理命令
　　　　　　i. 将命令批量写入xx.pig
　　　　　　ii. 用本地或者集群模式运行，如pig xx.pig

　　2、注释
　　　　a) 段落注释：/**/
　　　　b) 行注释: --

基本用法框架：
　　a) 输入
　　　　i. A = Load ‘输入路径’ USING PigStorage(“\t”) AS (name:chararray, age:int, gpa:float);
　　　　ii. 逻辑：用pig自带的PigStorage读入输入路径的数据，对每一行用”\t”分割，并用字符串类型的name、int类型的age、float类型的gpq作为每行数据的字段名
　　b) 中间处理
　　　　i. B = FOREACH A GENERATE name;
　　c) 输出
　　　　i. DUMP B; --输出到控制台
　　　　ii. 或者STORE B INTO ‘输出路径’ USING PigStorage();

基本语法实例：
　　　　1、计算多维度组合下的平均值的实际例子
　　　　　　需求：求文件中第2、3、4组合的第4、5列的平均值
　　　　　　脚本解释：
　　　　　　　　A = Load '1.txt' USING PigStorage(' ') AS(col1:chararray, col2:int, col3:int, col4:int, col5:double, col6:double);
　　　　　　　　将1.txt中的每行数据用" "分割，然后安装(col1:chararray, col2:int, col3:int, col4:int, col5:double, col6:double)解析数据，并装载到每个bag/tuple/filed
　　　　　　　　col1是每列的别名，如果不指定，在后面可以用$0,$n来索引，但是可读性较差

　　　　　　　　A的结构是{col1:chararray, col2:int, col3:int, col4:int, col5:double, col6:double)}

　　　　　　　　B = GROUP A BY (col2, col3, col4);
　　　　　　　　对A用col2/col3/col4的组合进行分组，然后按组将每条tuple汇集成一个bag，
　　　　　　　　B的数据结构是B:{group:(col2,col3,col4),A:bag{:tuple,tuple}}

　　　　　　　　C = FOREACH B GENERATE group, AVG(col5), AVG(col6);
　　　　　　　　FOREACH是遍历每个组中汇集的tuple，并对其用组合函数处理字段
　　　　　　　　C的结构是C:{group:(col2,col3,col4),double,double}

　　　　　　　　DUMP C；//单机运行打印调试信息
　　　　　　　　STORE C INTO “output”;//存储结果

　　　　2、统计行数
　　　　　　　A = LOAD '1.txt' USING PigStorage (' ‘) AS(col1:chararray, col2:int, col3:int, col4:int, col5:double, col6:double);
　　　　　　　B = GROUP A all;
　　　　　　　C = FOREACH B GENERATE COUNT(col2);
　　　　　　　DUMP C;
　　　　　　　注意：如果col2这一列有NULL，则这一行将不会被统计。
　　　　　　　　GROUP A all;没有by关键字。
　　　　　　　　If you want to include NULL values in the count computation, use COUNT_STAR.

　　　　3、FLATTEN
　　　　　　同1中的例子，但是C不同
　　　　　　C = FOREACH B GENERATE FLATTEN(group), AVG(col5), AVG(col6);
　　　　　　1中的例子得到的结果结构是(col2, col3, col4),avg1,avg2
　　　　　　但是对group作用FLATTEN后结构变为col2,col3,col4,avg1,avg2；可以看出FLATTEN的作用是解嵌套(un-nest)包或者元组tuple，

　　　　4、GROUP的两点说明：
　　　　　　a)用于GROUP的key如果多于一个字段（正如本文前面的例子），则GROUP之后的数据的key是一个元组（tuple），否则它就是与用于GROUP的key相同类型的东西
　　　　　　b)GROUP后得到的结果是一个包或者是relation,其包含的每一个tuple中包含两个字段，第一个字段被命名为'group'，第二个字段是一个包，是含有group对应值的所有tuple的set

　　　　5、把数据作为tuple来加载
　　　　　　语法：A = LOAD '1.txt' AS (T: tuple(col1:chararray, col2:int, col3:int,col4:int, col5:double, col6:double);
　　　　　　用describe A；可以查看A的结构。
　　　　　　注意：输入的数据必须是(xx,xx,xx...xx)的结构才能以元组的形式被加载，适用于中间结果的进一步处理

　　　　6、计算多维组合中不重复记录的条数
　　　　　　C = FOREACH B GENERATE (D = DISTINCT col5; group, COUNT(D));
　　　　　　说明：distinct后跟一个字段即可，如果这个字段不同，则肯定不重复，而如果重复，此字段肯定相同，而且重命名D要用等号，后面跟;

　　　　7、将relation转为表量scalar

　　　　8、在pig中使用shell脚本进行辅助处理
　　　　　　A = LOAD ‘2.txt' AS (col1:int, col2:int, col3:int, col4:chararray, col5:int);
　　　　　　B = STREAM A THROUGH `awk '{if($4 == "=") print $1"\t"$2"\t"$3"\t"999"\t"$5; else print $0}'`;
　　　　　　DUMP B；
　　　　　　作用：将第4列中的"="换成999

　　　　9、向pig脚本传参：
　　　　　　语法：pig -param output_dir="/xxx" xxx.pig;
　　　　　　而在xxx.pig中STORE D INTO ‘$output_dir’；

　　　　10、COGROUP的作用：
　　　　　　对两个关系中的包，分别按制定的字段进行分组
　　　　　　A = LOAD '3.txt' AS (acol1:chararray, acol2:int, acol3:int);
　　　　　　B = LOAD '4.txt' AS (bcol1:int, bcol2:chararray, bcol3:int);
　　　　　　C = COGROUP A BY A.acol1, B BY B.bcol2;
　　　　　　DUMP C;
　　　　　　结果的结构{key,{A's one tuple or null},{B's ont tuple or null}};
　　　　　　按A的第一行和B的第二行的值，分别对A、B进行分组组合，如果A中的tuple含有此key则显示在结果中，如果没有则为{},B也一样

　　　　11、piggybank
　　　　　　自定义函数的名称为piggybank

　　　　12、UDF的构造函数会被调用多次，所以在其中做一次工作时要特别小心

　　　　13、LOAD多个目录下的数据
　　　　　　LOAD '/data/201{1,2}'
　　　　　　load/data/2011 /data/2012两个目录下的数据

　　　　14、GROUP 函数不会忽略NULL值，而COUNT会

　　　　15、统计某些字段组合的种数：
　　　　　　A = LOAD '15.txt' AS (col1:int, col2:int);
　　　　　　B = GROUP A BY (col1, col2);
　　　　　　C = GROUP B ALL;
　　　　　　D = FOREACH C GENERATE COUNT(B);
　　　　　　DUMP D;
　　　　　　思路：先根据需求对数据进行分组，然后对分组COUNT；
　　　　　　注意：
　　　　　　　　a)D中COUNT的是B，因为通过C将所有的数据组为一个新的关系，只包含一个tuple，第一个字段为ALL，第二个字段是B的所有tuple组成的一个bag。
　　　　　　　　b)COUNT作用的对象必须是一个bag，所以在统计字段前，要用GROUP X ALL,将X中所有的tuple组成一个bag

　　　　16、两个整数相除，如何得到一个float
　　　　　　A = LOAD '16.txt' AS (col1:int, col2:int);
　　　　　　B = FOREACH A GENERATE (float)col1/col2;
　　　　　　DUMP B;
　　　　　　注意先转型在计算，而不是(float)(col1/col2);

　　　　17、UNION两个数据进行统计
　　　　　　A = LOAD '1.txt' AS (col1:int, col2:int);
　　　　　　B = LOAD '2.txt' AS (col3:int, col4:int);
　　　　　　C = UNION A, B;
　　　　　　D = GROUP C BY $0;
　　　　　　E = FOREACH D GENERATE group, SUM(C.$1);
　　　　　　#E = FOREACH D GENERATE FLATTEN(group), SUM(C.$1);
　　　　　　DUMP E;
　　　　　　注意：
　　　　　　　　UNION操作是给关系添加新的tuple，而且UNION后注意观测filed的引用方法，见结构篇
　　　　　　　　多个关系时，对列的操作要指定关系名

　　　　18、正则表达式过滤
　　　　　　过滤出符合*//*.qq.com/*的url
　　　　　　A = LOAD '18.txt' AS (col1:int, col2:chararray);
　　　　　　B = FILTER A BY col2 matches '.*//.*\\.qq\\.com/.*';
　　　　　　说明：.*标识至少一个字符
　　　　　　而匹配.字符要进行转义\.，而在''内转义要用两个\\. ;

　　　　19、截取字符串：
　　　　　　SUBSTRING(col1, 0, 4):0为startIndex,4为stopIndex，不包含stopIndex;

　　　　　　A = LOAD '19.txt' AS (dataStr:chararray, col2:chararray);
　　　　　　B = FOREACH A GENERATE SUBSTRING(dataStr,0,4);
　　　　　　C = DISTINCT B;
　　　　　　DUMP C;

　　　　20、连接字符串：
　　　　　　A = LOAD ‘20.txt' AS (col1:chararray, col2:int);
　　　　　　B = FOEACH A GENERATE CONCAT(col1, (chararray)col2);
　　　　　　DUMP B;
　　　　　　注意：连接的字段类型必须是chararray，如果不是要转型
　　　　　　　　嵌套使用：CONCAT(A,CONCAT(B,C);

　　　　21、用JOIN求两个数据集的交集&不同数据类型交集会失败
　　　　　　A = LOAD '211.txt' AS (a:int);
　　　　　　B = LOAD '212.txt' AS (b:int);
　　　　　　C = JOIN A BY a, B BY b;
　　　　　　D = GROUP C ALL;
　　　　　　E = FOREACH D GENERATE COUNT(C);
　　　　　　DUMP E;
　　　　　　JOIN后C的结构为：C:{A::a:int, B::b:int}

　　　　　　去重：
　　　　　　　　A = LOAD '211.txt' AS (a:int);
　　　　　　　　B = LOAD '212.txt' AS (b:int);
　　　　　　　　C = JOIN A BY a, B BY b;
　　　　　　　　uniq_C = DISTINCT(C);
　　　　　　　　D = GROUP uniq_C ALL;
　　　　　　　　E = FOREACH D GENERATE COUNT(C);
　　　　　　　　DUMP E;

　　　　22、三目运算符使用必须使用():用来替换空值
　　　　　　B = FOREACH A GENERATE ((col1 is null) ? -1 : col1)

　　　　23、如何在得到计算结果后，补齐空白
　　　　　　A = LOAD ‘23.txt' AS (col1:int, b:tuple(col2:int, col3:int);
　　　　　　B = FOREACH A GENERATE col1, FLATTEN(b);
　　　　　　C = GROUP B BY B.col1;
　　　　　　D = FOREACH C GENERATE group, SUM(B.col1) AS sum;
　　　　　　E = FOREACH D GENERATE group, ((sum is null) ? 0 : sum);
　　　　　　DUMP E;

　　　　24、DISTINCT操作用于去重，正因为它要把数据集合到一起，才知道哪些数据是重复的，因此，它会产生reduce过程。同时，在map阶段，它也会利用combiner来先去除一部分重复数据以加快处理速度。

　　　　25、提高Pig job的优先级：set job.priority HIGH;提高Pig job的运行速度

　　　　26、“Scalars can be only used with projections”错误和嵌套/inner FOREACH
　　　　　　在第一列的每种组合中，第二列为3/6的数据分别有多少条

　　　　　　A = LOAD ’26.txt' AS (col1:chararray, col2:int);
　　　　　　B = GROUP A BY col1;
　　　　　　C = FOREACH B {
　　　　　　　　D = FILTER A BY col2 == 3;
　　　　　　　　E = FILTER A BY col2 == 6;
　　　　　　GENERATE group, COUNT(D), COUNT(E)；};
　　　　　　DUMP C;

　　　　27、在grunt模式下按Ctrl+A 和 Ctrl+E 代替 HOME 和 END，就可以跳到行首和行末了

　　　　28、同一个关系进行JOIN连接必须导入两次，做连接，否则出错

　　　　29、外链接JOIN
　　　　　　LEFT：左边的数据全量显示

　　　　　　A = LOAD '291.txt' AS (col1:int, col2:chararray);
　　　　　　B = LOAD '292.txt' AS (col1:int, col2:chararray);
　　　　　　C = JOIN A BY col1 LEFT, B BY col1;
　　　　　　DESCRIBE C;
　　　　　　DUMP C;
　　　　　　这个和数据库的左右连接和内链接一致

　　　　30、pig中支持过滤中文，但是在交互模式下不行

　　　　31、统计 tuple 中的 field 数，bag 中的 tuple 数，map 中的 key/value 组数用SIZE函数

　　　　32、字符此为null 用col is null来判断，但是不能过滤" "，" " 过滤要用SIZE(xx)>0
　　　　　　FILTER A BY (col1 is not null AND (SIZE(col2) > 0));

　　　　33、Pig中的各operator（操作符），哪些会触发reduce过程
　　　　　　GROUP：由于GROUP操作会将所有具有相同key的记录收集到一起，所以数据如果正在map中处理的话，就会触发shuffle→reduce的过程。
　　　　　　ORDER：由于需要将所有相等的记录收集到一起（才能排序），所以ORDER会触发reduce过程。同时，除了你写的那个Pig job之外，Pig还会添加一个额外的M-R job到你的数据流程中，因为Pig需要对你的数据集做采样，以确定数据的分布情况，从而解决数据分布严重不均的情况下job效率过于低下的问题。
　　　　　　DISTINCT：由于需要将记录收集到一起，才能确定它们是不是重复的，因此DISTINCT会触发reduce过程。当然，DISTINCT也会利用combiner在map阶段就把重复的记录移除。
　　　　　　JOIN：JOIN用于求重合，由于求重合的时候，需要将具有相同key的记录收集到一起，因此，JOIN会触发reduce过程。
　　　　　　LIMIT：由于需要将记录收集到一起，才能统计出它返回的条数，因此，LIMIT会触发reduce过程。
　　　　　　COGROUP：与GROUP类似（参看本文前面的部分），因此它会触发reduce过程。
　　　　　　CROSS：计算两个或多个关系的叉积。

　　　　34、如何统计一个字符串中包含的指定字符数
　　　　　　shell 脚本 awk -F ":" '{print NF - 1}'
　　　　　　以:分割字符串，然后打印总的volume数