LOAD DATA [LOW_PRIORITY | CONCURRENT] [LOCAL] INFILE 'file_name.txt' [REPLACE | IGNORE] INTO TABLE tbl_name [FIELDS [TERMINATED BY 'string'] [[OPTIONALLY] ENCLOSED BY 'char'] [ESCAPED BY 'char' ] ] [LINES [STARTING BY 'string'] [TERMINATED BY 'string'] ] [IGNORE number LINES] [(col_name_or_user_var,...)] [SET col_name = expr,...]]
LOAD DATA INFILE 语句以很高的速度从一个文本文件中读取行到一个表中。文件名必须是一个文字字符串。 关于 INSERT 与 LOAD DATA INFILE 的效率和提高 LOAD DATA INFILE 速度的更多信息,参考管理员手册中的加速 INSERT 语句 。 系统变量 character_set_database 所指出的字符集被用来解释文件中的信息。SET NAMES 和设置 character_set_client 不会影响输入的解释。 用户也可以使用 import 实用程序装载数据文件;它通过发送一个 LOAD DATA INFILE 命令到服务器来实现。--local 选项使得 import 从客户端主机读取数据文件。如果客户端与服务器支持压缩协议,用户可以指定 --compress 选项,以在较慢的网络中获得更好的性能。参考管理员手册中的 import — 数据导入程序 。 如果用户指定关键词 LOW_PRIORITY,LOAD DATA 语句的执行将会被延迟,直到没有其它的客户端正在读取表。 如果一个 GSSYS 表满足同时插入的条件(即该表在中间有空闲块),并且您对这个 GSSYS 表指定了 CONCURRENT,则当 LOAD DATA 正在执行时,其它线程会从表中重新获取数据。即使没有其它线程在同时使用本表格,使用本选项也会略微影响 LOAD DATA 的性能。 如果指定了 LOCAL 关键字,它将对连接的客户端做出解释:
出于安全的原因,当读取位于服务器上的文本文件时,文件必须位于数据库目录下或者可以被所有用户读取。也就是说,当对服务器上的文件执行 LOAD DATA INFILE 时,用户必须获得 FILE 权限。 参考管理员手册中的 GBase 提供的权限 。 与服务器直接访问文件相比,使用 LOCAL 速度稍微慢些,这是因为文件的内容必须通过客户端到服务器的连接传送。另一方面,对于本地文件,不需要获得 FILE 权限。 只有服务器和客户端都允许时,LOCAL 才可以工作。例如,如果 kernel 启动时,--local-infile=0,则 LOCAL 不能工作。参考管理员手册中的 LOAD DATA LOCAL 的安全问题 。 REPLACE 和 IGNORE 关键字处理那些与已存在的主键值重复的输入记录。 如果指定了 REPLACE,输入行将会代替已存在的行(也就是说,主索引值相同的行将作为存在的行)。参考 REPLACE 语法 。 如果指定了 IGNORE,与已存在行主键值重复的输入行将被跳过。如果不指定二者中的任一个,则操作行为将依赖是否指定了 LOCAL 关键字。没有指定 LOCAL,则如果发现有重复的键值,将产生一个错误,并忽略文本文件的其余部分。如果指定了 LOCAL,则缺省的操作行为将与指定了 IGNORE 的相同;这是因为,在操作过程中,服务器没有办法终止文件的传送。 如果希望装载操作中忽略外键约束,可以在执行 LOAD DATA 之前执行 SET FOREIGN_KEY_CHECKS=0 语句。 如果用户在一个空的 GsSYS 表上使用 LOAD DATA INFILE,所有非唯一索引会以分批方式被创建(就像 REPAIR)。当有许多索引时,这通常可以使 LOAD DATA INFILE 更快一些。正常情况下非常快,但也有极端的情况,用户可以通过在装载文件之前使用 ALTER TABLE .. DISABLE KEYS 关闭它们和在装载文件之后使用 ALTER TABLE .. ENABLE KEYS 重建索引,从而加速索引创建。参考管理员手册中的加速 INSERT 语句 。 LOAD DATA INFILE 是 SELECT ... INTO OUTFILE 的反操作。参考 SELECT 语法 。 使用 SELECT ... INTO OUTFILE 将数据从一个数据库写到一个文件中。使用 LOAD DATA INFILE 读取文件到数据库中。两个命令的 FIELDS 和 LINES 子句的语法是一样的。两个子句都是可选的,但是如果两个同时被指定,FIELDS 子句必须出现在 LINES 子句之前。 如果用户指定一个 FIELDS 子句,它的子句 (TERMINATED BY、[OPTIONALLY] ENCLOSED BY 和 ESCAPED BY) 也是可选的,不过,用户必须至少指定它们中的一个。 如果用户没有指定一个 FIELDS 子句,缺省时如同使用下列语句:
如果用户没有指定一个 LINES 子句,缺省时如同使用下列语句:
换句话说,当读取输入时,缺省的 LOAD DATA INFILE 表现如下:
如果所有的将要读取的行都有用户希望忽略的前缀,可以使用 LINES STARTING BY 'prefix_string' 来跳过此前缀(和在它前面的任何内容)。如果一个行没有此前缀,则整个行都被跳过。注意,prefix_string 可能在行的中间! 例如:
用它读取包含有下面内容的文件: xxx"Row",1 something xxx"Row",2 则可以得到数据(“row”,1)和(“row”,2)。 IGNORE number LINES 这个选项可以用来忽略文件开头部分的行。例如,可以用 IGNORE 1 LINES 来跳过含有列名的的头一行:
当用户一前一后地使用 SELECT ... INTO OUTFILE 和 LOAD DATA INFILE 将数据从一个数据库写到一个文件中,然后再从文件中将它读入数据库中时,两个命令的字段和行处理选项必须匹配。否则,LOAD DATA INFILE 将不能正确地解释文件内容。假设用户使用 SELECT ... INTO OUTFILE 以逗号分隔字段的方式将数据写入到一个文件中:
为了将由逗号分隔的文件读回时,正确的语句应该是:
如果用户试图用下面所示的语句读取文件,它将不会工作,因为命令 LOAD DATA INFILE 以定位符区分字段值:
可能的结果是每个输入行将被解释为一个单独的字段。 LOAD DATA INFILE 也可以被用来读取外部源获得的文件。例如,dBASE 格式的文件,字段以逗号分隔并以双引号包围着。如果文件中的行以一个换行符终止,那么下面所示的可以说明用户将用来装载文件的字段和行处理选项:
任何字段和行处理选项都可以指定一个空字符串('')。如果不是空的,FIELDS [OPTIONALLY] ENCLOSED BY 和 FIELDS ESCAPED BY 值必须是一个单个字符。FIELDS TERMINATED BY 和 LINES TERMINATED BY 值可以超过一个字符。例如,为了写入由回车换行符终止的行,或读取包含这样的行的文件,应该指定一个 LINES TERMINATED BY '\r\n' 子句。 FIELDS [OPTIONALLY] ENCLOSED BY 控制字段的引用。对于输出(SELECT ... INTO OUTFILE),如果用户省略单词 OPTIONALLY,所有的字段被 ENCLOSED BY 字符包围。这样的一个输出文件(以一个逗号作为字段分界符)示例如下: "1","a string","100.20" "2","a string containing a , comma","102.20" "3","a string containing a \" quote","102.20" "4","a string containing a \", quote and comma","102.20" 如果用户指定 OPTIONALLY,ENCLOSED BY 字符仅被用于包装诸如含有字符串类型的字段(诸如 CHAR,BINARY,TEXT 或 ENUM): 1,"a string",100.20 2,"a string containing a , comma",102.20 3,"a string containing a \" quote",102.20 4,"a string containing a \", quote and comma",102.20
1,"a string",100.20 2,"a string containing a , comma",102.20 3,"a string containing a " quote",102.20 4,"a string containing a ", quote and comma",102.20 对于输入,ENCLOSED BY 字符如果存在,它将从字段值的尾部被剥离。(不管 OPTIONALLY 是否被指定,都是这样;对于输入解释,OPTIONALLY 不会影响它。)如果在 ENCLOSED BY 字符前存在 ESCAPED BY 字符,那么它将被解释为当前字段值的一部分。 如果字段以 ENCLOSED 字符开始,只要后面紧跟着字段或行 TERMINATED BY 序列 ,这个字符实例就被认为用来终止一个字段值。为了明确,如果在字段中要使用 ENCLOSED BY 字符,可以重复写两遍该字符,那么它们会被解释成单个 ENCLOSED BY字符处理。例如,如果指定 ENCLOSED BY '"',引号将做如下处理: "The ""BIG"" boss" -> The "BIG" boss The "BIG" boss -> The "BIG" boss The ""BIG"" boss -> The ""BIG"" boss FIELDS ESCAPED BY 控制如何写入或读出特殊字符。如果 FIELDS ESCAPED BY 字符不是空的,它将被用于做为下列输出字符的前缀:
如果 FIELDS ESCAPED BY 字符为空,那么将没有字符被转义并且 NULL 值仍输出为 NULL,而不是 \N。指定一个空的转义字符可能不是一个好的方法,特别是用户的数据字段值中包含刚才列表中的任何字符时。 对于输入值,如果 FIELDS ESCAPED BY 字符不是空字符,则出现这种字符时会被剥离,然后以下字符被作为字段值的一部分。例外情况是,被转义的‘0’或‘N’(例如, \0 或 \N,此时转义符为‘\’)。这些序列被理解为 ASCII NUL(一个零值字节)和 NULL。用于 NULL 处理的规则在本节的后部进行说明。 关于更多的 “\” 转义语法信息,查看文字值 。 在某些情况下,字段与行处理相互作用:
下面的例子将装载 persondata 表的所有列:
默认情况下,当 LOAD DATA INFILE 语句后没有提供字段列时,那么 LOAD DATA INFILE 认为输入行包含表列中所有的字段。如果用户希望装载表中的某些列,那指定一个字段列表:
如果输入文件的字段顺序不同于表中列的顺序,用户也必须指定一个字段列表。否则 GBase 不知道如何将输入字段与表中的列匹配。 Column 列表可以包含列名或者用户变量,并且支持 SET 子句。这使得能用输入值给用户变量赋值, 并在赋予列的结果之前对这些值进行变换。 SET 子句中的用户变量有多种用途。下面的例子将数据文件的第一列直接作为 t1.column1 的值,并将第二列赋予一个用户变量,此变量在作为 t2.column2 的值之前进行一个除法操作
SET 子句可以提供不是来源于输入文件的值。下面的语句将 column3 设置为当前的日期和时间:
通过将一个输入值赋予一个用户变量,可以将此输入值丢弃,并且不将此值赋予表的一个列:
使用列/变量列表和SET子句要受到一下限制:
当处理输入行时,LOAD DATA 将行分为域,如果提供了列/变量列表和 SET 子句,将按照它去使用这些值。然后得到的行就插入到表中。如果此表有 BEFORE INSERT 或 AFTER INSERT 触发器,则插入行前后将分别激活它们。 如果输入的记录行有太多的字段,多余的字段将被忽略,并增加警告的数目。 如果一个输入行的字段较少,没有输入字段的列将被设置为缺省值。缺省值赋值在 CREATE TABLE 语法 中被描述。 一个空的字段值不同于字段值丢失的解释:
如果在一个 INSERT 或 UPDATE 语句中明确地将一个空字符串赋给一个字符串、数字或日期或时间类型,用户会得到与上面相同的结果。 只有在两种情况下 TIMESTAMP 列被设置为当前日期和时间。一种情况时当列有一个 NULL 值(也就是 \N)时;另一种情况是(仅对于第一个TIMESTAMP 列),当一个字段清单被指定时,TIMESTAMP 列会从字段清单中被略去。 LOAD DATA INFILE 认为所有的输入均是字符串,因而,对于 ENUM 或 SET 列,用户不能以 INSERT 语句的形式为其设置数字值。所有的 ENUM 和 SET 必须以字符串指定! 当 LOAD DATA INFILE 查询结束时,它返回信息字符串,格式如下:
|
|