再上一篇:14.6过程并行化
上一篇:14.7小结
主页
下一篇:15.2外部表
再下一篇:15.3平面文件卸载
文章列表

15.1 SQL*Loader

Oracle 9i 10g编程艺术:深入数据库体系结构

SQL*Loader(SQLLDR)是Oracle的高速批量数据加载工具。这是一个非常有用的工具,可用于多种 平面文件格式向Oralce数据库中加载数据。SQLLDR可以在极短的时间内加载数量庞大的数据。它有两种 操作模式:
传统路径:(conventional path):SQLLDR会利用SQL插入为我们加载数据。 直接路径(direct path):采用这种模式,SQLLDR不使用SQL;而是直接格式化数据库块。
利用直接路径加载,你能从一个平面文件读数据,并将其直接写至格式化的数据库块,而绕过整个 SQL引擎和undo生成,同时还可能避开redo生成。要在一个没有任何数据的数据库中充分加载数据,最 快的方法就是采用并行直接路径加载。
我们不会介绍SQLLDR的方方面面。要想全面了解有关的详细内容,请参考Oracle Utilities手册, 其中有7章专门介绍Oracle 10g的DQLLDR。在这个手册中,居然用7章介绍SQLLDR,这一点确实很引入 注意,因为其他的各个实用程序(如DBVERIFY、DBNEWID和LogMiner)只占了一章或不到一章的篇幅。要 了解SQLLDR的语法和所有选项,建议你参考Oracle Utilities手册,因为本书这一章只是要回答参考手 册中没有提到的“如何……?”等问题。
需要指出,在Oracle 8.1.6 Release 1及以上版本中,Oracle调用接口(Oracle Call Interface,
OCI)允许使用C编写你自己的直接路径加载工具。如果你要执行的操作在SQLLDR中做不到,或者如果需 要SQLLDR与你的应用无缝集成,Oracle OCI就很有用。SQLLDR是一个命令行工具(也就是说,这是一个 单独的程序)。它并非一个API,例如,不能“从PL/SQL调用”。

如果不带任何输入地从命令行执行SQLLDR,它会提供以下帮助:
[tkyte@desktop tkyte]$ sqlldr
SQL*Loader: Release 10.1.0.4.0 - Production on Sat Jul 16 10:32:28 2005
Copyright (c) 1982, 2004, Oracle. All rights reserved.
Usage: SQLLDR keyword=value [,keyword=value,...]
Valid Keywords:
userid -- ORACLE username/password control -- control file name
log -- log file name bad -- bad file name data -- data file name
discard -- discard file name
discardmax -- number of discards to allow (Default all)
skip -- number of logical records to skip (Default 0)
load -- number of logical records to load (Default all)
errors -- number of errors to allow (Default 50)
rows -- number of rows in conventional path bind array or between direct path data saves
(Default: Conventional path 64, Direct path all)
bindsize -- size of conventional path bind array in bytes (Default

256000)
silent -- suppress messages during run
(header,feedback,errors,discards,partitions)
direct -- use direct path (Default FALSE)
parfile -- parameter file: name of file that contains parameter specifications
parallel -- do parallel load (Default FALSE)
file -- file to allocate extents from skip_unusable_indexes -- disallow/allow unusable indexes or index partitions
(Default FALSE)
skip_index_maintenance -- do not maintain indexes, mark affected indexes as unusable
(Default FALSE)
commit_discontinued -- commit loaded rows when load is discontinued (Default FALSE)
readsize -- size of read buffer (Default 1048576)
external_table -- use external table for load; NOT_USED, GENERATE_ONLY, EXECUTE (Default NOT_USED)
columnarrayrows -- number of rows for direct path column array (Default 5000) streamsize -- size of direct path stream buffer in bytes (Default 256000) multithreading -- use multithreading in direct path
resumable -- enable or disable resumable for current session (Default FALSE) resumable_name -- text string to help identify resumable statement resumable_timeout -- wait time (in seconds) for RESUMABLE (Default 7200) date_cache -- size (in entries) of date conversion cache (Default 1000)
...
我并不打算解释每个参数技术上的含义,而只是建议你阅读 Oracle Utilities手册,特别是Oracle
10g Utilities Guide中的第7章和Oracle9i Utilities Guide中的第4章。本书这一章会展示其中为数 不多的一些参数的用法。
要使用SQLLDR,需要有一个控制文件(control file)。 控制文件中包含描述输入数据的信息(如 输入数据的布局、数据类型等),另外还包含有关目标表的信息。控制文件甚至还可以包含要加载的数据。 在下面的例子 中,我们将一步一步地建立一个简单的控制文件,并对这些命令提供必须的解释(注意,代 码左边加括号的数并不是控制文件中的一部分,显示这些数只是为了便于 引用)。
(1) LOAD DATA
(2) INFILE *
(3) INTO TABLE DEPT
(4) FIELDS TERMINATED BY ',' (5) (DEPTNO, DNAME, LOC )
(6) BEGINDATA
(7) 10,Sales,Virginia
(8) 20,Accounting,Virginia
(9) 30,Consulting,Virginia
(10) 40,Finance,Virginia

LOAD DATA (1):这会告诉 SQLLDR要做什么(在这个例子中,则指示要加载数据)。SQLLDR 还可以执行CONTINUE_LOAD,也就是继续加载。只有在继续一个多表直接路径加载时才能使用后 面这个选项。
INFILE * (2):这会告诉 SQLLDR所要加载的数据实际上包含在控制文件本身上,如第6~
10行所示。也可以指定包含数据的另一个文件的文件名。如果愿意,可以使用一个命令行参数 覆盖这个INFILE语句。要当心,命令行选项总会涵盖控制文件设置。
INTO TABLE DEPT (3):这会告诉SQLLDR要把数据加载到哪个表中(在这个例子中,数据 要加载到DEPT表中)。
FIELDS TERMINATED BY ‘,’(4):这会告诉 SQLLDR 数据的形式应该是用逗号分隔的值。 为SQLLDR描述输入数据的方式有数十种;这只是其中较为常用的方法之一。
(DEPTNO, DNAME, LOC) (5):这会告诉 SQLLDR所要加载的列、这些列在输入数据中的顺 序以及数据类型。这是指输入流中数据的数据类型,而不是数据库中的数据类型。在这个例子 中,列的数据类型默认为CHAR(255),这已经足够了。
BEGINDATA (6):这会告诉 SQLLDR你已经完成对输入数据的描述,后面的行(第7~10行 ) 是要加载到DEPT表的具体数据。

这个控制文件采用了最简单、最常用的格式之一:将定界数据加载到一个表。这一章还会看一些复杂 的例子,不过可以从这个简单的控制文件入手,这是一个不错的起点。要使用这个控制文件(名为 demo1.ctl),只需创建一个空的DEPT表:
ops$tkyte@ORA10G> create table dept
2 ( deptno number(2) constraint dept_pk primary key,
3 dname varchar2(14),
4 loc varchar2(13)
5 )
6 /
Table created.
并运行以下命令:
[tkyte@desktop tkyte]$ sqlldr userid=/ control=demo1.ctl
SQL*Loader: Release 10.1.0.4.0 - Production on Sat Jul 16 10:59:06 2005

Copyright (c) 1982, 2004, Oracle. All rights reserved. Commit point reached - logical record count 4
如果表非空,就会收到一个错误消息:
SQLLDR-601: For INSERT option, table must be empty. Error on table DEPT

这是因为,这个控制文件中几乎所有选项都取默认值,而默认的加载选项是 INSERT(而不是APPEND、
TRUNCATE或REPLACE)。要执行 INSERT, SQLLDR就认为表为空。如果想向DEPT表中增加记录,可以指定 加载选项为APPEND;或者,为了替换DEPT表中的数据,可以使用REPLACE或TRUNCATE。REPLACE使用一 种传统DELETE语句;因此,如果要加载的表中已经包含许多记录,这个操作可能执行得很慢。TRUNCATE 则不同,它使用TRUNCATE SQL命令,通常会更快地执行,因为它不必物理地删除每一行。

每个加载都会生成一个日志文件。以上这个简单加载的日志文件如下:
SQL*Loader: Release 10.1.0.4.0 - Production on Sat Jul 16 10:59:06 2005
Copyright (c) 1982, 2004, Oracle. All rights reserved.
Control File: demo1.ctl
Data File: demo1.ctl

Bad File: demo1.bad
Discard File: none specified
(Allow all discards) Number to load: ALL Number to skip: 0
Errors allowed: 50
Bind array: 64 rows, maximum of 256000 bytes
Continuation: none specified
Path used: Conventional
Table DEPT, loaded from every logical record. Insert option in effect for this table: INSERT
Column Name Position Len Term Encl Datatype
------------------------------ ---------- ----- ---- ----
---------------------
DEPTNO FIRST * , CHARACTER
DNAME NEXT * , CHARACTER
LOC NEXT * , CHARACTER
Table DEPT:
4 Rows successfully loaded.
0 Rows not loaded due to data errors.
0 Rows not loaded because all WHEN clauses were failed.
0 Rows not loaded because all fields were null.
Space allocated for bind array: 49536 bytes(64 rows)
Read buffer bytes: 1048576
Total logical records skipped: 0
Total logical records read: 4
Total logical records rejected: 0
Total logical records discarded: 0
Run began on Sat Jul 16 10:59:06 2005
Run ended on Sat Jul 16 10:59:06 2005
Elapsed time was: 00:00:00.15
CPU time was: 00:00:00.03

日志文件会告诉我们关于加载的很多方面,从中可以看到我们所用的选项(默认或默认选项);可以
看到读取了多少记录,加载了多少记录等。日志文件指定了所有BAD文件和DISCARD文件的位置,甚至还 会告诉我们加载用了多长时间。每个日志文件对于验证加载是否成功至关重要,另外对于诊断错误也很有 意义。如果所加载的数据导致SQL错误(也就是说,输入数据是“坏的“,并在BAD文件中建立了记录), 这些错误就会记录在这个日志文件中。日志文件中的信息很大程度上不言自明,所以这里不再花时间做过 多的解释。

15.1.1用 SQLLDR加载数据的FAQ

现在来回答Oracle数据库中关于用SQLLDR加载数据最常问到的一些问题。

1. 如何加载定界数据?

定价数据(delimited data)即用某个特定字符分隔的数据,可以用引号括起,这是当前平面文件最 常见的数据格式。在大型机上,定长、固定格式的文件可能是最可识别的文件格式,但是在UNIX和NT上, 定界文件才是“标准“。在这一节中,我们将分析用于加载定界数据的常用选项。
对于定界数据,最常用的格式是逗号分隔值(comma-separated values,CSV) 格式。采用这种文件 格式,数据中的每个字段与下一个字段用一个逗号分隔。文本串可以用引号括起,这样就允许串本身包含 逗号。如果串还必须包含引号,一般约 定是使用两个引号(在下面的代码 中,我们将使用““而不是‘ ’)。

要加载定界数据,相应的典型控制文件与前面第一个例子很相似,但是FIELDS TERMINATED BY 子句通常 如下指定:
FIELDS TERMINATED BY ',' OPTIONALLY ENCLOSED BY '"'
它指定用逗号分隔数据字段,每个字段可以用双引号括起。如果我们把这个控制文件的最后部分修改
如下:
FIELDS TERMINATED BY ',' OPTIONALLY ENCLOSED BY '"'
(DEPTNO, DNAME, LOC ) BEGINDATA
10,Sales,"Virginia,USA"
20,Accounting,"Va, ""USA"""
30,Consulting,Virginia
40,Finance,Virginia

使用这个控制文件运行SQLLDR时,结果如下:
ops$tkyte@ORA10G> select * from dept;
DEPTNO DNAME LOC
---------- -------------- -------------
10 Sales Virginia,USA
20 Accounting Va, "USA"
30 Consulting Virginia
40 Finance Virginia

要特别注意以下几点:
部门10中的Virginia.USA:这是因为输入数据是“Virginia.USA”。输入数据字段必须包 括在引号里才能保留数据中的逗号。否则,数据中的这个逗号会被认为是字段结束标记,这样 就会只加载Virginia,而没有USA文本。
Va,”USA”:这是因为输入数据是“Va,””USA”””。对于引号括起的串,SQLLDR会把其中“的 两次出现计为一次出现。要加载一个包含可选包围字符(enclosure character)的串,必须保 证这个包围字符出现两次。
另一种常用的格式是制表符定界数据(tag-delimited data),这是用制表符分隔而不是逗号分割的 数据。有两种方法使用TERMINATED BY子句来加载这种数据:
TERMINATED BY X’09’(使用十六进制格式的制表符;采用ASCII 时,制表符为9) TERMINATED BY WHITESPACE
这两种方法在实现上有很大差异,下面将会说明。还是用前面的DEPT表,我们将使用以下控制文件 加载这个表:
LOAD DATA
INFILE *
INTO TABLE DEPT REPLACE
FIELDS TERMINATED BY WHITESPACE (DEPTNO, DNAME, LOC)
BEGINDATA
10 Sales Virginia

从字面上不太容易看得出来,不过要知道,在这里各部分数据之间都有两个制表符。这里的数据行实
际上是:
10\t\tSales\t\tVirginia

在此\t 是普通可识别的制表符转义字符。使用这个控制文件时(包含如前所示的 TERMINATED BY
WHITESPACE),表 DEPT中的数据将是:
ops$tkyte@ORA10G> select * from dept;
DEPTNO DNAME LOC
---------- -------------- -------------
10 Sales Virginia

TERMINATED BY WHITESPACE会解析这个串,查找空白符(制表符、空格和换行符)的第一次出现,
然后继续查找,直至找到下一个非空白符。因此,解析数据时,DEPTNO会赋给10,后面的两个制表符被认 为是空白符,Sales会赋给DNAME等。
另一方面,如果要使用FIELDS TERMINATED BY X’09’,如以下控制文件所示,这里稍做修改:
...

FIELDS TERMINATED BY X'09' (DEPTNO, DNAME, LOC )

...
可以看到DEPT中加载了以下数据:
ops$tkyte@ORA10G> select * from dept;
DEPTNO DNAME LOC
---------- -------------- -------------
10 Sales

在此,一旦SQLLDR遇到一个制表符,就会输出一个值。因此,将10赋给DEPTNO,DNAME得到了NULL,
因为在第一个制表符和制表符的下一次出现之间没有数据。Sales赋给了LOC。
这是 TERMINATED BY WHITESPACE和 TERMINATED BY <character>的有意行为。至于使用哪一种方法 更合适,这取决于输入数据以及你要如何解释输入数据。
最后,加载这样的定界数据时,很可能想逃过输入记录中的某些列。例如,你可能加载字段 1、3和5, 而跳过第2 列和第4列。为此,SQLLDR提供了FILLER关键字。这允许你映射一个输入记录中的一列,但 不把它放在数据库中。例如,给定DEPT表以及先前的最高一个控制文件,可以修改这个控制文件,使用 FILLER关键字正确地加载数据(跳过制表符):
LOAD DATA
INFILE *
INTO TABLE DEPT REPLACE
FIELDS TERMINATED BY x'09'
(DEPTNO, dummy1 filler, DNAME, dummy2 filler, LOC) BEGINDATA
10 Sales Virginia

所得到的表DEPT现在如下所示:
ops$tkyte@ORA10G> select * from dept;
DEPTNO DNAME LOC
---------- -------------- -------------
10 Sales Virginia

2. 如何加载固定格式数据?

通常会有一个有某个外部系统生成的平面文件,而且这是一个定长文件,其中包含着固定位置的数据
(positional data)。例如,NAME字段位于第1~10字节,ADDRESS字段位于地11~35字节等。我们将介 绍SQLLDR如何为我们导入这种数据。
这种定宽的固定位置数据是最适合SQLLDR加载的数据格式。要加载这种数据,使用SQLLDR是最快的 处理方法,因为解析输入数据流相当容易。SQLLDR会在数据记录中存储固定字节的偏移量和长度,因此抽 取某个给定字段相当简单。如果要加载大量数据,将其转换为一种固定位置格式通常是最好的办法。当然, 定宽文件也有一个缺点,它比简单的定界文件格式可能要大得多。
要加载定宽的固定位置数据,将会在控制文件中使用POSITION关键字,例如:
LOAD DATA
INFILE *
INTO TABLE DEPT REPLACE
( DEPTNO position(1:2), DNAME position(3:16), LOC position(17:29)
) BEGINDATA
10Accounting Virginia,USA

这个控制文件没有使用FIELDS TERMINATED BY子句;而是使用了POSITION来告诉SQLLDR字段从哪
里开始,到哪里结束。关于POSITION子句有意思的是,我们可以使用重叠的位置,可以在记录中来回反复 。 例如,如果如下修改DEPT表:
ops$tkyte@ORA10G> alter table dept add entire_line varchar(29);
Table altered.

并使用以下控制文件:
LOAD DATA
INFILE *

INTO TABLE DEPT REPLACE

( DEPTNO position(1:2), DNAME position(3:16), LOC position(17:29),
ENTIRE_LINE position(1:29)
) BEGINDATA
10Accounting Virginia,USA
字段ENTIRE_LINE定义的POSITION(1:29)。这会从所有29字节的输入数据中抽取出这个字段的数据 ,
而其他字段都是输入数据的子串。这个控制文件的输出如下:
ops$tkyte@ORA10G> select * from dept;
DEPTNO DNAME LOC ENTIRE_LINE
-------
---------- -------------- ------------- ----------------------
10 Accounting Virginia,USA 10Accounting Virginia,USA

使用POSITION时,可以使用相对偏移量,也可以使用绝对偏移量。在前面的例子中使用了绝对偏移
量,我们明确地指示了字段从哪里开始,到哪里结束。也可以把前面的控制文件写作:
LOAD DATA
INFILE *
INTO TABLE DEPT REPLACE
( DEPTNO position(1:2), DNAME position(*:16), LOC position(*:29),
ENTIRE_LINE position(1:29)

) BEGINDATA

10Accounting Virginia,USA
*指示控制文件得出上一个字段在哪里结束。因此,在这种情况下,(*:16)与(3:16)是一样的。注意 ,
控制文件中可以混合使用相对位置和绝对位置。另外。使用*表示法时,可以把它与偏移量相加。例如,如 果DNAME从DEPTNO结束之后的2个字节处开始,可以使用(*+2:16)。在这个例子中,其作用就相当于使用 (5:16)。
POSITION子句中的结束位置必须是数据结束的绝对列位置。有时,可能指定每个字段的长度更为容 易,特别是如果这些字段是连续的(就像前面的例子一样)。采用这种方式,只需告诉 SQLLDR:记录从第 1 个字节开始,然后指定每个字段的长度就行了。这样我们就可以免于计算记录中的开始和结束偏移量,这 个计算有时可能很困难。为此,可以不指定结束位置,而是指定定长记录中各个字段的长度,如下:
LOAD DATA
INFILE *
INTO TABLE DEPT REPLACE
( DEPTNO position(1) char(2), DNAME position(*) char(14), LOC position(*) char(13),
ENTIRE_LINE position(1) char(29)
) BEGINDATA
10Accounting Virginia,USA

在此只需告诉SQLLDR第一个字段从哪里开始及其长度。后面的每个字段都从上一个字段结束处开始,
并具有指定的长度。直至最后一个字段才需要再次指定位置,因为这个字段又要从记录起始处开始。

3. 如何加载日期?

使用SQLLDR加载日期相当简单,但是看起来这个方面经常导致混淆。你只需在控制文件中使用DATE 数据类型,并指定要使用的日期掩码。这个日期掩码与数据库中TO_CHAR和TO_DATE中使用的日期掩码是 一样的。SQLLDR会向数据应用这个日期掩码,并为你完成加载。
例如,如果再把DEPT表修改如下:
ops$tkyte@ORA10G> alter table dept add last_updated date;
Table altered.

可以用以下控制文件加载它:

LOAD DATA INFILE *
INTO TABLE DEPT REPLACE
FIELDS TERMINATED BY ',' (DEPTNO,
DNAME, LOC,
LAST_UPDATED date 'dd/mm/yyyy'
) BEGINDATA
10,Sales,Virginia,1/5/2000
20,Accounting,Virginia,21/6/1999
30,Consulting,Virginia,5/1/2000
40,Finance,Virginia,15/3/2001
所得到的DEPT表如下所示:
ops$tkyte@ORA10G> select * from dept;
DEPTNO DNAME LOC LAST_UPDA
---------- -------------- ------------- ---------
10 Sales Virginia 01-MAY-00
20 Accounting Virginia 21-JUN-99
30 Consulting Virginia 05-JAN-00
40 Finance Virginia 15-MAR-01

就这么简单。只需在控制文件中应用格式,SQLLDR就会为我们完成日期转换。在某些情况想,可能
使用一个更强大的SQL函数更为合适。例如,如果你的输入文件包含多种不同格式的日期:有些有时间分
量,有些没有;有些采用DD-MON-YYYY格式;有些格式为DD/MM/YYYY;等等。 在下一节中你会了解到如何在SQLLDR中使用函数来解决这些问题。

4. 如果使用函数加载数据?

在这一节中,我们将介绍加载数据时如何使用函数。
一旦你了解了SQLLDR如何构建其INSERT语句,在SQLLDR中使用函数就很容易了。要在SQLLDR脚本 中向某个字段应用一个函数,只需块这个函数增加到控制文件中(用两个引号括起)。例如,假设有前面的 DEPT表,你想确保所加载的数据都是大写的。可以使用以下控制文件来加载:
LOAD DATA
INFILE *
INTO TABLE DEPT REPLACE
FIELDS TERMINATED BY ',' (DEPTNO,
DNAME "upper(:dname)", LOC "upper(:loc)",
LAST_UPDATED date 'dd/mm/yyyy'
) BEGINDATA
10,Sales,Virginia,1/5/2000
20,Accounting,Virginia,21/6/1999
30,Consulting,Virginia,5/1/2000
40,Finance,Virginia,15/3/2001


数据库中得到的数据如下:
ops$tkyte@ORA10G> select * from dept;
DEPTNO DNAME LOC ENTIRE_LINE LAST_UP DA

------ -------------- ------------- -------------------
---------- ---------
10 SALES VIRGINIA
01-MAY-00
20 ACCOUNTING VIRGINIA
21-JUN-99
30 CONSULTING VIRGINIA
05-JAN-00
40 FINANCE VIRGINIA
15-MAR-01
可以注意到,只需向一个绑定变量应用UPPER函数就可以很容易地将数据变为大写。要注意,SQL函

数可以引用任何列,而不论将函数实际上应用于哪个列。这说明,一个列可以是对两个或更多其他列应用 一个函数的结果。例如,如果你想加载ENTIRE_LINE列,可以使用SQL连接运算符。不过,这种情况下这 样做稍有些麻烦。现在,输入数据集中有4 个数据元素。如果只是向控制文件中如下字符ENTIRE_LINE:
LOAD DATA
INFILE *
INTO TABLE DEPT REPLACE
FIELDS TERMINATED BY ',' (DEPTNO,
DNAME "upper(:dname)", LOC "upper(:loc)",
LAST_UPDATED date 'dd/mm/yyyy',
ENTIRE_LINE ":deptno||:dname||:loc||:last_updated"
) BEGINDATA
10,Sales,Virginia,1/5/2000
20,Accounting,Virginia,21/6/1999

30,Consulting,Virginia,5/1/2000
40,Finance,Virginia,15/3/2001
就会看到,日志文件中对于每个输入记录出现以下错误:
Record 1: Rejected - Error on table DEPT, column ENTIRE_LINE.
Column not found before end of logical record (use TRAILING NULLCOLS)

在此,SQLLDR告诉你:没等处理完所有列,记录中就没有数据了。这种情况下,解决方案很简单。

实际上,SQLLDR甚至已经告诉了我们该怎么做:这就是使用TRAILING NULLCOLS。这样一来,如果输入记 录中不存在某一列的数据,SQLLDR就会为该列绑定一个NULL值。在这种情况下,增加TRAILING NULLCOLS 会导致绑定变量:ENTIRE_LINE成为NULL。所以再尝试这个控制文件:
LOAD DATA
INFILE *
INTO TABLE DEPT REPLACE
FIELDS TERMINATED BY ',' TRAILING NULLCOLS (DEPTNO,
DNAME "upper(:dname)", LOC "upper(:loc)",
LAST_UPDATED date 'dd/mm/yyyy',
ENTIRE_LINE ":deptno||:dname||:loc||:last_updated"
) BEGINDATA
10,Sales,Virginia,1/5/2000
20,Accounting,Virginia,21/6/1999
30,Consulting,Virginia,5/1/2000
40,Finance,Virginia,15/3/2001
现在表中的数据如下:
ops$tkyte@ORA10G> select * from dept;
DEPTNO DNAME LOC ENTIRE_LINE LAS T_UPDA

------

--------------

-------------

-------------------

----------

---------

10 SALES VIRGINIA 10SalesVirginia1
/5/2000 01-MAY-00
JUN-99
20 ACCOUNTING VIRGINIA 20AccountingVirginia21 /6/1999 21-
05-JAN-00
30 CONSULTING VIRGINIA 30ConsultingVirginia5 /1/2000
40 FINANCE VIRGINIA 40FinanceVirginia15 /3
/2001 15-MAR-01

之所以可以这样做,原因在于 SQLLDR 构建其 INSERT 语句的做法。SQLLDR 会查看前面的控制文件,
并看到控制文件中的DEPTNO、DNAME、LOC、LAST_UPDATED和ENTIRE_LINE这几列。它会根据这些列建立5 个绑定变量。通常,如果没有任何函数,所建立的INSERT语句就是:
INSERT INTO DEPT ( DEPTNO, DNAME, LOC, LAST_UPDATED, ENTIRE_LINE )
VALUES ( :DEPTNO, :DNAME, :LOC, :LAST_UPDATED, :ENTIRE_LINE );

然后再解析输入流,将值赋给相应的绑定变量,然后执行语句。如果使用函数,SQLLDR会把这些函
数结合到INSERT语句中。在上一个例子中,SQLLDR建立的INSERT语句如下所示:
INSERT INTO T (DEPTNO, DNAME, LOC, LAST_UPDATED, ENTIRE_LINE)
VALUES ( :DEPTNO, upper(:dname), upper(:loc), :last_updated,
:deptno||:dname||:loc||:last_updated );

然后再做好准备,把输入绑定到这个语句,再执行语句。所以,SQL中能做的事情都可以结合到SQLLDR
脚本中。由于SQL中增加了CASE语句,所以这样做不仅功能极为强大,而且相当容易。例如,假设你的输 入文件有以下格式的日期:
HH24:MI:SS:只有一个时间;日期默认为SYSDATE。 DD/MM/YYYY:只有一个日期;时间默认为午夜0点。 HH24:MI:SS DD/MM/YYYY:日期和时间都要显式提供。
可以使用如下的一个控制文件:

LOAD DATA INFILE *
INTO TABLE DEPT REPLACE
FIELDS TERMINATED BY ',' TRAILING NULLCOLS (DEPTNO,
DNAME "upper(:dname)", LOC "upper(:loc)", LAST_UPDATED
"case
when length(:last_updated) > 9
then to_date(:last_updated,'hh24:mi:ss dd/mm/yyyy')
when instr(:last_updated,':') > 0
then to_date(:last_updated,'hh24:mi:ss') else to_date(:last_updated,'dd/mm/yyyy') end"
) BEGINDATA
10,Sales,Virginia,12:03:03 17/10/2005
20,Accounting,Virginia,02:23:54
30,Consulting,Virginia,01:24:00 21/10/2005
40,Finance,Virginia,17/8/2005
可以得到以下结果:

ops$tkyte@ORA10G> alter session set nls_date_format = 'dd-mon-yyyy hh24:mi:ss'; Session altered.
ops$tkyte@ORA10G> select deptno, dname, loc, last_updated
2 from dept;
DEPTNO DNAME LOC LAST_UPDATED
---------- -------------- ------------- --------------------
10 SALES VIRGINIA 17-oct-2005 12:03:03
20 ACCOUNTING VIRGINIA 01-jul-2005 02:23:54
30 CONSULTING VIRGINIA 21-oct-2005 01:24:00
40 FINANCE VIRGINIA 17-aug-2005 00:00:00
现在会向输入字符串应用3个日期格式中的一个(注意,这里不再加载一个DATE;而只是加载一个
串)。CASE函数会查看串的长度和内容,从而确定应该使用哪一个掩码。 有意思的是,你可以编写自己的函数来由SQLLDR调用。这直接应验了可以从SQL调用PL/SQL。

5. 如何加载有内嵌换行符的数据?

过去,如果要加载可能包含换行符的自由格式的数据,这对于 SQLLDR来说很成问题。换行符是SQLLDR 的默认行结束符,过去对此也提出了一些解决方法,但是灵活性都不够。幸运的是,在Oracle 8.1.6及以 后版本中,我们有了一些新的选择。要加载内嵌有换行符的数据,现在的选择如下:
加载数据,其中用非换行符的其他字符来表示换行符(例如,在文本中应该出现换行符的 位置上放上串\n),并在加载时使用一个SQL函数用一个CHR(10)替换该文本。
在INFILE指令上使用FIX属性,加载一个定长平面文件。
在INFILE指令上使用VAR属性,加载一个定宽文件,在该文件使用的格式中,每一行的前 几个字节指定了这一行的长度(字节数)。
在INFILE指令上使用STR属性,加载一个变宽文件,其中用某个字符序列来表示行结束符 , 而不是用换行符来表示。
后面的几个小节将分别介绍这些方法。 使用一个非换行符的字符
如果你能对如何生成输入数据加以控制,这就是一种很容易的方法。如果创建数据文件时能很容易地

转换数据,这种方法就能奏效。其思想是,就数据加载到数据库时对数据应用一个SQL函数,用某个字符 串来替换换行符。下面向DEPT表再增加另一个列:
ops$tkyte@ORA10G> alter table dept add comments varchar2(4000);
Table altered.
我们将使用这一列来加载文本。下面是一个有内联数据的示例控制文件:
LOAD DATA
INFILE *
INTO TABLE DEPT REPLACE
FIELDS TERMINATED BY ',' TRAILING NULLCOLS (DEPTNO,
DNAME "upper(:dname)", LOC "upper(:loc)",
COMMENTS "replace(:comments,'\\n',chr(10))"
) BEGINDATA
10,Sales,Virginia,This is the Sales\nOffice in Virginia
20,Accounting,Virginia,This is the Accounting\nOffice in Virginia
30,Consulting,Virginia,This is the Consulting\nOffice in Virginia
40,Finance,Virginia,This is the Finance\nOffice in Virginia

注意,调用中必须使用\\n来替换换行符,而不只是\n。这是因为\n会被SQLLDR识别为一个换行符,

而且SQLLDR会把它转换为一个换行符,而不是一个两字符的串。利用以上控制文件执行SQLLDR时,DEPT 表中将加载以下数据:
ops$tkyte@ORA10G> select deptno, dname, comments from dept;
DEPTNO DNAME COMMENTS

---------- -------------- -------------------------
10 SALES This is the Sales
Office in Virginia
20 ACCOUNTING This is the Accounting
Office in Virginia
30 CONSULTING This is the Consulting
Office in Virginia
40 FINANCE This is the Finance
Office in Virginia
使用IFX属性
另一种可用的方法是使用FIX属性。如果使用这种方法,输入数据必须出现在定长记录中。每个记录 与输入数据集中所有其他记录的长度都相同,即有相同的字节数。对于固定位置的数据,使用FIX属性就 特别适合。这些文件通常是定长输入文件。使用自由格式的定界数据时,则不太可能是一个定长文件,因 为这些文件通常是变长的(这正是定界文件的关键:每一行不会不必要地过长)。
使用FIX属性时,必须使用一个 INFILE子句,因为FIX属性是INFILE的一个选项。另外,如果使用 这个选项,数据必须在外部存储,而并非存储在控制文件本身。因此,假设有定长的输入记录,可以使用 如下的一个控制文件:
LOAD DATA
INFILE demo.dat "fix 80" INTO TABLE DEPT
REPLACE
FIELDS TERMINATED BY ',' TRAILING NULLCOLS (DEPTNO,

DNAME "upper(:dname)", LOC "upper(:loc)", COMMENTS

)
这个文件指定了一个输入数据文件(domo.dat),这个文件中每个记录有80字 节,这包括尾部的换
行符(每个记录最后可能有换行符,也可能没有)。在这种情况下,输入数据文件中的换行符并不是特殊字 符。这只是要加载(或不加载)的另 一个字符而已。要知道:记录的最后如果有换行符,它会成为这个记 录的一部分。为了充分理解这一点,我们需要一个实用程序将文件的内容转储在屏幕上,以便我 们看到文 件中到底有什么。使用UNIX(或任何Linux版本),利用 od就很容易做到,这个程序可以将文件以八进制

(和其他格式)转储到屏幕上。我们将使用下面的demo.dat文件。注意以下输入中的第一列实际上是八进 制,所以第2行上的数字0000012是一个八进制数,不是十进制数10.由此我们可以知道所查看的文件中 有哪些字节。我对这个输出进行了格式化,使得每行显示10个字符(使用-w10),所以 0、12、24和36实 际上就是0、10、20和30。
[tkyte@desktop tkyte]$ od -c -w10 -v demo.dat
0000000 1 0 , S a l e s , V
0000012 i r g i n i a , T h
0000024 i s i s t h e
0000036 S a l e s \n O f f i
0000050 c e i n V i r g
0000062 i n i a
0000074
0000106
0000120 2 0 , A c c o u n t
0000132 i n g , V i r g i n
0000144 i a , T h i s i s
0000156 t h e A c c o u
0000170 n t i n g \n O f f i
0000202 c e i n V i r g
0000214 i n i a
0000226
0000240 3 0 , C o n s u l t

0000252 i n g , V i r g i n
0000264 i a , T h i s i s
0000276 t h e C o n s u
0000310 l t i n g \n O f f i
0000322 c e i n V i r g
0000334 i n i a
0000346
0000360 4 0 , F i n a n c e
0000372 , V i r g i n i a ,
0000404 T h i s i s t h
0000416 e F i n a n c e \n
0000430 O f f i c e i n
0000442 V i r g i n i a
0000454
0000466
0000500
[tkyte@desktop tkyte]$
注意,在这个输入文件中,并没有用换行符(\n)来指示SQLLDRE记录在哪里结束;这里的换行符只
是要加载的数据而已。SQLLDR使用FIX宽度(80字节)来得出要读取多少数据。实际上,如果查看输入数 据,可以看到,输入文件中提供给SQLLDR的记录甚至并非以\n结束。部门20的记录之前的字符是一个空 格,而不是换行符。

既然我们知道了每个记录的长度为80字节,现在就可以用前面有FIX80子句的控制文件来加载这些 数据了。完成加载后,可以看到以下结果:
ops$tkyte@ORA10G> select '"' || comments || '"' comments from dept;
COMMENTS
-------------------------------------------------------------------------------

"This is the Sales Office in Virginia " "This is the Accounting Office in Virginia " "This is the Consulting Office in Virginia " "This is the Finance
Office in Virginia "
你可能需要“截断“这个数据,因为尾部的空白符会保留。可以在控制文件中使用TRIM内置SQL函
数来完成截断。
如果你恰好同时在使用Windows和UNIX,能你很“幸运“,在此需要提醒一句:这两个平台上的行 结束标记是不同的。在UNIX上,行结束标记就是\n(SQL中的CHR(10))。在 Windows NT上,行结束标记 却是\r\n(SQL中的CHR(13)||CHR(10))。一般来讲,如果使用 FIX方法,就要确保是在同构平台上创建和 加载文件(UNIX上创建,UNIX上加载;或者Windows上创建,Windows上加载)。
使用VAR属性
要加载有内嵌换行符的数据,另一种方法是使用 VAR属性。使用这种格式时,每个记录必须以某个固 定的字节数开始,这表示这个记录的总长度。通过使用这种格式,可以加载包含内嵌换行符的变长记录, 但是每个记录的开始处必须有一个记录长度字段。因此,如果使用如下的一个控制文件:
LOAD DATA
INFILE demo.dat "var 3" INTO TABLE DEPT
REPLACE
FIELDS TERMINATED BY ',' TRAILING NULLCOLS (DEPTNO,

DNAME "upper(:dname)", LOC "upper(:loc)",

COMMENTS
)
VAR 3指出每个输入记录的前3个字节是输入记录的长度。如果取以下数据文件:
[tkyte@desktop tkyte]$ cat demo.dat
05510,Sales,Virginia,This is the Sales
Office in Virginia
06520,Accounting,Virginia,This is the Accounting
Office in Virginia
06530,Consulting,Virginia,This is the Consulting
Office in Virginia
05940,Finance,Virginia,This is the Finance
Office in Virginia
[tkyte@desktop tkyte]$

可以使用该控制文件来加载。在我们的输入数据文件中有4 行数据。第一行从055开始,这说明接下来55
字节是第一个输入记录。这55字节包括单词Virginia后的结束换行符。下一行从065开始。这一行有65 字节的文本,依此类推。使用这种格式数据文件,可以很容易地加载有内嵌换行符的数据。
同样,如果你在使用UNIX和Windows(前面的例子都在UNIX上完成,其中换行符只是一个字符长), 就必须调整每个记录的长度字段。在Windows上,前例.dat文件中的长度字段应该是56、66、66和60.
使用STR属性
要加载有内嵌换行符的数据,这可能是最灵活的一种方法。通过使用 STR属性,可以指定一个新的行 结束符(或字符序列)。 就能创建一个输入数据文件,其中每一行的最后有某个特殊字符、换行符不再有 “特殊“含义。

我更喜欢使用字符序列,通常会使用某个特殊标记,然后再加一个换行符。这样,在一个文本编辑器 或某个实用程序中查看输入数据时,就能很容易地看到行结束符,因为每个记录的最后仍然有一个换行符。 STR属性以十六进制指定,要得到所需的具体十六进制串,最容易的方法是使用SQL和 UTL_RAW来生成十 六进制串。例如,假设使用的是UNIX平台,行结束标记是CHR(10)(换行),我们的特殊标记字符是一个 管道符号(|),则可以写为:
ops$tkyte@ORA10G> select utl_raw.cast_to_raw( '|'||chr(10) ) from dual;

UTL_RAW.CAST_TO_RAW('|'||CHR(10))
-------------------------------------------------------------------------------
7C0A
由此可知,在UNIX上我们需要使用的STR是X’7C0A’。
注意 在Windows上,要使用UTL_RAW.CAST_TO_RAW(‘|”||chr(13)||chr(10))。 为了使用这个方法,要有以下控制文件:
LOAD DATA
INFILE demo.dat "str X'7C0A'" INTO TABLE DEPT
REPLACE
FIELDS TERMINATED BY ',' TRAILING NULLCOLS (DEPTNO,
DNAME "upper(:dname)", LOC "upper(:loc)", COMMENTS
)


因此,如果输入数据如下:
[tkyte@desktop tkyte]$ cat demo.dat
10,Sales,Virginia,This is the Sales
Office in Virginia|
20,Accounting,Virginia,This is the Accounting
Office in Virginia|
30,Consulting,Virginia,This is the Consulting
Office in Virginia|

40,Finance,Virginia,This is the Finance
Office in Virginia| [tkyte@desktop tkyte]$
其中,数据文件中的每个记录都以|\n结束,前面的控制文件就会正确地加载这些数据。 内嵌换行符小结
关于加载有内嵌换行符的数据,这一节讨论了至少 4种方法。在后面的“平面文件卸载“一节中,我 们还将看到会使用这里的一种技术,可以在一个通用卸载实用程序使用STR属性来避免与文本中换行符有 关的问题。
另外要注意一个问题,我先前已经多次提到,Windows(包括各种版本)上的文本文件可能以\r\n(ASCII
13+ASCII 10,回车/换行)结束。\r是记录的一部分,控制文件必须适应这一点。具体地将,FIX和VAR 中的字节数已经 STR 使用的串必须有所调整。例如,如果取先前的某个.dat文件(目前其中只包含\n), 并使用一个ASCII传输工具(默认)将其通过FTP传输到Windows,将各个\n将转换为\r\n。原来UNIX中 能工作的控制文件现在却不能加载数据了。这一点你必须当心,建立控制文件时一定要有所考虑。

6. 如果加载LOB?

现在来考虑在LOB的一些方法。这不是一个LONG或LONG RAW字段,而是更可取的数据类型BLOB和 CLOB。这些数据类型是Oracle 8.0及以后版本中引入的,如第12章所述,与遗留的LONG和LONG RAW类 型相比,它们支持更丰富的接口/功能集。
我们将分析两种加载这些字段的方法:SQLLDR和PL/SQL。除此之外,还可以采用另外一些方法,如 Java流、Pro*C和OCI。我们将首先介绍使用PL/SQL加载LOB的方法,然后介绍如何使用SQLLDR加载LOB。
通过PL/SQL加载LOB
DBMS_LOB包的入口点为LoadFromFile、LoadBLOBFromFile和LoadCLOBFromFile。通过这些过程,我 们可以使用一个 BFILE(用于读取操作系统文件)来填充数据库中的 BLOB 或 CLOB。LoadFromFile 和 LoadBLOBFromFile例程之间没有显著的差别,只不过后者会返回一些OUT参数,指示已经向BLOB列中加 载了多少数据。不过,LoadCLOBFromFile例程还提供了一个突出的特性:字符集转换。如果你还记得,第
12 章中曾讨论过 Oracle 数据库的某些国家语言支持(NLS)特性,还介绍过字符集的重要性。使用 LoadCLOBFromFile时,我们可以告诉数据库:这个文件将以另外某种字符集(不同于数据库正在使用的字 符集)来加载,而且要执行必要的字符集转换。例如,可能有一个 UTF8兼容的数据库,但是收到的要加载 的文件却以WE8ISO8859P1字符集编码,或反之。利用这个函数就能成功地加载这些文件。
注意 DBMS_LOB 包中可以过程的全部细节及其完整的输入和输出集,请参考 Oraccle9i Oracle
Supplied Packages Guide和Oracle 10g Oracle PL/SQL Packages and Types Reference。
要使用这些过程,需要在数据库中创建一个 DIRECTORY 对象。这个对象允许我们创建并打开 BFILE(BFILE指向文件系统上数据库服务器能访问的一个现有文件)。最后一句话中提到:“数据库服务器 能访问的……“,这是使用PL/SQL加载LOB时一个要点。DBMS_LOB包完全在服务器中执行。它只能看到 服务器能看到的文件系统。特别是,如果你通过网络访问Oracle,DBMS_LOB包将无法看到你的本地文件系 统。
所以,我们需要先在数据库中创建一个 DIRECTORY对象。这是一个很简单的过程。我们将为这个例子

创建两个目录(注意,这些例子都在UNIX环境中执行;你要针对你的操作系统,使用适合的语法来引用目 录):
ops$tkyte@ORA10G> create or replace directory dir1 as '/tmp/';
Directory created.
ops$tkyte@ORA10G> create or replace directory "dir2" as '/tmp/'; Directory created.
注意 Oracle DIRECTORY对象是逻辑目录,这说明,它们是指向操作系统中现有物理目录的指针。
CREATE DIRECTORY命令并不是具体在文件系统中创建一个目录,这个操作(物理创建目录)必须 单独执行。
执行这个操作的用户要有CREATE ANY DIRECTORY权限。我们之所以要创建两个目录,这是为了展示 一个与DIRECTORY对象有关的常见问题,即大小写问题(大写字符还是小写字符)。Oracle创建第一个目 录DIR1时,它会以大写存储对象名,因为这是默认设置。在使用 dir2的第二个例子中,它创建的DIRECTORY 对象保留了名字中原来使用的大小写。稍后使用BFILE对象时将说明这一点的重要性。

下面,我们希望将一些数据加载到BLOB或CLOB中。对此,方法非常简单,例如:
ops$tkyte@ORA10G> create table demo
2 ( id int primary key,
3 theClob clob
4 )
5 /
Table created.
ops$tkyte@ORA10G> host echo 'Hello World!' > /tmp/test.txt ops$tkyte@ORA10G> declare
2 l_clob clob;
3 l_bfile bfile;
4 begin
5 insert into demo values ( 1, empty_clob() )

6 returning theclob into l_clob;
7
8 l_bfile := bfilename( 'DIR1', 'test.txt' );
9 dbms_lob.fileopen( l_bfile );
10
11 dbms_lob.loadfromfile( l_clob, l_bfile,
12 dbms_lob.getlength( l_bfile ) );
13
14 dbms_lob.fileclose( l_bfile );
15 end;
16 /
PL/SQL procedure successfully completed.
ops$tkyte@ORA10G> select dbms_lob.getlength(theClob), theClob from demo
2 /
DBMS_LOB.GETLENGTH(THECLOB) THECLOB
--------------------------- ---------------
13 Hello World!
通过分析前面的代码,可见:
在第5行和第6行上,我们在表中创建了一行,将CLOB设置为一个EMPTY_CLOB(),并从一 个调用获取其值。除了临时LOB外,其余的LOB都“住“在数据库中,如果没有指向一个临时 LOB的指针,或者指向一个已经在数据库中的LOB,将无法写至LOB变量。EMPTY_CLOB()不是一 个NULL CLOB;而是指向一个空结构的合法指针(非NULL)。它还有一个作用,可以得到一个 LOB 定位器,指向已锁定行中的数据。如果要选择这个值,而没有锁定底层的行,写数据就会失败, 因为LOB在写之前必须锁定(不同于其他结构化数据)。通过插入一行,当然我们也就锁定了这 一行。如果我们要修改一个现有的行而不是插入新行,则可以使用SELECT FOR UPDATE来获取 和锁定这一行。
在第8 行上,我们创建了一个BFILE对象。注意,这里DIR1用的是大写,稍后就会看到,
这是一个键。这是因为我们向BFILENAME()传入了一个对象的名称,而不是对象本身。因此,必 须确保这个名称与Oracle所存储的对象名称大小写匹配。
第9行打开了LOB。以便读取。
在第11行和第12行上,我们将操作系统文件/tmp/test.txt的完整内容加载到刚插入的 LOB定位器。这里使用DBMS_LOB.GETLENGTH()告诉LOADFROMFILE()例程要加载多少字节的BFILE
(这里就是要加载全部字节)。
最后,在第14行我们关闭了所打开的BFILE,CLOB已加载。 如果前例中试图使用dir1而不是DIR1,可能会遇到以下错误:
ops$tkyte@ORA10G> declare
...
6 returning theclob into l_clob;
7
8 l_bfile := bfilename( 'dir1', 'test.txt' );
9 dbms_lob.fileopen( l_bfile );
...
15 end;
16 /
declare
*
ERROR at line 1:
ORA-22285: non-existent directory or file for FILEOPEN operation
ORA-06512: at "SYS.DBMS_LOB", line 523
ORA-06512: at line 9

这是因为目录dir1并不存在,只有目录DIR1。如果想使用混合有大小写的目录名,在创建这样的目

录四时应该使用带引号的标识符,就像我们创建dir2时一样。这样你就能编写如下所示的代码:
ops$tkyte@ORA10G> declare
2 l_clob clob;

3 l_bfile bfile;
4 begin
5 insert into demo values ( 1, empty_clob() )
6 returning theclob into l_clob;
7
8 l_bfile := bfilename( 'dir2', 'test.txt' );
9 dbms_lob.fileopen( l_bfile );
10
11 dbms_lob.loadfromfile( l_clob, l_bfile,
12 dbms_lob.getlength( l_bfile ) );
13
14 dbms_lob.fileclose( l_bfile );
15 end;
16 /
PL/SQL procedure successfully completed.
除了从文件例程加载外,还有其他一些方法,利用这些方法也可以使用PL/SQL填充LOB。如果你想
加载整个文件,就可以使用DBMS_LOB及其提供的例程,这是到目前为止最容易的方法。如果需要在加载文 件的同时处理文件的内容,还可以在BFILE 上使用DBMS_LOB.READ来读取数据。如果读取的数据实际上是 文本,而不是RAW,那么使用UTL_RAW.CAST_TO_VARCHAR2会很方便。然后你可以使用DBMS_LOB.WRITE或 WRITEAPPEND将数据放入一个CLOB或BLOB。
通过SQLLDR加载LOB数据
现在我们来分析如何通过SQLLDR向LOB加载数据。对此方法不止一种,但是我们主要讨论两种最常 用的方法:
数据“内联“在其他数据中。 数据外联存储(在外部存储),输入数据包含一个文件名,指示该行要加载的数据在哪个文
件中。在SQLLDR术语中,这也称为二级数据文件(secondary data file,SDF)。
先从内联数据谈起。
加载内联的LOB数据。这些LOB通常内嵌有换行符和其他特殊字符。因此,往往会使用“如何加载有

内嵌换行符的数据?“一节中详细讨论的4种方法之一来加载这种数据。下面先来修改DEPT表,使 COMMENTS 列是一个CLOB而不是一个大的VARCHAR2字段:
ops$tkyte@ORA10G> truncate table dept;
Table truncated.
ops$tkyte@ORA10G> alter table dept drop column comments; Table altered.
ops$tkyte@ORA10G> alter table dept add comments clob; Table altered.

例如,假设有一个数据文件(demo.dat),它有以下内容:
10, Sales,Virginia,This is the Sales
Office in Virginia|
20,Accounting,Virginia,This is the Accounting
Office in Virginia|
30,Consulting,Virginia,This is the Consulting
Office in Virginia|
40,Finance,Virginia,"This is the Finance
Office in Virginia, it has embedded commas and is much longer than the other comments field. If you feel the need to add double quoted text in here like
this: ""You will need to double up those quotes!"" to
preserve them in the string. This field keeps going for up to
1000000 bytes (because of the control file definition I used)
or until we hit the magic end of record marker,

the | followed by an end of line - it is right here ->"|
每个记录最后都是一个管道符号(|),后面是行结束标记。部门 40的文本比其他部门的文本长得多,
有多个换行符、内嵌的引号以及逗号。给定这个数据文件,可以创建一个如下的控制文件:
LOAD DATA
INFILE demo.dat "str X'7C0A'" INTO TABLE DEPT
REPLACE
FIELDS TERMINATED BY ',' OPTIONALLY ENCLOSED BY '"' TRAILING NULLCOLS
(DEPTNO,
DNAME "upper(:dname)", LOC "upper(:loc)", COMMENTS char(1000000)
)

注意 这个例子在UNIX上执行,UNIX平台上行结束标记长度为1字节,因此可以使用以上控制文件
中的STR设置。在Windows上,STR设置则必须是’7C0D0A’。

要加载这个数据文件,我们在COMMENTS列上指定了CHAR(1000000),因为SQLLDR默认所有人们字段 都为CHAR(255)。CHAR(1000000)则允许 SQLLDR处理多达1,000,000字节的输入文本。可以把这个长度值 设置为大于输入文件中任何可能文本块的大小。通过查看所加载的数据,可以看到以下结果:
ops$tkyte@ORA10G> select comments from dept;
COMMENTS
------------------------------------------------------------------------------- This is the Consulting
Office in Virginia
This is the Finance
Office in Virginia, it has embedded commas and is

much longer than the other comments field. If you feel the need to add double quoted text in here like this: "You will need to double up those quotes!" to
preserve them in the string. This field keeps going for up to
1000000 bytes or until we hit the magic end of record marker, the | followed by an end of line - it is right here ->
This is the Sales
Office in Virginia
This is the Accounting
Office in Virginia
这里可以观察到:原来重复两次的引号不再重复。SQLLDR去除了在此放置的额外的引号。
加载外联的LOB数据。可能要把包含有一些文件名的数据文件加载在LOB中,而不是让LOB数据与结 构化数据混在一起,这种情况很常见。这提供了更大程度的灵活性,因为提供给 SQLLDR的数据文件不必使 用上述的4 种方法之一来避开输入数据中的内嵌换行符问题,而这种情况在大量的文本或二进制数据中会 频繁出现。SQLLDR称这种额外的数据文件为LOBFILE。
SQLLDR 还可以支持加载结构化数据文件(指向另外单独一个数据文件)。我们可能告诉SQLLDR如何 从另外这个文件分析LOB数据,这样就可以加载其中的一部分作为结构化数据中的每一行。我认为这种模 式的用途很有限(到目前为止,我自己还从来没有见过哪里用到这种方法),在此也不做过多的讨论。SQLLDR 把这种外部引用的文件称为复杂二级数据文件(complex secondary data file)。
LOBFILE是一种相对简单的数据文件,旨在简化LOB加载。在LOBFILE中,没有记录的概念,因此换 行符不会成为问题,正是这个性质使得LOBFILE与主要数据文件有所区别。在LOBFILE中,数据总是采用 以下某种格式:
定长字段(例如,从LOBFILE加载字节100到1,000) 定界字段(以某个字符结束,或者用某个字符括起) 长度/值对,这是一个变长字段
其中最常见的类型是定界字段,实际上就是以一个文件结束符(EOF)结束。一般来讲,可能有这样 一个目录,其中包含你想加载到LOB列中的文件,每个文件都要完整地放在一个BLOB中。此时,就可以使 用带TERMINATED BY EOF子句的LOBFILE语句。

假设我们有一个目录,其中包含想要加载到数据库中的文件。我们想加载文件的 OWNER、文件的 TIME_STAMP、文件的NAME以及文件本身。要加载数据的表如下所示:
ops$tkyte@ORA10G> create table lob_demo
2 ( owner varchar2(255),
3 time_stamp date,
4 filename varchar2(255),
5 data blob
6 )
7 /
Table created.
在 UNIX上使用一个简单的ls –l 来捕获输出(或者在Windows上使用dir/q/n),我们就能生成输

入文件,并使用如下的一个控制文件加载(这里使用UNIX平台):
LOAD DATA
INFILE * REPLACE
INTO TABLE LOB_DEMO
( owner position(17:25),
time_stamp position(44:55) date "Mon DD HH24:MI", filename position(57:100),
data LOBFILE(filename) TERMINATED BY EOF
) BEGINDATA
-rw-r--r-- 1 tkyte tkyte 1220342 Jun 17 15:26 classes12.zip
-rw-rw-r-- 1 tkyte tkyte 10 Jul 16 16:38 foo.sql
-rw-rw-r-- 1 tkyte tkyte 751 Jul 16 16:36 t.ctl

-rw-rw-r-- 1 tkyte tkyte 491 Jul 16 16:38 testa.sql
-rw-rw-r-- 1 tkyte tkyte 283 Jul 16 16:38 testb.sql
-rw-rw-r-- 1 tkyte tkyte 231 Jul 16 16:38 test.sh
-rw-rw-r-- 1 tkyte tkyte 235 Apr 28 18:03 test.sql
-rw-rw-r-- 1 tkyte tkyte 1649 Jul 16 16:36 t.log
-rw-rw-r-- 1 tkyte tkyte 1292 Jul 16 16:38 uselast.sql
-rw-rw-r-- 1 tkyte tkyte 909 Jul 16 16:38 userbs.sql

现在,运行SQLLDR之后检查LOB_DEMO表的内容,会发现以下结果:
ops$tkyte@ORA10G> select owner, time_stamp, filename, dbms_lob.getlength(data)
2 from lob_demo
3 /
OWNER TIME_STAM FILENAME DBMS_LOB.GETLENGTH(DATA)
-------- --------- -------------- ------------------------ tkyte 17-JUN-05 classes12.zip 1220342
tkyte 16-JUL-05 foo.sql 10
tkyte 16-JUL-05 t.ctl 875 tkyte 16-JUL-05 testa.sql 491
tkyte 16-JUL-05 testb.sql 283 tkyte 16-JUL-05 test.sh 231 tkyte 28-APR-05 test.sql 235 tkyte 16-JUL-05 t.log 0 tkyte 16-JUL-05 uselast.sql 1292 tkyte 16-JUL-05 userbs.sql 909
10 rows selected.
这不光适用于BLOB,也适用于CLOB。以这种方式使用SQLLDR来加载文本文件的目录会很容易。
将 LOB数据加载到对象列。既然知道了如何将数据加载到我们自己创建的一个简单表中,可能会发现 , 有时需要将数据加载到一个复杂的表中,其中可能有一个包含LOB的复杂对象类型(列)。使用图像功能时 这种情况最为常见。图像功能使用一个复杂的对象类型ORDSYS.ORDIMAGE来实现。我们需要告诉SQLLDR如 何向其中加载数据。

要把一个 LOB 加载到一个 ORDIMAGE 类型的列中,首先必须对 ORDIMAGE 类型的结构有所了解。在 SQL*Plus 中使用要加载的一个目标表以及该表上的 DESCRIBE,可以发现表中有一个名为 IMAGE 的 ORDSYS.ORDIMAGE 列,最终我们想在这一列中加载 IMAGE.SOURCE.LOCALDATA。只有安装并配置好 interMedia,项目的例子才能正常工作;否则,数据类型ORDSYS.ORDIMAGE将是一个未知类型:
ops$tkyte@ORA10G> create table image_load(
2 id number,
3 name varchar2(255),
4 image ordsys.ordimage
5 )
6 /
Table created.
ops$tkyte@ORA10G> desc image_load
Name Null? Type
---------------------------------------- -------- ---------------------------- ID NUMBER
NAME VARCHAR2(255) IMAGE ORDSYS.ORDIMAGE
ops$tkyte@ORA10G> desc ordsys.ordimage
Name Null? Type
---------------------------------------- -------- ----------------------------

SOURCE ORDSYS.ORDSOURCE HEIGHT NUMBER(38) WIDTH NUMBER(38) CONTENTLENGTH NUMBER(38)
...
ops$tkyte@ORA10G> desc ordsys.ordsource
Name Null? Type
---------------------------------------- -------- ---------------------------- LOCALDATA BLOB
SRCTYPE VARCHAR2(4000) SRCLOCATION VARCHAR2(4000)
...
注意 可以在SQL*Plus中执行SET DESC DEPTH ALL或SET DESC DEPTH <n>一次显示整个层次结构。
由于ORDSYS.ORDIMAGE的输出可能有几项的篇幅,所以我打算逐部分地介绍。
加载这种数据的控制文件可能如下所示:
LOAD DATA
INFILE *
INTO TABLE image_load
REPLACE
FIELDS TERMINATED BY ',' ( ID,
NAME,

file_name FILLER, IMAGE column object (

SOURCE column object
(
LOCALDATA LOBFILE (file_name) TERMINATED BY EOF NULLIF file_name = 'NONE'
)
)
)
BEGINDATA
1,icons,icons.gif
这里我引入了两个新构造:
COLUMN OBJECT:这会告诉SQLLDR这不是一个列名;而是列名的一部分。它不会映射到输 入文件中的一个字段,只是用来构建正确的对象列引用,从而在加载中使用。在前面的文件中 有两个列对象标记,其中一个(SOURCE)嵌入在另一个(SOURCE)嵌入在另一个(IMAGE)中。 因此,根据我们的需要,要使用的列名是IMAGE.SOURCE.LOCALDATA。注意,我们没有加载这两 个 对 象 类 型 的 任 何 其 他 属 性 ( 例 如 , IMAGE.HEIGHT 、 IMAGE.CONTENTLENGTH 和 IMAGE.SOURCE.SRCTYPE)。稍后,我们将介绍如何填充这些属性。
NULL IF FILE_NAME = ‘NONE’:这会告诉 SQLLDR,如果字段 FILE_NAME包含单词 NONE, 则向对象列中加载一个NULL。
一旦已经加载了一个interMedia类型,通常需要使用PL/SQL对已经加载的数据进行后处理,以便
interMedia能够处理该数据。例如,对于前面的数据,可能想运行以下代码来正确地为图像设置属性:
begin
for c in ( select * from image_load ) loop
c.image.setproperties;
end loop;
end;
/

SETPROPERTIES 是ORDSYS.ORDIMAGE类型提供的对象方法,它处理图像本身,并用适当的值更新对象
的其余属性。

7. 如何从存储过程调用SQLLDR?

这个问题的答案很简单:这是办不到的。SQLLDR不是一个 API:它不能调用。SQLLDR是一个命令行 程序。你完全可以用Java或C编写一个运行SQLLDR的外部过程,但是这与“调用”SQLLDR是两码事。加 载会在另一个会话中发生,它不受你的事务控制。另外,你必须解析所得到的日志文件来确定加载是否成 功,以及成功的程度如何(也就是说,由于程序一个错误而导致加载终止之前已经加载了多少行)。我不建 议从存储过程调用SQLLDR。
过去,在Oracle9i之前你可以实现你自己的类SQLLDR过程。例如,可以有以下选择:
用 PL/SQL编写一个微型SQLLDR。它可以使用BFILE来读取二进制数据,或使用UTL_FILE 读取文本数据来解析和加载。
用Java编写一个微型SQLLDR。与基于PL/SQL的加载工具相比,这可能稍有点复杂,这样 能利用许多可用的Java例程。
用C编写一个SQLLDR,并作为一个外部过程来调用。
幸运的是,在Oracle9i及以后的版本中,我们可以使用外部表,这不仅能提供 SQLLDR的几乎所有功 能,另外,还可以做SQLLDR做不到的一些事情。这一章将介绍一个外部表的简单例子,其中将使用外部表 来自动执行一个并行直接路径加载。稍后会用更多的篇幅来介绍这个内容。不过,在以上讨论的最后,下 面对SQLLDR给出几个警告。

15.1.2 SQLLDR警告

在这一节中,我们将讨论使用SQLLDR时要注意的几个问题。

1. TRUNCATE 的工作好像不太一样

SQLLDR的TRUNCATE选项看上去好像与SQL*Plus(或其他如何工具)中的TRUNCATE有所不同。SQLLDR 有一个假设,认为你会向表中重新加载同样数目的数据,因此会使用一种扩展形式的TRUNCATE。具体地将 , 它会执行以下命令:
truncate table t reuse storage

REUSE STORAGE选项并不释放已分配的区段,它只是将这些区段标记为“空闲空间”。如果这不是你
想要的结果,就应当在执行SQLLDR之前先对表完成截除(truncate)。

2. SQLLDR 默认地使用CHAR(255)

默认的输入字段长度为255字符。如果你的字段比这要长,就会将收到一个错误消息:
Record N: Rejected - Error on table T, column C.
Field in data file exceeds maximum length

这并不是说这个数据无法放在数据库列中;而是说,它指示SQLLDR希望有不少或等于255字节的输
入数据,不过稍多一些也会接收。对此解决方案很简单,只需在控制文件中使用CHAR(N),在此N要足够 大,能容纳输入文件中最长的字段长度。

3. 命令行会覆盖控制文件

SQLLDR 的许多选项既可以放在控制文件中,也可以在命令行上使用。例如,可以使用 INFILE FILENAME,也可以使用SQLLDR…DATA=FILENAME。命令行会覆盖控制文件中的任何选项。不能指望一定会
使用控制文件中的选项,因为执行SQLLDR的人可能会通过命令行覆盖这些选项。

15.1.3 SQLLDR小结

在 这一节中,我们分析了加载数据的许多方面。在此介绍了每天可能遇到的一些典型问题:加载定 界文件、加载定长文件、加载包含图像文件的一个目录,以及在输入 数据上使用函数来转换输入等。我们 没有详细介绍如何使用直接路径加载工具来加载大量数据;而只是简单地提了一下。我们的目标是回答使 用SQLLDR时最常出现而且影响面最广的问题。