Mysql入门系列：MySQL教程（2）

krrish 2010-09-11

展开全文

MySQL允许您一次从多个表中选择列。我们将这个内容留到“从多个表中检索信息”小节去介绍。

　　1. 指定检索条件

　　为了限制SELECT 语句检索出来的记录集，可使用WHERE 子句，它给出选择行的条件。可通过查找满足各种条件的列值来选择行。

　　可查找数字值：

　　也可以查找串值。（注意，一般串的比较是不区分大小写的。）

　　可以查找日期值：

　　可搜索组合值：

　　WHERE 子句中的表达式可使用表1-1中的算术运算符、表1-2 的比较运算符和表1-3 的逻辑运算符。还可以使用圆括号将一个表达式分成几个部分。可使用常量、表列和函数来完成运算。在本教程的查询中，我们有时使用几个MySQL函数，但是MySQL的函数远不止这里

　　给出的这些。请参阅附录C，那里给出了所有MySQL函数的清单。

　　在用表达式表示一个需要逻辑运算的查询时，要注意别混淆逻辑与运算符与我们平常使用的“与”的含义。假如希望查找“出生在Vi rginia 的总统与出生在Maryland 的总统”。应该注意怎样表示“与”的关系，能写成如下的查询吗？

　　错了，因为这个查询的意思是“选择既出生在Vi rginia 又出生在M a r y l a n d的总统”，不可能有同时出生在两个地点的总统，因此这个查询无意义。在英语中，可以用“a n d”表示这种选择，但在SQL 中，应该用OR 来连接两个条件，如下所示：

　　这有时是可以觉察到的，不仅仅是在编写自己的查询时可以觉察到，而且在为他人编写查询时也可以知道。最好是在他人描述想要检索什么时仔细听，但不一定使用相同的逻辑运算符将他人的描述转录成SQL 语句。对刚才所举的例子，正确的英语等价描述为“选择出生在Vi rginia 或者出生在Maryland 的总统。”

　　2. NULL 值

　　NULL 值是特殊的；因为它代表“无值”。不可能以评估两个已知值的相同方式来将它与已知值进行评估。如果试图与通常的算术比较运算符一道使用NULL，其结果是未定义的：

　　为了进行NULL 值的搜索，必须采用特殊的语法。不能用= 或!= 来测试等于NULL 或不等于NULL，取而代之的是使用IS NULL 或IS NOT NULL 来测试。例如，因为我们将健在总统的死亡日期表示为NULL，那么可按如下语句查找健在的总统：

　MySQL3.23 及以后的版本具有一个特殊的MySQL专有的比较运算符“ < = >”，即使是NULL 与NULL 的比较，它也是可行的。用这个比较运算符，可将前面的两个查询重写为：

　　3. 对查询结果进行排序

　　有时我们注意到，在一个表装入初始数据后，对其发布一条SELECT * FROM tbl_name查询，检索出的行与这些行被插入的顺序是相同的。但不要认为这种情况是有规律的。如果在初始装入表后进行了行的删除和插入，就会发现服务器返回表的行次序被改变了。（删除记录在表中留下了未使用的“空位”，MySQL在以后插入新记录时将会试图对其填补。）缺省时，如果选择了行，服务器对返回行的次序不作任何保证。为了对行进行排序，可

　　使用ORDER BY 子句：

　　在ORDER BY 子句中，可在列名之后利用ASC 或DESC 关键字指定排序是按该列值的升序或降序进行的。例如，为了按倒序（降序）名排列总统名，可如下使用DESC：

　　如果在ORDER BY 子句中，对某个列名既不指定ASC 又不指定DESC，则缺省的次序为升序。在对可能包含NULL 值的列进行排序时，如果是升序排序， NULL 值出现在最前面，如果是按降序排序，NULL 值出现在最后。

　　查询结果可在多个列上进行排序，而每个列的升序或降序可以互相独立。下面的查询从president 表中检索行，并按出生的州降序、在每个州中再按姓氏的升序对检索结果进行排序：

　　4. 限制查询结果如果一个查询返回许多行，但您只想看其中的几行，则可以利用LIMIT 子句，特别是与ORDER BY 子句结合时更是如此。MySQL允许限制一个查询的输出为前n 行。下面的查询选择了5 位出生日期最早的总统：

　　如果利用ORDER BY birth DESC 按降序排序，将得到5 位最晚出生的总统。LIMIT 也可以从查询结果中取出中间部分。为了做到这一点，必须指定两个值。第一个值为结果中希望看到的第一个记录（第一个结果记录的编号为0 而不是1）。第二个值为希望看到的记录个数。下面的查询类似于前面那个查询，但只显示从第11行开始的5 个记录：

　　自MySQL3.23.2 以来，可按照一个公式来排序查询结果。例如，利用ORDER BYRAND( ) 与LIMIT 结合，从president 表中随机抽取一个记录：

　　5. 计算并命名输出的列值

　　前面的多数查询通过从表中检索值已经产生了输出结果。MySQL还允许作为一个公式的结果来计算输出列的值。表达式可以简单也可以复杂。下面的查询求一个简单表达式的值（常量）以及一个涉及几个算术运算符和两个函数调用的较复杂的表达式的值：

　　此查询把名和姓连接起来，中间间隔一个空格，将总统名形成一个单一字符串，而且将出生城市和州连接在一起，中间隔一个逗号，形成出生地。

　　在利用表达式来计算列值时，此表达式被用作列标题。如果表达式很长（如前面的一些查询样例中那样），那么可能会出现一个很宽的列。为了处理这种情况，此列可利用AS name结构来重新命名标题。这样的名称为列别名。用这种方法可使上面的输出更有意义，如下所示：

　　6. 使用日期

　　在MySQL中使用日期时要记住的是，在表示日期时首先给出年份。1999 年7 月27 日表示为“1999 - 07 - 27”,而不是像通常那样表示为“ 07 - 27 - 1999”或“27 - 07 - 1999”。MySQL提供了几种对日期进行处理的方法。可以对日期进行的一些运算如下：

　　■ 按日期排序。（这点我们已经看到几次了。）

　　■ 查找特定的日期或日期范围。

　　■ 提取日期值的组成部分，如年、月或日。

　　■ 计算日期的差。

　　■ 日期增加或减去一个间隔得出另一日期。

　　下面给出一些日期运算的例子。

　　为了查找特定的日期，可使用精确的日期值或与其他日期值进行比较，将一个DATE 列与有关的日期值进行比较：

为了测试或检索日期的成分，可使用诸如YEAR( )、MONTH( ) 或DAYOFMONTH( ) 这样的函数。例如，可通过查找月份值为3 的日期，找出与笔者出生在相同月份（三月）的总统。

　　为了更详细，详细到天，可组合测试MONTH( ) 和DAYOFMONTH( ) 以找出在笔者的生日出生的总统：

　　这是一种可用来生成类似报纸上娱乐部分所刊登的那种“这些人今天过生日”清单的查询。但是，不必按前面的查询那样插入一个特殊的日期。为了查找每年的今天出生的总统，只要将他们的生日与C U R R E N T _ DATE 进行比较即可：

　　可从一个日期减去另一个日期。这样可以知道日期间的间隔，这对于确定年龄是非常有用的。例如，为了确定哪位总统活得最长，可将其逝世日期减去出生日期。为此，可利用函数TO _ DAYS( ) 将出生日期和逝世日期转换为天数，求出差，然后除以365 得出大概的年龄：

　　此查询中所用的FLOOR( ) 函数截掉了年龄的小数部分，得到一个整数。得出日期之差，还可以确定相对于某个特定日期有多长时间。这样可以告诉历史同盟的会员，他们还有多久就应该更新自己的会员资格了。计算他们的截止日期和当前日期之差，如果小于某个阈值，则不久就需要更新了。下面的查询是查找需要在60 天内更新的会员：

　　自MySQL3.22 以来，可使用DATE_ADD( ) 或DATE_SUB( ) 从一个日期计算另一个日期。这些函数取一个日期及时间间隔并产生一个新日期。例如：

　　本节中前面给出的一个查询选择70 年代逝世的总统，它对选择范围的端点使用直接的日期值。该查询可以利用一个字符串日期和一个由开始日期和时间间隔计算出的结束日期来重写：

　　会员更新查询可根据DATE_ADD( ) 写出如下：

　　本章前面给出了一个查询如下，确定不久要来检查但还没来诊所的牙科病人：

　　现在回过头来看，读者会更清楚这个查询的含义了。

　　7. 模式匹配

　　MySQL允许查找与某个模式相配的值。这样，可以选择记录而不用提供精确的值。为了进行模式匹配运算，可使用特殊的运算符（ LIKE 和NOT LIKE），并且指定一个包含通配符的串。字符“_”匹配任意单个字符，而“%”匹配任意字符序列（包括空序列）。使用L I K E或NOT LIKE 的模式匹配都是不区分大小写的。下列模式匹配以“W”或“w”开始的姓：

　此查询给出了一个常见的错误，它对一个算术比较运算符使用了模式。这种比较成功的惟一可能是相应的列确实包含串“ W %”或“w %”。下列模式匹配任意位置包含“W”或“w”的姓：

　　MySQL还提供基于扩展正规表达式的模式匹配。正规表达式在附录C 的REGEXP 运算符的介绍中描述。

　　8. 生成汇总

　　MySQL所能做的最有用的事情是浓缩大量的原始数据行并对其进行汇总。当学会了利用MySQL来生成汇总时，它就变成了用户强有力的好帮手了，因为手工进行汇总是一项冗长的、费时的、易出错的工作。汇总的一种简单的形式是确定在一组值中哪些值是唯一值。利用DISTINCT 关键字来删除结果中的重复行。例如，总统出生的各个州可按如下找出：

　　其他的汇总形式涉及计数，可利用COUNT( ) 函数。如果使用COUNT (*)，它将给出查询所选择的行数。如果一个查询无WHERE 子句，COUNT(*) 将给出表中的行数。下列查询给出共有多少人当过美国总统：

　　如果查询有WHERE 子句，COUNT(*) 将给出此子句选择多少行。下面的查询给出目前为止对班级进行了多少次测试：

　　COUNT(*) 对选中的行进行计数。而COUNT(col_name) 只对非NULL 值进行计数。下面的查询说明了这些差异：

　　这表示，总共有41位总统，他们中只有一个具有名字后缀，并且大多数总统都已去世。自MySQL3.23.2 以来，可以将COUNT( ) 与DISTINCT 组合对选择结果集中不同的值进行计数。例如，为了对总统出生的不同州进行计数，可执行下列查询：

　　可以根据汇总列中单独的值对计数值进行分解。例如，您可能根据下列的查询结果知道班级中所有学生的人数：

　　但是，有多少是男孩？有多少是女孩？分别得出男孩、女孩的一种方法是分别对每种性别进行计数：

　　虽然这个方法可行，但是它很繁锁而且并不真正适合于可能有许多不同的值的列。考虑一下怎样以这种方式确定每个州出生的总统人数。您不得不找出有哪些州，从而不能省略（SELECT DISTINCT state FROM president），然后对每个州执行一个SELECT COUNT(*) 查询。很显然，有些事是可以简化的。所幸MySQL可以利用单个查询对一个列中不同的值进行计数。因此，针对学生表可以按如下得出男孩和女孩的人数：

　　如果以这种方法对值计数， GROUP BY 子句是必须的；它告诉MySQL在对值计数之前怎样进行聚集。如果将其省去，则要出错。COUNT(*) 与GROUP BY 一起用来对值进行计数比分别对每个不同的列值进行计数有更多的优点，这些优点是：

　　■ 不必事先知道要汇总的列中有些什么值。

　　■ 不用编写多个查询，只需编写单个查询即可。

　　■ 用单一查询就可以得出所有结果，因此可以对结果进行排序。

　　前两个优点对于更方便地表示查询很重要。第三个优点也较为重要，因为它提供了显示

　　结果的灵活性。在使用GROUP BY 子句时，其结果是在要分组的列上进行排序的，但是可以

　　使用ORDER BY 来按不同的次序进行排序。例如，如果想得到各州产生的总统人数，并按产

　　生人数最多的州优先排出，可以如下使用ORDER BY 子句：

　　如果希望进行排序的列是从计算得出的，则可以给该列一个别名，并在ORDER BY 子句中引用这个别名。前面的查询说明了这一点； COUNT(*) 列的别名为count。引用这样的列的另一种方法是引用它在输出结果中的位置。前面的查询可编写如下：

　我不认为按位置引用列易读。如果增加、删除或重新排序输出列，必须注意检查ORDER BY子句，并且如果列号改变后还得记住它。别名就不存在这种问题。如果想与计算出来的列一道使用GROUP BY，正如ORDER BY 一样，应该利用别名或列位置来引用它。下面的查询确定在一年的每个月中出生的总统人数：

　　如果不想用LIMIT 子句来限制查询输出，而是利用查找特定的COUNT( ) 值来达到这个目的，可使用HAVING 子句。下面的查询给出了产生两个以上总统的州：

　　从更为普遍的意义上说，这是一种在要查找的列中重复值时执行的查询类型。HAVING 类似于WHERE，但它是在查询结果已经选出后才应用的，用来缩减服务器实际送到客户机的结果。除了COUNT( ) 外还有许多汇总函数。MIN( )、MAX( )、SUM( ) 和AVG( ) 函数在确定列的最大、最小、总数和平均值时都非常有用，甚至可以同时使用它们。下面的查询得出给定的测试和测验的各种数字特性。它还给出有多少学分参与了每个值的计算（有的学生可能缺旷或未计入）。

　　当然，如果您知道这些信息是来自测验的还是测试的，则它们就会更有意义。但是，为了产生那样的信息，还需要参考event 表；我们将在下一节“从多个表中检索信息”讨论这个查询。汇总信息是很有意思的，因为它们是那么有用，但不太好控制，容易走样。请看下列查询：

　　此查询选择已经去世的总统，按出生地对他们进行分组，并计算出他们逝世时的年龄，计算出平均年龄（每个州的），然后按平均年龄进行排序。换句话说，此查询按所出生地确定已故总统的平均寿命。但这说明了什么呢？它仅仅说明您可写该查询，当然并不说明此查询是否值得写。并不是用一个数据库可以做的所有事情都同样有意义；但是，人们有时在发现可以利用自己的数据库进行查询时感到很开心。这可能说明关于转播运动会的不断增加的深奥的（空洞的）统计数据在过去几年里正在不断增多的原因。运动统计者可以使用他们的数据库来计算出某个队的历史纪录，而这些数字你可能感兴趣，也可能毫无兴致。

　　9. 从多个表中检索信息

　　到目前为止，我们所编写的查询都是从单个表中得到数据的。现在，我们将进行一件更为有趣的工作。以前笔者曾经提到过，关系DBMS 的强大功能在于它能够将一样东西与另一样东西相关联，因为这样使得能够结合多个表中的信息来解答单个表不能解答的问题。本节介绍怎样编写这种查询。在从多个表中选择信息时，需要执行一种称为连接（ j o i n）的操作。这是因为需要将一个表中的信息与其他表中的信息相连接来得出查询结果。即通过协调各表中的值来完成这项工作。

　　我们来研究一个例子。在前面的“学分保存方案”小节中，给出了一个检索特定日期的测验或测试学分的查询，但没有解释。现在可以进行解释了。这个查询实际涉及到三种连接方法，因此我们分两步进行研究。第一步，我们构造一个对特定日期的学分进行选择的查询，如下所示：

　　此查询找出具有给定日期的记录，然后利用该记录中的事件ID 查找具有相同事件ID 的学分。对于每个匹配的事件记录和学分记录组合，显示学生ID、学分、日期和事件类型。此查询在两个重要方面不同于我们曾经编写过的其他查询。它们是：

　　■ FROM 子句给出了不止一个表名，因为我们要检索的数据来自不止一个表：

　　FROM event,score

　　■ WHERE 子句说明event 和score 表是由每个表中的event_id 值的匹配连接起来的：

　　where event.event_id=score.event_id

　　请注意，我们是怎样利用tbl_name.col_name 语法引用列，以便MySQL知道引用的是哪些表的列。（event_id 出现在两个表中，如果不用表名来限定它的话将会出现混淆。）此查询中的其他列（ date、score、type）可单独使用而不用表名限定符，因为它们在表中只出现一次，从而不会出现含混。但是，一般在连接中我们对每个列都进行限定以便清晰地表示出每个列是属于哪个表。在完全限定的形式下，查询如下：

　　从现在起，我们将使用完全限定的形式。第二步，我们利用student 表完成查询以便显示学生名。（第一步中查询的输出给出了student_id 字段，但是名字更有意义。）名字显示是利用score 表和student 表两者都具有student_id 列，使它们中的记录可被连接这个事实来完成的。最终的查询如下：

　此查询与前一个查询的差别在于：

　　■ student 表被增加到了FROM 子句中，因为除了event 表和score 表外还用到了它。

　　■ student_id 列现在不明确了（因为现在有两个引用到的表都含有此列），因此必须限定为score.student_id 或student.student_id 以表明使用的是哪个表。

　　■ WHERE 子句有一个附加项，它说明根据学生ID 将score 表记录与student 表记录进行匹配。

　　■ 此查询是显示学生名而不是学生ID。（当然，如果愿意的话，可以两者都显示。）利用此查询，可以加入任意日期，得到该日期的学分，用学生名和学分类型完善查询结果。不一定要了解关于学生ID 或事件ID 的情况。MySQL小心地得出相关的ID 值并利用它们自动地使各表的行相配。

　　学分保存方案涉及的另一项工作是汇总学生的缺勤情况。缺勤情况是按学生ID 和日期在absence 表中记录的。为得到学生名（而不仅仅是ID），我们需要根据student_id 的值将absence 表连接到student 表。下面的查询给出了学生的ID 号和名字以及缺勤计数：

　　注意：虽然我们在GROUP BY 子句中应用了一个限定符，但对于这个查询来说不是必须的。因为GROUP BY 子句只引用选择表中（此查询的前两行）的列。在该处只有一个名为student_id 的列，因此MySQL知道应该用哪个列。这个规则对ORDER BY 子句也成立。如果我们希望只了解哪些学生缺过勤，则此查询所产生的输出也是有用的。但是，如果我们将此清单交给学校办公室，他们可能会说，“其他的学生呢？我们需要每个学生的情况。”这是一个稍微有点不同的问题。它表示需要知道学生的缺勤数，即使没有缺勤的学生也需要知道。因为问题的不同，查询也应该不同。

为了解决上述问题，使用LEFT JOIN 而不涉及WHERE 子句中的学生ID。LEFT JOIN要求MySQL对从连接首先给出的表中选择每行生成一个输出行（即LEFT JOIN 关键字左边给出的表）。由于首先给出student 表，我们得到了每个学生的输出结果，即使是那些在absence 表中未给出的学生也都包括在输出中。此查询如下：

　　前面，在“生成汇总”一节中，我们执行了一个查询，它生成score 表中数据的数值特征。该查询的输出列出了事件ID，但不包括学分日期或类型，因为我们不知道怎样将score 表连接到event 表以得到学分的日期和类型。现在可以做到了。下面的查询类似于早先的那个，但是它给出了学分的日期和类型而不只是简单的数字事件ID：

　　可利用诸如COUNT( ) 和AVG( ) 这样的函数生成多个列上的汇总，即使这些列来自不同的表也是如此。下面的查询确定学分数，以及事件日期与学生性别的每种组合的平均学分。

　　我们可以使用一个类似的查询来完成学分保存方案的一个任务，即在学期末计算每个学生的总学分。相应的查询如下：

　　不一定要求连接必须用两个不同的表来完成。这似乎有点奇怪，但是确实可以将一个表连接到其自身。例如，可通过针对每个总统的出生地查看其他各个总统的出生地，确定几个总统是否出生在相同城市。此查询如下：

　　此查询有两个技巧性的东西：

　　■ 我们需要使用同一表的两个实例，因此建立了表的别名（ p 1、p 2），并利用它们无歧义地引用表列。

　　■ 每个总统的记录与自身相匹配，但是我们不希望在输出中看到同一总统出再现两次。WHERE 子句的第二行保证比较的记录为不同总统的记录，使记录不与自身匹配。可以编写一个查找出生在同一天的总统的类似查询。出生日期不能直接比较，因为那样会错过出生在不同年份的总统。我们用MONTH( ) 和DAYOFMONTH( ) 来比较出生日期的月和日，相应的查询如下：

　　利用DAYOFYEAR( ) 而不是MONTH( ) 和DAYOFMONTH( ) 将得出一个更为简单的查询，但是在比较闰年日期与非闰年日期时将会得出不正确的结果。迄今所执行的连接结合了来自那些在某种意义上具有逻辑关系的表中的信息，但是只有您知道该关系无意义。MySQL并不知道（或不关心）所连接的表相互之间是否相关。例如，可将event 表连接到president 表以找出在某个总统生日那天是否进行了测验或测试，此查询如下：

　　它产生了您所想要的东西。但说明了什么呢？这说明MySQL将愉快地制造出结果，至于这些结果是否有意义它不管。这是因为您使用的是计算机，所以它不能自动地判断查询的结果有用或无用。无论如何，我们都必须为自己所做的事负责。