[译] Python 和 Pandas 在 SQLite 数据库中的运用

dinghj 2018-04-11

展开全文

原文作者：Vik Paruchuri
译文出自：掘金翻译计划
译者： Nicolas(Yifei) Li
校对者：marcmoore, futureshine

SQLite 是一个数据库引擎，使用它能方便地存储和处理关系型数据。它和 cvs 格式很相似，SQLite 把数据存储在一个单独的文件中，它能方便地与其他人共享。大部分的编程语言和编译环境都对 SQLite 数据库提供了很好的支持。Python 也不例外，并且专门有一个访问 SQLite 数据库的程序库，叫做 sqlite3，自从 2.5 版本以来，它就已经被 Python 纳入标准库里。在这篇博文中，我们将学会如何使用 sqlite3 创建、查询和更新数据库。也包括了，使用 pandas 程序包如何简化 SQLite 数据库。我们会使用 Python 3.5，但是所有的实现方法应该兼容 Python 2。

在我们开始之前，让我们先快速检阅下我们之后要处理的数据。我们看到的是航空公司的航班数据，它包含了有关航空公司的信息，机场名称和往来各个机场的航线名称。每一条航线代表着有一架航班重复往返于目的地和始发地的机场。

所有的数据都存在一个叫做 flights.db 的数据库中，它有三张表格 - airports, airliens, routes。你可以到这里下载到它。

这里有两行来自 airlines 表格的数据:

	id	name	alias	iata	icao	callsign	country	active
10	11	4D Air	\N	NaN	QRT	QUARTET	Thailand	N
11	12	611897 Alberta Limited	\N	NaN	THD	DONUT	Canada	N

就如你在上表中看到的，每一行都是一个不同的航空公司，每一列是这个航空公司的属性，例如 name 和 country。每一个航空公司也都有一个独一无二的 id，所以如果需要的时候，我们能非常方便地查询到。

这里有两行来自 airports 表格的数据:

	id	name	city	country	code	icao	latitude	longitude	altitude	offset	dst	timezone
0	1	Goroka	Goroka	Papua New Guinea	GKA	AYGA	-6.081689	145.391881	5282	10	U	Pacific/Port_Moresby
1	2	Madang	Madang	Papua New Guinea	MAG	AYMD	-5.207083	145.7887	20	10	U	Pacific/Port_Moresby

就如你所看到的，每一行都对应了一个机场，并且包含了机场所在地的信息。每一个机场也有一个独一无二的 id，所以我们也能方便地进行查询。

这里有两行来自 routes 表格的数据:

	airline	airline_id	source	source_id	dest	dest_id	codeshare	stops	equipment
0	2B	410	AER	2965	KZN	2990	NaN	0	CR2
1	2B	410	ASF	2966	KZN	2990	NaN	0	CR2

每一条航线包含有一个 airline_id，这个 id 代表飞这条航线的航空公司，souce_id 也是，它是航班始发地机场的 id，而 dest_id 是该航班目的地机场的 id。

至此，我们知道了需要处理的是什么数据，让我们先从连接数据库和执行一条查询指令开始。

使用 `Python` 执行数据库的查询指令

为了通过 Python 使用 SQLite 数据库，我们先要连接这个数据库。我们可以使用 connect 方法, 它返回一个 Connection 对象:

import sqlite3

conn = sqlite3.connect("flights.db")

一旦我们有了一个 Connection 对象，之后创建一个 Cursor 对象。Cursors 让我们能对一个数据库执行 SQL 查询指令。

cur = conn.cursor()

一旦我们有了这个 Cursor 对象，我们能使用它通过适当地调用 execute 方法来对数据库执行查询指令。通过以下代码，你能从 airlines 表中获取前 5 行数据结果。

cur.execute("select * from airlines limit 5;")

你可能已经注意到，我们没有把之前的查询结果存储到一个变量中。这是因为我们需要执行另外一个指令来真正地获得结果。我们可以使用 fetchall 方法来获取查询的结果。

results = cur.fetchall()
print(results)





[(0, '1', 'Private flight', '\\N', '-', None, None, None, 'Y'),
 (1, '2', '135 Airways', '\\N', None, 'GNL', 'GENERAL', 'United States', 'N'),
 (2, '3', '1Time Airline', '\\N', '1T', 'RNX', 'NEXTIME', 'South Africa', 'Y'),
 (3, '4', '2 Sqn No 1 Elementary Flying Training School', '\\N', None, 'WYT', None, 'United Kingdom', 'N'),
 (4, '5', '213 Flight Unit', '\\N', None, 'TFU', None, 'Russia', 'N')]

如你所见，查询结果以一组 tuples 的格式返回。每一个 tuple 对应了我们从数据库中访问到某一行数据。以这种形式处理数据是非常麻烦的。我们需要人为地增加每一列的表头，并且手动解析数据。幸运的是，pandas 提供的库中有更加便捷的方法，我们会在下一个部分中提到它。

在我们继续探索之前，及时关闭那些被打开的 Connection 对象 和 Cursor 对象 是良好的习惯。这样避免了 SQLite 数据库被锁上。当一个 SQLite 数据库被锁上的时候，你可能就无法对这个数据库进行更新操作了，也会得到错误的提示。我们能通过以下方式关闭 Connection 对象 和 Cusor 对象:

cur.close()
conn.close()

绘制机场地图

使用我们新发现的查询指令，我们能在世界地图上描绘和展示出所有机场的位置。首先，我们先要查询机场的经纬度坐标：

import sqlite3

conn = sqlite3.connect("flights.db")
cur = conn.cursor()
coords = cur.execute("""
  select cast(longitude as float),
  cast(latitude as float)
  from airports;"""
).fetchall()

以上的查询代码将检索返回 airports 表中每列 latitude 和 longitude 的数据，并把结果转化成 float 类型。之后，我们调用 fetchall 方法来获取他们。

接下来，我们通过导入 matplotlib 来创建我们的测绘图，它是 Python 上主要的绘图库。结合 basemap 包，这允许我们只使用 Python 就能创建地图。

首先，我们需要导入这些库:

from mpl_toolkits.basemap import Basemap
import matplotlib.pyplot as plt

之后，建立我们的地图，并且描绘出大陆和海岸线，它们会构成我们地图的背景。

m = Basemap(
  projection='merc',
  llcrnrlat=-80,
  urcrnrlat=80,
  llcrnrlon=-180,
  urcrnrlon=180,
  lat_ts=20,
  resolution='c'
)

m.drawcoastlines()
m.drawmapboundary()

最后，我们在地图上描绘出每一个机场的坐标。我们从 SQLite 数据库中检索一组 tuples。在每个 tuple 中第一个元素是飞机场的经度，第二个是纬度。我们会把这些经度和纬度转换成它们自己的数组，之后把它们描绘在地图上。

x, y = m(
  [l[0] for l in coords],
  [l[1] for l in coords]
)

m.scatter(
  x,
  y,
  1,
  marker='o',
  color='red'
)

最终，我们把每一个机场都展现在了世界地图上:

你可能注意到，直接操作来自数据库的数据让你痛苦不堪。我们需要记住每一个 tuple 的位置对应到数据库中每一列是什么，并且手动为每一列解析出每组各自的内容。

用 `pandas DataFrame` 读取数据结果

我们能使用 pandas 的 read_sql_query 方法直接把一条 SQL 查询结果读取到一个 pandas DataFrame 中。下面的代码将执行和前文中作用一样的查询，但是它会返回一个 DataFrame。对比前文的数据查询方式，它能带来诸多好处:

我们不需要每次到最后都创建一个 Cursor 对象 或者调用 fetchall。
它能自动通过表头的名字来阅读整个表。
它创建了一个 DataFrame，所以我们能快速的挖掘数据。

    import pandas as pd
    import sqlite3

    conn = sqlite3.connect("flights.db")
    df = pd.read_sql_query("select * from airlines limit 5;", conn)
    df

	index	id	name	alias	iata	icao	callsign	country	active
0	0	1	Private flight	\N	-	None	None	None	Y
1	1	2	135 Airways	\N	None	GNL	GENERAL	United States	N
2	2	3	1Time Airline	\N	1T	RNX	NEXTIME	South Africa	Y
3	3	4	2 Sqn No 1 Elementary Flying Training School	\N	None	WYT	None	United Kingdom	N
4	4	5	213 Flight Unit	\N	None	TFU	None	Russia	N

如你所见，我们得到了一个有着清晰格式的 DataFrame 作为结果。我们能方便地操作这些列:

df["country"]





  0              None
  1     United States
  2      South Africa
  3    United Kingdom
  4            Russia
  Name: country, dtype: object

强烈建议尽可能使用 read_sql_query 方法。

构建航线图

至此，我们已经知道如何把查询结果读取到 pandas DataFrames 中，我们能在世界地图上创建每一个航空公司的航线图。首先，我们需要查询这些数据。查询方式如下:

获取每一条航线中始发地机场的经纬度。
获取每一条航线中目的地机场的经纬度。
把所有这些坐标转换成 float 类型。
把检索结果读取进一个 DataFrame 中，并把他们存在变量 routes 中。

    routes = pd.read_sql_query("""
                               select cast(sa.longitude as float) as source_lon,
                               cast(sa.latitude as float) as source_lat,
                               cast(da.longitude as float) as dest_lon,
                               cast(da.latitude as float) as dest_lat
                               from routes
                               inner join airports sa on
                               sa.id = routes.source_id
                               inner join airports da on
                               da.id = routes.dest_id;
                               """,
                               conn)

之后，我们开始创建地图:

m = Basemap(projection='merc',llcrnrlat=-80,urcrnrlat=80,llcrnrlon=-180,urcrnrlon=180,lat_ts=20,resolution='c')
m.drawcoastlines()

首先，我们开始遍历最先的 3000 行数据，并绘制他们。代码如下:

把前 3000 行数据遍历存储到 routes 中。
判断航线是否太长。
如果航线不是很长:
- 在始发地和目的地之间画一个圈。

    for name, row in routes[:3000].iterrows():
        if abs(row["source_lon"] - row["dest_lon"]) < 90:
            # Draw a great circle between source and dest airports.
            m.drawgreatcircle(
                row["source_lon"],
                row["source_lat"],
                row["dest_lon"],
                row["dest_lat"],
                linewidth=1,
                color='b'
            )

最后，我们完成了这个地图:

比起直接使用 sqlite3 处理这些原始检索数据，当我们使用 pandas 把所有的 SQL 检索到的数据读入一个 DataFrame 中是一个非常有效的方法。

至此，我们理解了如何检索数据库的内容，接下来，让我们看看如何对这些数据进行修改。

这篇博文还是挺有趣的吧？让我们使用 `Dataquest` 学习数据科学

选一个你喜欢的浏览器继续学习。
操作真实世界的数据。
创建一个项目集。

免费在线课堂

修改数据库的内容

我们可以使用 sqlite3 开发包来修改一个 SQLite 数据库，比如插入，更新或者删除某些行内容。创建数据库的连接和查询一个数据表的方法一样，所以我们会跳过这个部分。

使用 `Python` 插入行内容

为了插入一行数据，我们需要写一条 INSERT 查询指令。以下代码会对 airlines 表中新增加一行数据。我们指定 9 个需要被添加的数据，对应着 airlines 表格的每一列。这会为这个表增加一行新数据。

cur = conn.cursor()
cur.execute("insert into airlines values (6048, 19846, 'Test flight', '', '', null, null, null, 'Y')")

如果你尝试对这个表格进行检索，你其实还不能看到这条新的数据。然而，你会看到一个名字为 flights.db-journal 的文件被创建了。在你准备好把它 commit 到主数据库 flights.db之前，flights.db-journal 会代为存储新增加的行数据。

SQLite 并不会写入数据库直到你提交了一个 transaction。每一个 transaction 包含了 1 个或者多个查询指令，它能把所有新的变化一次性提交给数据库。这样的设计使得从意外的修改或错误中恢复变得更加容易。Transaction 允许你执行多个查询指令，最终这些结果都会修改数据库。这确保了如果有一条查询指令失败了，数据库不会只有部分内容被更新。

举个例子来说，如果你有两张表，一张表包含了对银行账户收取的费用(charges)，另一张表包含了账户在银行内存款的余额(balances)。假定有一位银行客户 Roberto，他想给姐妹 Luisa 转 $50 美元。为了完成这笔交易，银行应该需要执行以下几步:

在 charges 中新增加一行，描述有 $50 美元正要从 Roberto 的账户转到 Luisa。
更新 Roberto balances 表中的数据内容，并且移除 $50 美元。
更新 Luisa balances 表中的数据内容，并且增加 $50 美元。

如此来说，为了更新所有的表格需要三次单独的 SQL 查询指令。如果一个查询指令失败了，我们的数据库就会被破损的数据卡住。举例来说，如果前两条指令成功运行了，第三条失败了，Roberto 将会损失他的钱，但是 Luisa 也不会获得这笔钱。Transactions 意味着主数据库不会被更新除非所有的查询指令都被成功执行。这避免了系统进入错误的状态，用户可能会丢失他们的存款。

默认情况下，当你执行了任何会修改数据库的查询指令时，sqlite3 会打开一个 transaction。你能在这里了解更多。我们能提交 transaction，也能使用 commit 方法对 airlines 表新增加内容:

conn.commit()

现在，当我们检索 flights.db 的时候，我们将看到这个额外的数据，它包含我们的测试航班。

pd.read_sql_query("select * from airlines where id=19846;", conn)

	index	id	name	alias	iata	icao	callsign	country	active
0	1	19846	Test flight			None	None	None	Y

对检索增加条件参数

在最后那条查询指令中，我们把固定值插入到所需要的数据库中。多数情况下，当你想插入数据到数据库中的时候，它不会是一些固定值，它应该是一些你想传入方法的动态值。这些动态值可能来自于下载得到的数据，或者来自于用户的输入。

当操作动态值的时候，有些人尝试用 Python 的格式化字符串来插入这些值:

cur = conn.cursor()
name = "Test Flight"
cur.execute("insert into airlines values (6049, 19847, {0}, '', '', null, null, null, 'Y')".format(name))
conn.commit()

你应该避免这样做！通过 Python 的格式化字符串插入数值会让你的程序更加容易受到 SQL 注入的攻击。幸运的是，sqlite3 有一个更加直接的方式来注入动态值，而不是依赖格式化的字符串。

cur = conn.cursor()
values = ('Test Flight', 'Y')
cur.execute("insert into airlines values (6049, 19847, ?, '', '', null, null, null, ?)", values)
conn.commit()

任何在查询指令中以 ? 形式出现的数值都会被 values 中的数值替代。第一个 ? 将会被 values 中的第一个数值替代，第二个也是，其他以此类推。这个方式对任何形式的查询指令都有用。如此就创建了一个 SQLite 带参数形式的查询指令，它有效避免了 SQLite 注入 的问题。

更新行数据内容

通过使用 execute 方法，我们可以修改在 SQLite 表格中某些行数据的内容:

cur = conn.cursor()
values = ('USA', 19847)
cur.execute("update airlines set country=? where id=?", values)
conn.commit()

之后，我们能验证更新的内容:

pd.read_sql_query("select * from airlines where id=19847;", conn)

	index	id	name	alias	iata	icao	callsign	country	active
0	6049	19847	Test Flight			None	None	USA	Y

删除某些行数据的内容

最后，通过使用 execute 方法，我们能删除数据库中的某些行数据内容:

cur = conn.cursor()
values = (19847, )
cur.execute("delete from airlines where id=?", values)
conn.commit()

之后，通过确认没有相匹配的查询内容，我们能验证这些行数据内容确实被删除了:

pd.read_sql_query("select * from airlines where id=19847;", conn)

创建表格

我们可以通过执行一条 SQLite 查询指令来创建表。我们能创建一个表，它能展示每天在某一条航线上的航班，使用以下几列:

id — 整型
departure — 日期型，表示飞机离开机场的时间
arrival — 日期型，表示飞机到达目的地的时间
number — 文本型，飞机航班号
route_id — 整型，正在飞行的航线号

    cur = conn.cursor()
    cur.execute("create table daily_flights (id integer, departure date, arrival date, number text, route_id integer)")
    conn.commit()

一旦我们创建了这个表，我们就能对这个表插入数据:

cur.execute("insert into daily_flights values (1, '2016-09-28 0:00', '2016-09-28 12:00', 'T1', 1)")
conn.commit()

当我们对该表执行查询指令的时候，我们就能看到这些行数据内容:

pd.read_sql_query("select * from daily_flights;", conn)

	id	departure	arrival	number	route_id
0	1	2016-09-28 0:00	2016-09-28 12:00	T1	1

使用 `pandas` 创建表

pandas 包提供给我们一个更加快捷地创建表格的方法。我们只需要先创建一个 DataFrame，之后把它导出到一个 SQL 表格内。首先，我们将创建一个 DataFrame:

from datetime import datetime
df = pd.DataFrame(
    [[1, datetime(2016, 9, 29, 0, 0) , datetime(2016, 9, 29, 12, 0), 'T1', 1]],
    columns=["id", "departure", "arrival", "number", "route_id"]
)

之后，我们就能调用 to_sql 方法，它将 df 转化成一个数据库中的数据表。我们把参数 keep_exists 设定成 replace，为了删除并且替换数据库中任何已存在的 daily_flights:

df.to_sql("daily_flights", conn, if_exists="replace")

通过对数据库执行查询指令，我们能验证是否正常工作了:

pd.read_sql_query("select * from daily_flights;", conn)

	index	id	departure	arrival	number	route_id
0	0	1	2016-09-29 00:00:00	2016-09-29 12:00:00	T1	1

使用 `Pandas` 修改数据表

对于现实世界中的数据科学来说，最难处理的部分就是那些几乎经常每秒都不停变换着的数据。拿 aireline 这个例子来说，我们可能决定在 airelines 表中新增加一个 airplanes 的属性，它显示出每一个航空公司拥有多少架飞机。幸运的是，在 SQLite 中有一个方式能修改表并且添加这些列:

cur.execute("alter table airlines add column airplanes integer;")

请注意，我们不需要调用 commit 方法 —— alter table 查询指令会被立刻执行，并且不会发生在一个 transaction 中。现在，我们能查询并且看到这些额外的列:

pd.read_sql_query("select * from airlines limit 1;", conn)

	index	id	name	alias	iata	icao	callsign	country	active	airplanes
0	0	1	Private flight	\N	-	None	None	None	Y	None

你可能注意到了，在 SQLite 中所有的列都被设值成了 null（在 Python 中被转化成了 None），因为这些列还没有任何数值。

使用 `Pandas` 修改表

也可以使用 Pandas 通过把表导出成 DataFrame 去修改表格的内容，仅需要对 DataFrame 进行修改，之后把这个 DataFrame 导出成一个表:

df = pd.read_sql("select * from daily_flights", conn)
df["delay_minutes"] = None
df.to_sql("daily_flights", conn, if_exists="replace")

以上代码将会对 daily_flight 表增加一个叫做 delay_minutes 的列项。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： dinghj > 《科学计算》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

dinghj

关注对话

TA的最新馆藏

利用page rank,hits算法实现的一个简单的文本摘要系统
用graphviz,pygraphviz快速自动绘图
利用pygraphviz绘制二叉树
[转] 法国画家delphinenjolras【绝品收藏】
艾菲：你以为做的是投资，其实只是在赌博！
凌落辰：从几道题中看到的股市哲思

喜欢该文的人也喜欢更多

热门阅读换一换

[译] Python 和 Pandas 在 SQLite 数据库中的运用

使用 Python 执行数据库的查询指令