精通 Oracle+Python，第 3 部分：数据分析-mseaspring-ChinaUnix博客

mseaspring

首页　| 　博文目录　| 　关于我

mseaspring

博客访问： 600639
博文数量： 226
博客积分： 10080
博客等级：上将
技术积分： 1725
用户组：普通用户
注册时间： 2007-11-26 11:15

文章分类

全部博文（226）

libevent（3）
twisted（1）
Meteor（4）
Mixin（2）
SQLite/pysqlite（4）
项目计划（1）
SQLAlchemy（5）
wxPython（19）
心理历程（1）
服务器设计（3）
赚钱（0）
通信知识（11）
VIM（10）
VC++（1）
中医理论（0）
软件知识（5）
轻松一刻（4）
python（41）
趣味题（0）
好图（0）
ACE（1）
gSOAP（3）
ORACLE（36）
C++（7）
Linux（62）
未分配的博文（2）

文章存档

2011年（5）

2010年（64）

2009年（99）

2008年（37）

2007年（21）

我的朋友

字符串理论

文本分析的最低级别是字符串。Python 并不把字符区分为单独的数据类型，但却区分普通字符串和 Unicode 字符串类型。它们可以包含在单引号、双引号或三重引号内，并且是 Python 的一种不变对象 — 一旦创建就不能对其进行修改。每一个操作都会创建一个新的字符串对象。对于具有静态类型语言经验的编程人员而言，乍听上去这可能真得很奇怪，但此类实现有一些，多数与性能有关。

因为 Python 完全支持 Unicode，所以处理多语言信息不存在问题。在手动创建 Unicode 字符串时，您可以选择直接在字符串前使用 u 前缀（如 u"Unicode text"）或者使用内置的 unicode() 函数。可以使用 unicode() 或 encode() 方法在任何支持的字符集中对字符串进行编码。有关支持的编码列表，请查阅 Python 库参考 的或使用导入编码；打印 encodings._aliases.keys()。

您可以放心地使用 UTF-8 编写 Python 程序，记住仅变量名必须是有效的 ASCII 字符串。注释可以是希腊文、汉字或任意内容。不过，这样的文件或者要求使用附加字节顺序标记 (BOM) 的编辑器来保存，或者，要求您来编写第一行代码：

# -*- coding: utf-8 -*-

字符串提供有一组方法可用于进行大多数有用的文本操作，如 find()、split()、rjust() 或 upper()。它们在内置的 str 类型上实现，该类型可以表示普通字符串和 raw 字符串。（Raw 字符串与普通字符串对反斜线的解释不同。）

>>> zen = "Explicit is better than implicit."
>>> print zen.title()
'Explicit Is Better Than Implicit.'
>>> zen.split(' ')
['Explicit', 'is', 'better', 'than', 'implicit.']
>>> zen.rstrip('.').lower().replace('is', 'is always')
'explicit is always better than implicit'

Python 的 iterable 类型的最棒的一个特性是索引方法。普通索引以 0 开始而负索引向后计数，所以 [-1] 表示最后一个字符，[:5] 表示前 5 个字符，而 [5:-5] 表示前 5 个和后 5 个字符组成的字符串。

>>> sample = "Oracle Database"
>>> sample[0]
'O'
>>> sample[0:6], sample[7:15]
('Oracle', 'Database')
>>> sample[-8:]
'Database'
>>> sample[sample.index('Data')+4:]
'base'

正则表达式

Python 当然支持正则表达式。事实上，Python 的正则表达式 re 模块支持 Unicode、匹配、搜索、拆分、替换和分组。如果您熟悉 Oracle 对正则表达式的实现方式，您就不会对 Python 的函数感到陌生。

在详细比较 Python 和 Oracle 对正则表达式的实现时，值得注意的差异包括：

当关系设计要求一种不同于编程语言 1 的方法时，re.search() 可用于代替 Oracle 的 REGEXP_LIKE、REGEXP_INSTR 和 REGEXP_SUBSTR。
对 Python 语法改写后，re.sub() 的使用方式可以与 REGEXP_REPLACE 完全相同。不过，要注意 Oracle 的位置参数从 1 开始，而 Python 编制任何索引时都从 0 开始。
Oracle 的 match_parameter 表示正则表达式的一组标志，方式与 Python 在搜索模式或模式对象编译属性中使用 (?iLmsux) 语法的方式相同。要获得有效标志的列表，请比较 Python 库参考 的和 Oracle 数据库 SQL 语言参考 中 match_parameter 的有效值列表。

Python 的 re.search() 函数非常灵活，这归功于正则表达式这一基本概念。re 模块的最底层有一个对象，它表示匹配模式的方式允许以多种不同的方法对源字符串进行剖析。re.compile() 函数返回一个采用某一模式和若干可选标志的编译模式对象，如 re.I，它表示不区分大小写的匹配。

>>> import re
>>> p = re.compile("^a.*", re.I)
>>> print p
<_sre.SRE_Pattern object at 0x011CA660>

您无须显式编译正则表达式。re 模块中的函数以透明方式完成此工作。如果代码中多处用到编译模式，使用该模式非常有益，但是如果该模式仅使用一次则不需要这样的编码开销。

Python 中有 6 个正则表达式编译标志：

I (IGNORECASE) 用于不区分大小的匹配
L (LOCALE) 使得特殊的序列（如词和空格）与语言设置相关
M (MULTILINE) 意味着在多行中搜索该模式，这样 ˆ 可以匹配字符串的开始位置和每一个换行符后面的位置，$ 可以匹配每一个换行符前面的位置和字符串的结束位置
S (DOTALL) 强制使用点专用字符 (.) 匹配任意字符，包括换行符
U (UNICODE) 使得特殊的序列可以感知 Unicode
X (VERBOSE) 可以增强您编写的正则表达式的可读性。

要一次使用多个标志，只需将它们加在一起即可 — 如 re.compile("Oracle", re.I+re.S+re.M)。另一种方式是使用 (?iLmsux) 语法将使用所需数量的标志选项作为搜索模式的前缀。这样，前一表达式可写作 re.compile("(?ism)Oracle")。

有关使用正则表达式的最好建议是尽可能地避免使用它们。在将它们嵌入代码前，请确定没有字符串方法可以完成相同的工作，因为字符串方法更快同时不会带来导入以及正则表达式处理这些额外的开销。在字符串对象上使用 dir() 就可以看到可用的内容。

下例展示了在 Python 这样一种动态语言中看待正则表达式的方式。分析 tnsnames.ora 文件以便为每个网络别名创建 Easy Connect 字符串（将 file() 函数指向您的 tnsnames.ora 文件的位置）：

>>> import re
>>> tnsnames = file(r'tnsnames.ora').read()
>>> easy_connects = {}
>>> tns_re = "^(\w+?)\s?=.*?HOST\s?=\s?(.+?)\).*?PORT\s?=\s?(\d+?)\).
      *?SERVICE_NAME\s?=\s?(.+?)\)"
>>> for match in re.finditer(tns_re, tnsnames, re.M+re.S):
...  t = match.groups()
...  easy_connects[t[0]] = "%s:%s/%s" % t[1:]
>>> print easy_connects

此程序在 Oracle 数据库 XE 默认的 tnsnames.ora 文件上的输出是：

{'XE': 'localhost:1521/XE'}

请注意此正则表达式的静默程度足以为 IPC 条目所阻塞，因此需要把它们放在文件的未尾。分析匹配圆括号是一个 NP 完成问题。

因为提供有多种公开方法，Python 匹配对象的功能非常强大，这些方法包括 span()（它可以返回匹配范围）、group()（它可以按给定的索引返回匹配组）以及 groupdict()（它可以在模式含有命名的组时以字典形式返回匹配组）。

逗号分隔值

CSV 格式因其简洁性和跨平台设计常用于组织间的信息交换。使用正则表达式通常可以轻松地分析逗号分隔值，但使用 Python 的 csv 模块可以使此任务变得更为容易。

使用该模块要求开发人员熟悉该模块所采用的逻辑。有关 CSV 文件的最重要的信息是它的“方言”，它包含分隔符、引号字符、行终结符等相关信息。Python 2.5 中目前可用的方言是 excel 和 excel-tab。内置的嗅探器总是试图猜测正确的格式。写入器与阅读器对象支持 CSV 数据的输入和输出。

就本例而言，我用的是 HR 模式的 JOBS_HISTORY 表中的数据。它演示了如何直接从一个 SQL 查询创建 CSV 文件 job_history.csv。

	  
>>> import csv
>>> import cx_Oracle
>>> db = cx_Oracle.connect('hr/hrpwd@localhost:1521/XE')
>>> cursor = db.cursor()
>>> f = open("job_history.csv", "w")
>>> writer = csv.writer(f, lineterminator="\n", quoting=csv.QUOTE_NONNUMERIC)
>>> r = cursor.execute(" "SELECT * FROM job_history ORDER BY employee_id, start_date")
>>> for row in cursor:
...   writer.writerow(row)
...
>>> f.close()

该文件包含：

101,"1989-09-21 00:00:00","1993-10-27 00:00:00","AC_ACCOUNT",110
101,"1993-10-28 00:00:00","1997-03-15 00:00:00","AC_MGR",110
102,"1993-01-13 00:00:00","1998-07-24 00:00:00","IT_PROG",60
114,"1998-03-24 00:00:00","1999-12-31 00:00:00","ST_CLERK",50
122,"1999-01-01 00:00:00","1999-12-31 00:00:00","ST_CLERK",50
176,"1998-03-24 00:00:00","1998-12-31 00:00:00","SA_REP",80
176,"1999-01-01 00:00:00","1999-12-31 00:00:00","SA_MAN",80
200,"1987-09-17 00:00:00","1993-06-17 00:00:00","AD_ASST",90
200,"1994-07-01 00:00:00","1998-12-31 00:00:00","AC_ACCOUNT",90
201,"1996-02-17 00:00:00","1999-12-19 00:00:00","MK_REP",20

或者，您可以使用 Oracle SQL Developer 将数据以 CSV 格式导出。

要读取 CSV 文件，使用：

	  
>>> reader = csv.reader(open("job_history.csv", "r"))
>>> for employee_id, start_date, end_date, job_id, department_id in reader:
...   print job_id,
...
JOB_ID IT_PROG AC_ACCOUNT AC_MGR MK_REP ST_CLERK ST_CLERK 
  AD_ASST SA_REP SA_MAN AC_ACCOUNT

注意我不必在上面显式指定方言，它是自动得出的。我只是打印了 job_id 列，但针对这一分析过的文件我真正可以做的是将其插入数据库中。为确保日期得到正确处理，在批量插入前对 NLS_DATE_FORMAT 进行手动设置。

SQL> CREATE TABLE job_his (
  2     employee_id   NUMBER(6)    NOT NULL,
  3     start_date    DATE         NOT NULL,
  4     end_date      DATE         NOT NULL,
  5     job_id        VARCHAR2(10) NOT NULL,
  6     department_id NUMBER(4)
  7 );

>>> reader = csv.reader(open("job_history.csv", "r"))
>>> lines = []
>>> for line in reader:
...   lines.append(line)
...
>>> cursor.execute("ALTER SESSION SET NLS_DATE_FORMAT = 'YYYY-MM-DD HH24:MI:SS'")
>>> cursor.executemany("INSERT INTO job_his VALUES(:1,:2,:3,:4,:5)", lines)
>>> db.commit()

如果您使用 SQL Developer 创建了 CSV 文件，您可能需要修改日期格式，如下所示：

>>> cursor.execute("ALTER SESSION SET NLS_DATE_FORMAT = 'YY/MM/DD'")

csv 模块美中不足的地方是缺乏自身的 Unicode 支持。有关解决方案和使用 CSV 文件的更多示例，请参见 Python 库参考 的。

URL

urlparse 模块使您可以将统一资源定位器字符串分解为各个组件，分别表示 URL 模式、网络位置、路径、参数、查询字符串、碎片标识符、用户名、口令、主机名和/或端口。Python 2.5 支持 24 个最常用的模式，包括 svn+ssh、sftp 和 mms。下例显示了 urlparse 模块的一些特性：

>>> from urlparse import urlparse
>>> url = ""
>>> pr = urlparse(url)
>>> print type(pr)

>>> print pr.hostname

>>> print pr.query
rssid=rss_otn_news
>>> print url==pr.geturl()
True

RSS 新闻提供

RSS 基于一个非常简单的概念：您在事件发生时获得它的最新消息，而不是碰巧发现。整合来自许多不同来源的 RSS 新闻提供是开发领域的一个流行趋势，对新闻提供聚合器和 Web 2.0 混搭尤其如此。

RSS 是 XML 的一种方言，因此使用 Python 提供的一种 XML 分析器可轻松地对其进行处理。Python 标准库本身还没有提供用于分析新闻提供的模块。不过，feedparser.org 免费提供一个稳定的、经过广泛检验的通用新闻提供分析器。由于它没有外部依赖性，因此这是快速熟悉模块安装概念的一个很好的机会。

下载 feedparser 模块的最新版本（撰写此文时为 4.1）后，对其进行解压缩并将工作目录修改为 feedparser-4.1。在控制台/命令提示符下，运行 python setup.py install。此命令将模块放入 Python 文件夹，使其立即可供使用。就这样了。

了解一下 Oracle 的动态如何？

>>> import feedparser
>>> import time
>>> rss_oracle = feedparser.parse("http:///technology/syndication/rss_otn_news.xml")
>>> for e in rss_oracle.entries[:5]:
..    t = time.strftime("%Y/%m/%d", e.updated_parsed)
..    print t, e.title
	
2007/07/23 Integrating Oracle Spatial with Google Earth
2007/07/11 Oracle Database 11g Technical Product Information Now Available
2007/07/11 Explore the Oracle Secure Enterprise Search Training Center
2007/07/09 Implementing Row-Level Security in Java Applications
2007/06/29 Build Your Own Oracle RAC Cluster on Oracle Enterprise Linux and iSCSI

feedparser 模块的智能程度相当高，可以正确地分析日期、处理 HTML 标记、规范内容以便为所有支持的 RSS 和 ATOM 变体使用一致的 API、解析相对链接、检测有效的字符编码等等。

接下来分析什么？

有了正则表达式工具箱，您可以搜索几乎所有的纯文本内容。至于分析文本数据，Python 有很多其他特性，包括：

email.parse，用于分析电子邮件消息
ConfigParser，用于分析从 Windows 系统中获得的 INI 配置文件
robotparser 模块，用于分析您 Web 站点的 robots.txt
optparse 模块，用于进行强大的命令行参数分析
HTMLParse 模块中的 HTMLParse 类，用于有效地分析 HTML 和 XHTML（类似于 SAX）
若干 XML 分析器（xml.dom、xml.sax、xml.parsers.expat、xml.etree.ElementTree）

对于二进制数据，您可以利用 binascii 模块，它包含一组函数用于在二进制数据和 ASCII 编码数据之间进行转换，另外还有 base64 和 uu 模块，分别用于 base64 和 uuencode 转换。

结论

这篇方法文档介绍了在 Python 中进行数据分析所采用的一些基本和高级的技巧。您现在应当已经认识到了 Python 附带的标准库的威力。在开始烹制您自己的分析器之前，首先检查一下所需的功能是否已可供导入。

字符串操作比正则表达式操作速度快，同时足以满足很多的编程需要。但是到底选用 Python 还是 Oracle 正则表达式函数取决于您的应用程序逻辑和业务需要。

阅读(907) | 评论(0) | 转发(0) |

上一篇：Python CSV文件处理/读写

下一篇：精通 Oracle+Python，第 1 部分：查询最佳应践

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6