python mysql-python install-catlovemouse-ChinaUnix博客

catlovemousecatlovemouse.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

catlovemouse

博客访问： 552244
博文数量： 260
博客积分： 10435
博客等级：上将
技术积分： 1939
用户组：普通用户
注册时间： 2009-11-24 14:50

文章分类

全部博文（260）

python（8）
wojunan（0）
iphone（1）
mobile（5）
java（137）
Stock（2）
商业模式（4）
else（4）
php（10）
mysql（13）
c++（2）
c（1）
linux（72）
未分配的博文（1）

文章存档

2011年（22）

2010年（209）

2009年（29）

我的朋友

相关博文

python mysql-python install

分类：系统运维

2011-02-19 10:25:34

download mysql-python

apt-get install libmysqlclient-dev
sudo apt-get install python2.5-dev
python setup.py build
python setup.py instal

eclipse pydev

sudo apt-get install python-qt3
python setup.py install
python kodos.py

~chili/CSS/pythonForJavaProgrammers.htm

HTMLParser是python用来解析html的模块。它可以分析出html里面的标签、数据等等，是一种处理html的简便途径。 HTMLParser采用的是一种事件驱动的模式，当HTMLParser找到一个特定的标记时，它会去调用一个用户定义的函数，以此来通知程序处理。它主要的用户回调函数的命名都是以handler_开头的，都是HTMLParser的成员函数。当我们使用时，就从HTMLParser派生出新的类，然后重新定义这几个以handler_开头的函数即可。这几个函数包括：
handle_startendtag 处理开始标签和结束标签
handle_starttag     处理开始标签，比如
handle_endtag       处理结束标签，比如
handle_charref      处理特殊字符串，就是以&#开头的，一般是内码表示的字符
handle_entityref    处理一些特殊字符，以&开头的，比如
handle_data         处理数据，就是data中间的那些数据
handle_comment      处理注释
handle_decl         处理handle_pi           处理形如的东西
    这里我以从网页中获取到url为例，介绍一下。要想获取到url，肯定是要分析标签，然后取到它的href属性的值。下面是代码：

#-*- encoding: gb2312 -*-
import HTMLParser

class MyParser(HTMLParser.HTMLParser):
    def __init__(self):
        HTMLParser.HTMLParser.__init__(self)

    def handle_starttag(self, tag, attrs):
        # 这里重新定义了处理开始标签的函数
        if tag == 'a':
            # 判断标签的属性
            for name,value in attrs:
                if name == 'href':
                    print value


if __name__ == '__main__':
    a = 'test链接到163 '

    my = MyParser()
    # 传入要分析的数据，是html的。
    my.feed(a)

字符串中字符大小写的变换：

* S.lower()   #小写
* S.upper()   #大写
* S.swapcase()   #大小写互换
* S.capitalize()   #首字母大写
* String.capwords(S)
#这是模块中的方法。它把S用split()函数分开，然后用capitalize()把首字母变成大写，最后用join()合并到一起
* S.title()    #只有首字母大写，其余为小写，模块中没有这个方法

字符串在输出时的对齐：

* S.ljust(width,[fillchar])
#输出width个字符，S左对齐，不足部分用fillchar填充，默认的为空格。
* S.rjust(width,[fillchar])    #右对齐
* S.center(width, [fillchar])    #中间对齐
* S.zfill(width)   #把S变成width长，并在右对齐，不足部分用0补足

字符串中的搜索和替换：

* S.find(substr, [start, [end]])
#返回S中出现substr的第一个字母的标号，如果S中没有substr则返回-1。start和end作用就相当于在S[start:end]中搜索
* S.index(substr, [start, [end]])
#与find()相同，只是在S中没有substr时，会返回一个运行时错误
* S.rfind(substr, [start, [end]])
#返回S中最后出现的substr的第一个字母的标号，如果S中没有substr则返回-1，也就是说从右边算起的第一次出现的substr的首字母标号
* S.rindex(substr, [start, [end]])
* S.count(substr, [start, [end]]) #计算substr在S中出现的次数
* S.replace(oldstr, newstr, [count])
#把S中的oldstar替换为newstr，count为替换次数。这是替换的通用形式，还有一些函数进行特殊字符的替换
* S.strip([chars])
#把S中前后chars中有的字符全部去掉，可以理解为把S前后chars替换为None
* S.lstrip([chars])
* S.rstrip([chars])
* S.expandtabs([tabsize])
#把S中的tab字符替换没空格，每个tab替换为tabsize个空格，默认是8个

字符串的分割和组合：

* S.split([sep, [maxsplit]])
#以sep为分隔符，把S分成一个list。maxsplit表示分割的次数。默认的分割符为空白字符
* S.rsplit([sep, [maxsplit]])
* S.splitlines([keepends])
#把S按照行分割符分为一个list，keepends是一个bool值，如果为真每行后而会保留行分割符。
* S.join(seq) #把seq代表的序列──字符串序列，用S连接起来

字符串的mapping，这一功能包含两个函数：

* String.maketrans(from, to)
#返回一个256个字符组成的翻译表，其中from中的字符被一一对应地转换成to，所以from和to必须是等长的。
* S.translate(table[,deletechars])
#使用上面的函数产后的翻译表，把S进行翻译，并把deletechars中有的字符删掉。需要注意的是，如果S为unicode字符串，那么就不支持 deletechars参数，可以使用把某个字符翻译为None的方式实现相同的功能。此外还可以使用codecs模块的功能来创建更加功能强大的翻译表。

字符串还有一对编码和解码的函数：

* S.encode([encoding,[errors]])
#其中encoding可以有多种值，比如gb2312 gbk gb18030 bz2 zlib big5 bzse64等都支持。errors默认值为”strict”，意思是UnicodeError。可能的值还有’ignore’, ‘replace’, ‘xmlcharrefreplace’, ‘backslashreplace’ 和所有的通过codecs.register_error注册的值。这一部分内容涉及codecs模块，不是特明白
* S.decode([encoding,[errors]])

字符串的测试函数，这一类函数在string模块中没有，这些函数返回的都是bool值：

* S.startwith(prefix[,start[,end]])
#是否以prefix开头
* S.endwith(suffix[,start[,end]])
#以suffix结尾
* S.isalnum()
#是否全是字母和数字，并至少有一个字符
* S.isalpha() #是否全是字母，并至少有一个字符
* S.isdigit() #是否全是数字，并至少有一个字符
* S.isspace() #是否全是空白字符，并至少有一个字符
* S.islower() #S中的字母是否全是小写
* S.isupper() #S中的字母是否便是大写
* S.istitle() #S是否是首字母大写的

字符串类型转换函数，这几个函数只在string模块中有：

* string.atoi(s[,base])
#base默认为10，如果为0,那么s就可以是012或0×23这种形式的字符串，如果是16那么s就只能是0×23或0X12这种形式的字符串
* string.atol(s[,base]) #转成long
* string.atof(s[,base]) #转成float

1.python字符串通常有单引号（’…’）、双引号（”…”）、三引号（”"”…”"”）或（”’…”’）包围，三引号包含的字符串可由多行组成，一般可表示大段的叙述性字符串。在使用时基本没有差别，但双引号和三引号（”"”…”"”）中可以包含单引号，三引号 (”’…”’)可以包含双引号，而不需要转义。

2.用（\）对特殊字符转义，如（\）、（’）、（”）。

3.常用字符串内置函数

1)str.count() //返回该字符串中某个子串出现的次数

2)str.find() //返回某个子串出现在该字符串的起始位置

3)str.lower() //将该字符串全部转化为小写

4)str.upper() //转为大写

5)str.split() //分割字符串，返回字串串列表，默认以空格分割

6)len(str) //返回字符串长度

例如：

>>> str = ‘Hello, world’

>>> str.count(‘o’)

>>> 2

>>> str.find(‘lo’)

>>> 3

>>> str.lower()

>>> ‘hello, world’

>>> str.upper()

>>> ‘HELLO, WORLD’

>>> str.split()

>>> ['Hello,', 'world']

>>> str.split(‘,’)

>>> ['Hello', ' world']

>>> len(str)

>>> 13

>>> str

>>> ‘Hello, world’

以上所有操作都不会改变字符串本身！

4.正则表达式，re模块

import re

常用函数：

1)compile()： //将正则表达式字符串编译成正则re对象

2)search() //在目标字符串中匹配正则表达式

3)match() //从目标字符串第一个字符开始匹配正则表达

search和match匹配成功返回MatchObject对象，失败返回None

>>> p = re.compile(‘abc’)

>>> p.search(‘zabcy’)

<_sre.SRE_Match object at 0×2a95659030>

不先编译成正则re对象也是可以的，上例也可以为：

>>> re.search(‘abc’,'xabcy’)

<_sre.SRE_Match object at 0×2a95659098>

compile还可加些标志位，例如：re.I(re.IGNORECASE)忽略大小写

>>> p = re.compile(‘abc’)

>>> print p.search(‘xAbCy’)

None

>>> p = re.compile(‘abc’,re.I)

>>> print p.search(‘xAbCy’)

<_sre.SRE_Match object at 0×2a9565a098>

search和match区别见下例：

>>> p = re.compile(‘abc’)

>>> print p.search(‘xxxabcyyy’)
<_sre.SRE_Match object at 0×2a95659030>

>>> print p.match(‘xxxabcyyy’)

None

>>> print p.match(‘abcyyy’)

<_sre.SRE_Match object at 0×2a95659098>

4)split() //类似字符串内置函数split()

区别在于：内置split()以确定字符串分割，而正则split函数以正则表达式分割字

例如：以空格(1个或者多个空格)分割：

>>> p.split(‘a b c d’)
['a', 'b', 'c', 'd']

而内置split分割的结果为：

>>> ‘a b c d’.split(‘ ‘)
['a', 'b', '', '', 'c', '', 'd']

5)findall() //返回目标字符串中匹配正则表达式中所有子串列表

>>> p = re.compile(‘^([a-z]{2}):([1-9]{3}):(.+)$’)
>>> p.findall(‘as:123:a12′)
[('as', '123', 'a12')]

上例中正则表达式的子串为3个用括弧括起的，分别为：’[a-z]{2}’、’[1-9]{3}’、’.+’, 分别被as、123、a12匹配，注意此返回的是匹配字符串元组的一维列表。

以上比较常用的正则函数，更多用法请参照python手册。

5.字符串与数字相互转换，string模块

import string

string.atoi(str[,base]) //base为可选参数，表示将字符转换成的进制类型

数字转换成字符串可简单了，直接用str()

6.字符与ASCII转换

char->ascii ord()
ascii->char chr()

%E6%AD%A3%E5%88%99%E8%A1%A8%E8%BE%BE%E5%BC%8F%E6%93%8D%E4%BD%9C%E6%8C%87%E5%8D%97#match.28.29_vs_search.28.29

阅读(1317) | 评论(0) | 转发(0) |

上一篇：python study

下一篇：eclipse plugin catlovemouse

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6