【Python那些事儿之七】Iterators详解
by Harrison Feng in Python
我们都知道,Python有for循环。我们可以用for循环在各种容器container上遍历其所有可用的元素。
比如:
在列表(list)上遍历:
-
>>> for i in [1, 2, 3]:
-
... print i
-
...
-
1
-
2
-
3
在字符串(string)上遍历:
-
>>> for i in 'iter':
-
... print i
-
...
-
i
-
t
-
e
-
r
除此之外,还可以在元组(tuple),字典(dictionary)和文件(file)上遍历。这些遍历操作涉及到
同一个概念,那就是Python的迭代器(iterator)。维基百科中是这样定义迭代器的: 在面向对象的
程序设计语言中,迭代器(iterator)是一个对象,这个对象可以让程序员在容器(container)上遍历。
Python中的迭代器(iterator)则是实现了迭代协议的对象。迭代协议由下面的两种方法组成,实现了
这两种方法就是实现了迭代协议。
1、__iter__(): 返回iterator对象本身。
2、next(): 每当next()方法被调用时,返回下一个值直到StopIteration的异常被抛出【1】。
在Python里,iterator主要用于for循环。首先,我们来看一段代码:
-
>>> lst = ['a', 'b', 'c', 'd', 'e']
-
>>> for i in lst:
-
... print i
-
...
-
a
-
b
-
c
-
d
-
e
-
>>> lst_iter = iter(lst)
-
>>> for i in lst_iter:
-
... print i
-
...
-
a
-
b
-
c
-
d
-
e
-
>>> type(lst_iter)
-
<type 'listiterator'>
对于container类型【2】(列表是典型的container),可以直接用于for循环进行遍历。而将列表转化成
迭代器(iterator)进行遍历,效果似乎一样。
为什么两种方法都可以呢?Python到底是怎样遍历一个container的呢?前面提到Python中的迭代器
(iterator)实现两种方法分别是__iter__()和next(),Python正是通过调用这两种方法来实现遍历的。
首先,当Python在执行for循环时,会先调用container的__iter__()方法【3】 来获得container的迭代器
(iterator),其实就是将container转化成迭代器(iterator)。然后它会重复调用迭代器(iterator)的
next()方法,直到迭代器(iterator)抛出StopIteration的异常。一旦这个异常抛出,for循环就结束了。
看下面的代码,和上面的两种方法同样的结果。
-
>>> _lst_iter = lst.__iter__() # 返回lst的iterator
-
>>> for i in _lst_iter:
-
... print i
-
...
-
a
-
b
-
c
-
d
-
e
-
>>> type(_lst_iter)
<type 'listiterator'>
在Python的内置数据类型中,list,tuple,dictionary,set都是container且都可以直接用于for循环。
-
>>> s = {'a', 'b', 'c'} # set
-
>>> s
-
set(['a', 'c', 'b'])
-
>>> s.__iter__()
-
<setiterator object at 0x7fac6c6f3280>
-
>>> t = ('a', 'b', 'c') # tuple
-
>>> t
-
('a', 'b', 'c')
-
>>> t.__iter__()
-
<tupleiterator object at 0x7fac6c6fb490>
-
>>> d = {1: 'a', 2: 'b', 3: 'c'} # dict
-
>>> d
-
{1: 'a', 2: 'b', 3: 'c'}
-
>>> d.__iter__()
-
<dictionary-keyiterator object at 0x7fac6c6def70>
-
>>>
上面的代码可以看出,这四种container都有__iter__(),一般把这种拥有__iter__()方法的container
叫做iterable。但是要注意,container和iterator的__iter__()方法虽然同名,但是返回的对象是不一样
的。container的__iter__()返回的是一个iterator对象,而iterator的__iter__()返回的是它自己,即
iterator对象本身。以一个list为例:
-
>>> a = [1, 2, 3] # list container
-
>>> b = a.__iter__() # listiterator
-
>>> a is a.__iter__()
-
False
-
>>> b is b.__iter__()
-
True
-
>>>
除了Python内置的iterator,用户也可以通过实现迭代协议定义自己的iterator。自定义iterator,很显然是要实现
__iter__()和next()方法。例如我们定义一个偶数迭代器。
-
class EvenIterators(object):
-
-
def __init__(self, n):
-
self.stop = n
-
self.value = -2
-
-
def __iter__(self):
-
return self
-
-
def next(self):
-
if self.value + 2 > self.stop:
-
raise StopIteration
-
self.value += 2
-
return self.value
-
-
>>> from iterator import EvenIterators
-
>>> even_iter = EvenIterators(5)
-
>>> even_iter.next()
-
0
-
>>> even_iter.next()
-
2
-
>>> even_iter.next()
-
4
-
>>> even_iter.next()
-
Traceback (most recent call last):
-
File "", line 1, in <module>
-
File "iterator.py", line 18, in next
-
raise StopIteration
-
StopIteration
-
>>> for e in EvenIterators(5):
-
... print e
-
...
-
0
-
2
-
4
-
>>> list(EvenIterators(9))
-
[0, 2, 4, 6, 8]
-
>>>
上面的EvenIterators类实现了一个偶数迭代器。从这个例子我们可以看出,只要我们实现了迭代协议,即
方法__iter__()和next(),我们就实现了iterator。
注:
【1】当所有可用的值都被遍历后,StopIteration才会被抛出。
【2】In computer science, a container is a class, a data structure, or an abstract data type (ADT) whose instances are
collections of other objects. In other words; they are used for storing objects in an organized way following specific
access rules. The size of the container depends on the number of the objects (elements) it contains. (Wikipedia)
【3】如果一个container是iterable,那么这个container拥有__iter__()方法,此方法将转化container成iterator。
by Harrison Feng in Python
阅读(10353) | 评论(0) | 转发(0) |