python实现自动登录discuz论坛-chinaboywg-ChinaUnix博客

chinaboy小宝chinaboy007.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

chinaboywg

博客访问： 2917459
博文数量： 348
博客积分： 2907
博客等级：中校
技术积分： 2272
用户组：普通用户
注册时间： 2010-03-12 09:16

个人简介

专注 K8S研究

文章分类

全部博文（348）

elk（2）
docker（5）
error（0）
zabbix（21）
haproxy（2）
linux（11）
redis（2）
lvs（9）
squid（8）
nagios（4）
puppet（6）
html（1）
nginx（45）
apache（3）
mysql（65）
php（0）
python（114）

pycharm（1）

pip（1）

requests（1）

requests（0）

urllib（0）

logging（1）

flask（0）

lib（0）

pyqt4（14）

django（7）

beautifulsoup（11）

scrapy（3）

string（6）

pexpect（4）
shell（19）
linux（25）
other（4）
未分配的博文（2）

文章存档

2019年（22）

2018年（57）

2016年（2）

2015年（27）

2014年（33）

2013年（190）

2011年（3）

2010年（14）

我的朋友

相关博文

python实现自动登录discuz论坛

分类： Python/Ruby

2013-07-04 14:46:50

原文地址：python实现自动登录discuz论坛作者：laoliulaoliu

文章来源：http://blogread.cn/it/article.php?id=2170&f=sr

最近被公司的事情搞的很纠结，博客也有段时间没写了，不过最近还是忙里偷闲做了点其他事情，在这里记录下来，和大家分享一下。

需求也比较简单，老婆是做社区运营的，所以需要每天把几个帖子定时的顶上来，手工做很累，所以就想让我用程序实现。

分析一下，其实无非是先用户名和密码登录，获取到cookie后，再带着cookie去访问要顶贴的页面即可，至于剖析页面来获取url就是BeautifulSoup要做的事情了。（论坛是discuz做的，这里只为演示方法）

登录代码实现如下：

def Login(user,pwd):
    loginpage = urllib.urlopen('').read()
    login_soup = BeautifulSoup(loginpage)
    formhash_tag = login_soup.find('input',attrs={'name':'formhash'})
    formhash = formhash_tag['value']

    params = {
            "answer":"",
            "formhash":formhash,
            "loginfield":"username",
            "loginsubmit":"",
            "password":pwd,
            "questionid":"0",
            "referer":"index.php",
            "username":user,
            }
    jar = cookielib.CookieJar()
    handler = urllib2.HTTPCookieProcessor(jar)
    opener = urllib2.build_opener(handler)
    urllib2.install_opener(opener)
    user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
    headers = { 'User-Agent' : user_agent }
    req = urllib2.Request(login_url)
    req.add_header('User-Agent',user_agent)
    enparams = urllib.urlencode(params)
    page = urllib2.urlopen(req,enparams)
    data = page.read()
    global g_cookie
    global g_formhash
    g_cookie = page.info()['set-cookie']
    t_cookie = re.sub(r'poK_formhash=deleted','',g_cookie)
    r_formhash = re.search(r"poK_formhash=[^;]+",t_cookie)
    if r_formhash:
        g_formhash = re.sub(r'poK_formhash=','',r_formhash.group())
    return

简单说明一下：

jar = cookielib.CookieJar()
handler = urllib2.HTTPCookieProcessor(jar)
opener = urllib2.build_opener(handler)
urllib2.install_opener(opener)

这段代码是为了能够页面返回时的cookie，并且在urllib2请求页面的时候能够自动带上cookie，而formhash是个比较诡异的东西，在登录页面设置的formhash和cookie返回的poK_formhash居然不是同一个值（后来发现，在回复页面，又是另一个值），经过测试，用cookie里的值是对的。

登录态获取到之后，剩下的就是直接去打开页面就行了，但是因为我需要去回复帖子，所以还是显得麻烦点：

def ReplyPost(url,params):
    req = urllib2.Request(url)
    user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
    req.add_header('User-Agent',user_agent)
    enparams = urllib.urlencode(params)
    page = urllib2.urlopen(req,enparams)

这样就可以了，由于对老婆公司的保密，所以代码就不放出下载了，大家了解了原理自己去写应该不难。

------------------------我是华丽的分割线----------------------------
其实在写的过程中是遇到不少问题的，列在这里如下：
1.CookieJar的实例似乎没有办法获取每个key的值，也许是我愚钝，但是看了源码都不知道怎么用，大家有知道的恳请赐教。。于是用了
g_cookie = page.info()['set-cookie']
这种方式，但是更诡异的事情是，当我这样获取cookie时，居然返回了两段。。所以在代码里我删掉了为空的那个
2.当配置上代理的时候CookieJar是获取不到cookie的。
由于一开始是在公司写的，而伟大的公司完美继承了gfw的意志，搞了个代理，于是用之前博客里提到的方法：

proxy = 'proxy.xxx.com:8080'
opener = urllib2.build_opener( urllib2.ProxyHandler({'http':proxy}) )
urllib2.install_opener( opener )

然后jar就一直为空，让我一度怀疑自己的智商是不是有问题，这么简单的程序都要调试半天。
3.如果实在是CookieJar获取不到cookie，我们其实还是有别的办法的，那就是手动去设置http请求包头：

cookie = page.info()['set-cookie']
req = urllib2.Request("xxxxx.php")
req.add_header('Cookie',cookie)

要记得是使用登录页面返回的cookie，否则是无效的。(其实这种方法满足的另一个需求是，你可以直接在浏览器中抓包得到cookie来进行程序自动访问)

阅读(4939) | 评论(0) | 转发(0) |

上一篇：Scrapy安装介绍

下一篇：scrapy实战之定向抓取某网店商品资料

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6