频道栏目
首页 > 资讯 > Python > 正文

Python selenium自动化识别验证码模拟登录操作教程

17-12-08        来源:[db:作者]  
收藏   我要投稿

还是以百度登录页面为例。

首先故意输入错误的账号登陆,很快就会出现需要验证码了。

这里可以看到图片所在的标签 和id,同时还有一个验证码地址,如下。该地址每次随机生成一张图片。

https://passport.baidu.com/cgi-bin/genimage?njGcb06e212fe8de27902311482de0178143145de06c70113b0

因为每次运行查看url时,图片又变化了,所以无法获取到验证码的图片与当前登录界面相对应起来。因此只能截图,并用其他工具识别出图片的字符。

再看看,在默认情况下,即不需要验证码登录的情况下,其实也是有一张图片的,只是非常小,只有一个小点,图片地址如下:

../../passApi/img/small_blank.gif

因此,用两个图片地址部分作对比,可以判断当前需不需要用到验证码:

imgsrc = driver.find_element_by_id("TANGRAM__PSP_3__verifyCodeImg").get_attribute('src')
if re.match(r'https://passport.baidu.com/cgi-bin/genimage.*', imgsrc):
	print("需要验证码")
else:
	print("不需要验证码")

如果需要验证码,则读取图片并输入;如果不需要,则直接提交登录。

接下来最主要的就是图片的截取和读取了。webdriver 是可以进行浏览器页面截图的,但是整个浏览器页面太大,还需要定位到 验证码图片的位置才行。验证码的标签 id 为TANGRAM__PSP_3__verifyCodeImg ,这样就可以定位到该ID标签所在的页面像素位置了。再获取标签大小,可确定标签的宽高了。

	location = driver.find_element_by_id('TANGRAM__PSP_3__verifyCodeImg').location
	size = driver.find_element_by_id('TANGRAM__PSP_3__verifyCodeImg').size
	left = location['x']
	top =  location['y']
	right = location['x'] + size['width']
	bottom = location['y'] + size['height']

最终保存的验证码图片如下,位置稍微偏了,可以调整左右像素。

接下来通过处理后,进行验证码的读取。读取使用pytesseract ,安装该模块之后,还需要安装tesseract-ocr 。

本次测试下载的是tesseract-ocr-setup-4.00.00dev.exe ,这块的过程遇到好几个问题。

FileNotFoundError: [WinError 2] 系统找不到指定的文件。

pytesseract.pytesseract.TesseractError: (2, 'Usage: python pytesseract.py [-l lang] input_file')

pytesseract.pytesseract.TesseractError: (1, 'Error opening data file \\Program Files (x86)\\Tesseract-OCR\\eng.traineddata')

这几个问题主要是需要安装配置Tesseract-OCR

1. 下载安装tesseract-ocr,

2. 添加环境变量:TESSDATA_PREFIX = C:\Program Files (x86)\Tesseract-OCR

3. 编辑文件D:\Python35\Lib\site-packages\pytesseract\pytesseract.py

tesseract_cmd = 'tesseract'

改为:

tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract'

脚本如下:

#-*- coding: utf-8 -*-
# python 3.5.0

import re
import requests
import pytesseract
from selenium import webdriver
from PIL import Image,ImageEnhance

username = "xxxxxx"
password = "xxxxxx"

chromedriver = 'D:/Python35/selenium/webdriver/chromedriver/chromedriver.exe'
loginurl = 'https://passport.baidu.com/v2/?login'

#截图或验证码图片保存地址
screenImg = "D:/Python35/selenium/webdriver/chromedriver/screenImg.png"

#打开浏览器
driver = webdriver.Chrome(executable_path=chromedriver)
driver.get(loginurl)
driver.implicitly_wait(1)

#cookie= driver.get_cookies()
assert "登录百度帐号" in driver.title

#数据账号&密码(此处不提交)
driver.find_element_by_id("TANGRAM__PSP_3__userName").send_keys(username)
driver.find_element_by_id("TANGRAM__PSP_3__password").send_keys(password)

#用于测试,此处可提前提交,让登录出错,页面出现验证码
#driver.find_element_by_id("TANGRAM__PSP_3__submit").click()

#获取验证码URL地址
imgsrc = driver.find_element_by_id("TANGRAM__PSP_3__verifyCodeImg").get_attribute('src')

#如果匹配验证码路径成功(说明有提示输入验证码),则需读取验证码!
if re.match(r'https://passport.baidu.com/cgi-bin/genimage.*', imgsrc):
	#浏览器页面截屏
	driver.get_screenshot_as_file(screenImg)
	#定位验证码位置及大小
	location = driver.find_element_by_id('TANGRAM__PSP_3__verifyCodeImg').location
	size = driver.find_element_by_id('TANGRAM__PSP_3__verifyCodeImg').size
	left = location['x']
	top =  location['y']
	right = location['x'] + size['width']
	bottom = location['y'] + size['height']
	#从文件读取截图,截取验证码位置再次保存
	img = Image.open(screenImg).crop((left,top,right,bottom))
	img = img.convert('L') 			#转换模式:L | RGB
	img = ImageEnhance.Contrast(img)#增强对比度
	img = img.enhance(2.0) 			#增加饱和度
	img.save(screenImg)
	#再次读取识别验证码
	img = Image.open(screenImg)
	code = pytesseract.image_to_string(img)
	#code= pytesser.image_file_to_string(screenImg)
	driver.find_element_by_id("TANGRAM__PSP_3__verifyCode").send_keys(code.strip())
	print(code.strip())

#提交登录
driver.find_element_by_id("TANGRAM__PSP_3__submit").click()	

#driver.implicitly_wait(10)
#driver.quit()

虽然可以识别验证码了,但是这工具识别很不准确,除非没有什么干扰的验证图片才好些。只能识别还是不那么好啊。

相关TAG标签
上一篇:CSDN-markdown编辑器使用教程
下一篇:聊天界面标题栏被顶上去解决方法
相关文章
图文推荐

关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训 | 举报中心

版权所有: 红黑联盟--致力于做实用的IT技术学习网站