分类目录归档:Python

在selenium中,如何搞定ext.js这种定位

本人想自动化出报表,在定位时,用的是id定位,测试时无问题,等使用时发现id总变,一查看才知道,报表系统使用的是Ext.js,id生成是随机的,每次不同,只好用其他定位方式了。但用其他的定位也不好定位,因为没测试工具,不可能运行一回测试一回,在网上找到一个程序,是本地运行的,把内容复制进去就可以测试定位了。
再说一下,ext.js通过不变化的id也可以定位。

XPath测试,这个程序是网上找的,怕以后用的时候不在也懒得再写一个。怕有病毒的别下。

直接用xpath定位是这样的。//*[@id=”ext-gen702″]/div/li[2]/div/a/span

现在我xpath用的是//*[@id=”form:p_acct_btn_div”]/div/div/div/ul/div/li[2]/div/a/span这样定位了。因为中间div的id值都是变化的。只好忽略,怕你让过你白。因为有些东西不好放上来,只好不截图了。

基于selenium+phantomJS的动态网页抓取

源代码: https://github.com/shawnau/ustcsse_scraper

0. 准备工作

首先介绍下需要安装的组件:

  • selenium, 自动化测试工具, 本文会通过它操纵phantomJS, 使得爬虫能做出模仿普通用户的操作, 基于python的selenium指南请参考官方文档, 本文将会较重度地使用selenium.
  • phantomJS, 简单说这就是个可以静默运行的浏览器模拟器, 具体安装事项请看官方文档, 这篇文章并不会过多地使用它
  • beautifulsoup, 做过静态网页爬虫的朋友应该都很熟悉了. 同样, 这篇文章并不会过多地使用它, 因为需要爬的是动态网页, 只把它作为简单的html分析器使用
  • Firefox, 主要是使用FirePathHttpFox插件来分析网页, 关于xPath, 详见xPath教程, 本文并不要求掌握.

继续阅读

python批理下载图片,并改名脚本

根据上一个脚本改进而来,批量下载图片并自动改名。注:没有加try这种东西,而且没有用多进程。
将需要下载的文件名批量保存在一个文本中,每个一条即可。
python 1.py a.txt运行就可以了。

#!/usr/bin/python
# -*- coding: utf-8 -guan*-
import sys
import os
if __name__ == “__main__”:
args = sys.argv
if(len(args) == 2):
smFile = open(args[1]);
smList = smFile.readlines()
smFile.close()
length = range(len(smList))
for i in length:
sm = smList[i].strip(‘n’)
cmd=’wget -O %s.jpg http://xxx.com/mov/%s/cap.jpg’ %(sm,sm)
status=os.popen(cmd)
print cmd

python selenium phantomjs 使用cookie批量下载图片脚本

本人想下载一个网站的部分网页的全部截图,经过查找和试验,发现仅可以用phantomjs能实现截取整页的图片,其他工具仅是截当前页面的图片(也可能是我没测试到,见谅)。
还有一个就是关于cookie这个问题,也困扰我,最终是发现phantomjs必须是全集的cookie才有效。
driver.save_screenshot这个保存时候可能导致内存溢出,是一个bug。我只好用try来去掉它,因为我并不严格必须所有网页都有截图,大部分网页自动搞定即可。这部分还可以进一步改进的(谁需要自己搞定它吧。需要就用吧。转载注明一下出处谢谢emailtry.com。:)

#!/usr/bin/python
# -*- coding: utf-8 -guan*-
from selenium import webdriver
import sys
from time import sleep
if __name__ == “__main__”:
args = sys.argv
if(len(args) == 2):
smFile = open(args[1]);
smList = smFile.readlines()
smFile.close()
length = range(len(smList))
for i in length:
try:
driver = webdriver.PhantomJS(‘phantomjs’)
driver.add_cookie({u’domain’: u’.xxx.com’, u’name’: u’__utmz’, u’expires’: u’Wed, 28 Feb 2018 03:57:20 GMT’, u’value’: u’151725755.1490883638.70.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none)’, u’expiry’: 1519790240, u’path’: u’/’, u’httponly’: False, u’secure’: False})
driver.add_cookie({u’domain’: u’.xxx.com’, u’name’: u’__utm’, u’expires’: u’Wed, 28 Feb 2018 03:57:20 GMT’, u’value’: u’151725755.413028496.1449848974.1491825303.1503932084.73′, u’expiry’: 1519790240, u’path’: u’/’, u’httponly’: False, u’secure’: False})

sm = smList[i].strip(‘n’)
driver.get(“http://xxx.com/movie.php?id=”+sm)
sleep(40)
print driver.current_url
driver.save_screenshot(sm+”.png”)
driver.quit()
except:
pass

解决win10/Office2016/Onedrive/上载中心经常冲突的问题

一直想要关闭win10的office上载中心,查阅网上方法,发现大家都推荐如下方法:

  • 在桌面找到“此电脑”,右键点击“管理”;
  • 点击“系统工具“下的”任务计划程序“
  • 然后在”计划任务库“里找到“MicrosoftOffice 15 SyncMaintenance”并右键,点击禁用即可

实际这样操作了一次,发现在”计划任务库“里根本没有“MicrosoftOffice 15 SyncMaintenance”的存在!这是因为office2016的上载中心根本没启动项,无从禁用启动!

在Win10系统+Office2016环境下,OneDrive和上载中心都会向OneDrive云空间上传文件,经常发生冲突(上载中心显示上载错误),会严重拖累程序运行缓慢
解决win10/Office2016/Onedrive/上载中心经常冲突的问题

目前找到的唯一解决方案为:在OneDrive设置里Office项,去掉使用Office选项卡中的2个勾
解决win10/Office2016/Onedrive/上载中心经常冲突的问题

ubuntu 14.04 下利用apt-get方式安装opencv

ubuntu 14.04 下利用apt-get方式安装OpenCV

标签(空格分隔): Linux学习 OpenCV


1.前言

相比于源代码方式安装opencv,通过apt方式安装过程步骤简单些,消耗的时间也少一些。通过apt方式安装没有自动生成opencv.pc文件,所以在编写makefile文件时不能直接使用pkg-config工具,而需要逐个指定opencv_core、opencv_imgproc等动态链接库!

2.安装方法

  • 更新ubtuntu系统软件源
sudo apt-get update
  • 安装opencv
sudo apt-get install libcv-dev
  • 这个安装过程大概需要几分钟,安装完成后得到如下结果
    ubuntu 14.04 下利用apt-get方式安装opencv

3. opencv被安装在了哪里?

3.1 opencv的安装源文件

  • apt-get install **这样的命令会下载文件放在 /var/cache/apt/archives目录下,然后安装。可以看到,opencv相关的.deb文件都在该目录下;如下图所示,原始的/var/cache/apt/archives目录下只有文件夹partial和文件lock,但由于此时下载了opencv的相关安装文件,发现该文件夹下多个大量的deb安装文件!
    ubuntu 14.04 下利用apt-get方式安装opencv

  • 实际上,执行完以上的安装过程,这些archives路径下的文件是可以直接删除的!因为相关的安装已经结束,不再需要安装文件了

    • 安装上面这种apt-get install的方式,会使得/var/cache/apt/archives这个目录所占空间会越来越大
    • 但幸运的是apt提供了相应的管理工具apt-get clean来删除文件目录/var/cache/apt/archives/和文件目录 /var/cache/apt/archives/partial/下所有包(锁定的除外)。
    • 执行举例:
      执行如下命令
      ubuntu 14.04 下利用apt-get方式安装opencv
      可以发现,刚刚下载的所有关于opencv的文件都被删除了
      ubuntu 14.04 下利用apt-get方式安装opencv

3.2 opencv相关的头文件的安装位置

opencv相关的头文件被安装到/usr/lib目录中,该目录是linux默认头文件查找路径。

3.3 opencv的相关动态链接库的安装位置

  • linux下的动态链接库文件即.so文件

  • opencv的相关动态链接库被安装到/usr/lib目录中。这些动态链接库包括:
    【opencv_calib3d】——相机校准和三维重建
    【opencv_core】——核心模块,绘图和其他辅助功能
    【opencv_features2d】——二维特征检测
    【opencv_flann】——快速最邻近搜索
    【opencv_highgui】——GUI用户界面
    【opencv_imgproc】——图像处理
    【opencv_legacy】——废弃部分
    【opencv_ml】——机器学习模块
    【opencv_objdetect】——目标检测模块
    【opencv_ocl】——运用OpenCL加速的计算机视觉组件模块
    【opencv_video】——视频分析组件

  • 下图是/usr/lib文件夹中与opencv相关的文件,例如,第一个和第二个文件分别为机器学习模块对应的静态态链接库文件(libopencv_ml.a)和动态链接库文件(libopencv_ml.so)
    ubuntu 14.04 下利用apt-get方式安装opencv

3.4 linux下的opencv和windows下的opencv文件

  • windows下下载得到的opencv解压文件包含2个文件夹:source+build

    • source:opencv的源代码(opencv是开源的),下面的build文件夹下的各种库就是在这些源代码的基础上利用cMake得到的(实际上,该source文件夹除了可以编译得到下面的build中的动态链接库和静态链接库外,在实际调用opencv相关库时,并不需要!)
    • build:存放的opencv**预编译好的各种库(**DLL(动态链接库)lib库(静态链接库)),对于使用opencv的使用者来说,只使用该文件夹就够了,不需要自己利用opencv的源代码重新编译得到这些库
  • linux下载得到的是.deb解压缩后也可以得到动态链接库和静态链接库

    在ubuntu中, .so文件即为动态链接库文件,对应于windows下的dll文件
    在ubuntu中, .a文件对应于windows下的lib文件;实际上,该文件就是普通的函数通过编译之后得到(在高翔的SLAM教程第2章有一个关于如何编译得到静态链接库的简单小例子)

实际上,无论是在任何操作系统下,我们需要使用opencv的相关库时,使用的都仅仅是它的动态链接库和静态链接库

4. 测试代码

4.1 源码

  • 建立名称为test.cpp的c++文件,内容如下
#include <opencv2/core/core.hpp>
#include <opencv2/imgproc/imgproc.hpp>
#include <opencv2/highgui/highgui.hpp>
#include <iostream>
using namespace cv;
using namespace std;
int main (int argc, char **argv)
{
    Mat image, image_gray;
    image = imread(argv[1], CV_LOAD_IMAGE_COLOR );
    if (argc != 2 || !image.data) {
        cout << "No image data/n";
        return -1;
    }

    cvtColor(image, image_gray, CV_RGB2GRAY);
    namedWindow("image", CV_WINDOW_AUTOSIZE);
    namedWindow("image gray", CV_WINDOW_AUTOSIZE);

    imshow("image", image);
    imshow("image gray", image_gray);

    waitKey(0);
    return 0;
}
  • 建立名称为Makefile的文件,输入如下内容
CC = g++
# 可执行文件
TARGET = test
# C文件
SRCS = test.cpp
# 目标文件
OBJS = $(SRCS:.cpp=.o)
# 库文件
DLIBS = -lopencv_core -lopencv_imgproc -lopencv_highgui
# 链接为可执行文件
$(TARGET):$(OBJS)
    $(CC) -o $@ $^ $(DLIBS)  
clean:
    rm -rf $(TARGET) $(OBJS)
# 编译规则 $@代表目标文件 $< 代表第一个依赖文件
%.o:%.cpp
    $(CC) -o $@ -c $<

××××××
注意1:
12行、14行、17行前面为Tab,而非空格,否则会出现“makefile:12: *** 遗漏分隔符 。 停止。”这样的错误

ubuntu 14.04 下利用apt-get方式安装opencv

注意2:
由于示例中使用了opencv中的核心部分(opencv_core)、图像处理部分(opencv_imgproc)和GUI部分(opencv_highgui),所以依次增加opencv_core、opencv_imgproc、opencv_highgui动态链接库。
即由DLIBS = -lopencv_core -lopencv_imgproc -lopencv_highgui语句实现

4.2 make

cd 文档  # 进入程序所在目录
make 

ubuntu 14.04 下利用apt-get方式安装opencv

产生了两个文件:test文件和test.o文件
ubuntu 14.04 下利用apt-get方式安装opencv

4.3 测试程序

./test lena.bmp

运行结果
ubuntu 14.04 下利用apt-get方式安装opencv

上面程序test的作用就是将输入的图像转换为灰度图像,可以看到,程序实现了该功能,也就证明了opencv安装成功

当然,这里的Makefile文件非常重要,具体的使用方式还没明白,有待学习

另外,cmake和make的区别是什么呢?发现大部分都是使用Cmake工具,需要写CMakeLists.txt文件,具体还有待学习


参考文献
[1] 树莓派学习笔记——apt方式安装OpenCV
[2] apt-get下载的文件放在哪个目录

开始学习Python

今天开始学习Pyton,主要教程是廖雪峰的官方教程,该教程确实浅显易懂!

哎,但对于本人这种菜鸟级人物,使用起来还是有些困难的,遇到了各种问题,最后只能向各种QQ群求助

1.首先是Python的按照

按照教程说明,下载了Python3.4.7,并且按照教程按照了

2.Python的编译器

这里,真心是理解错了,看到教程中提到,在命令行中输入python,就可以把python编译器调出来,所以,本人也这样做了,结果出现如下的错误

开始学习Python

之后,就开始各种求助,还好大家都和热心,按照大家的方法(百度经验里也有)配置好环境变量

右键“我的电脑“ 、点击”属性“ ,弹出对话框,选择”高级系统设置“             

 

开始学习Python   开始学习Python

在弹出的对话框中选择”环境变量“

开始学习Python

在系统变量的Path后面添加Python的按照路径(要在前一个路径加入分号)

开始学习Python 开始学习Python

按照上述步骤配置完环境变量后,发现还是出现上面提到的问题,于是,在群里各种发问,很囧的是,原来这表示已经成功进入了python了,只不过是本人输入的python不是一个python的语句(它是用来调用编译器的)

 那么,可以在命令行中利用python调用python编译器,如下所示

开始学习Python开始学习Python

这里一定要注意命令行和python的区别,在教程中有给出区别

在命令行下,可以调用python脚本文件(在命令行中输入:python 将需要运行的py文件拖入)

在python编辑器下,只能输入python语句

到底该如何入门Keras、Theano呢?(浅谈)

目前刚刚开始学习Theano,可以说是一头雾水,后来发现Keras是对Theano进行了包装,直接使用Keras可以减少很多细节程序的书写,它是模块儿化的,使用比较方便,但更为细节的内容,还没有理解,目前只是能够跑起Keras自带的例子

Keras的相关网站:Keras GitKeras Document

 

为了能够看懂Keras代码,需要的前序知识应该有:numpy、scikit-learnTheano

 

发现了两本还不错的Numpy的中文教程,说实话,看英文教程难道还是挺大的,英文太烂

NumPy攻略  Python科学计算与数据分析 [(印尼)IvanIdris著;张崇明译][人民邮电出版社][2013.10][174页](密码: ascg)

用Python做科学计算 中文版 (密码: jimb)

 

 

Keras自带的各种例examples还是很给力的

 

Keras如何构造简单的CNN网络

1. 导入各种模块

基本形式为:

import 模块名

from 某个文件 import 某个模块

 

2. 导入数据(以两类分类问题为例,即numClass = 2)

训练集数据data

Keras如何构造简单的CNN网络

可以看到,data是一个四维的ndarray

Keras如何构造简单的CNN网络

Keras如何构造简单的CNN网络

 

训练集的标签

Keras如何构造简单的CNN网络

Keras如何构造简单的CNN网络

 

3. 将导入的数据转化我keras可以接受的数据格式 

keras要求的label格式应该为binary class matrices,所以,需要对输入的label数据进行转化,利用keras提高的to_categorical函数

label = np_utils.to_categorical(label, numClass

此时的label变为了如下形式 

Keras如何构造简单的CNN网络

(注:PyCharm无法显示那么多的数据,所以下面才只显示了1000个数据,实际上该例子所示的数据集有1223个数据)

Keras如何构造简单的CNN网络  Keras如何构造简单的CNN网络

4. 建立CNN模型

以下图所示的CNN网络为例

Keras如何构造简单的CNN网络

#生成一个model
model = Sequential()

#layer1-conv1
model.add(Convolution2D(16, 3, 3, border_mode='valid',input_shape=data.shape[-3:]))
model.add(Activation('tanh'))#tanh

# layer2-conv2
model.add(Convolution2D(32, 3, 3, border_mode='valid'))
model.add(Activation('tanh'))#tanh

# layer3-conv3
model.add(Convolution2D(32, 3, 3, border_mode='valid'))
model.add(Activation('tanh'))#tanh

# layer4
model.add(Flatten())
model.add(Dense(128, init='normal'))
model.add(Activation('tanh'))#tanh

# layer5-fully connect
model.add(Dense(numClass, init='normal')) 
model.add(Activation('softmax'))

#  
sgd = SGD(l2=0.1,lr=0.001, decay=1e-6, momentum=0.9, nesterov=True)
model.compile(loss='categorical_crossentropy', optimizer=sgd,class_mode="categorical")

5. 开始训练model

利用model.train_on_batch或者model.fit