您的位置:首页 > 编程语言 > Python开发

Java调用Python并传递参数(爬虫8)

2017-04-17 15:03 549 查看

前因

最近确实学习了不少的东西。

在两方面的感受最深刻:

一款APP的开发,从前到后的流程原来是这样啊。

每门语言都有它的强大之处,不是它能不能实现,而是你想不想实现。

联调方案

爬虫这边已经把数据存进MySQL了。

但是和后台那边还没有想好怎么联调。

想法一:

安卓组直接提供爬虫组需要的用户信息。

怎么给?http协议?反正我不知道…

想法二:

安卓就相当于是前端,它的后台就是后台小哥。

直接让后台把用户信息存成一张表。

读取每一条用户信息,调用爬虫组的Python程序,参数传入。

爬虫组直接将数据又存进后台的数据库里。

这个想法应该是可以的,毕竟Java和Python都很强大。

Java调用Python

总体思想:

在有新用户加入或者有新的数据需要更新的时候,Java直接调用爬虫并传入参数。结果就是数据存入到了数据库。

了解到Java有
Runtime.getRuntime().exec()


这样就好办多了。

这个方法其实就好像是cmd命令行一样的执行python 程序:

Runtime.getRuntime().exec("python D:\\studentdb.py id password");


id和password就是传入的参数。

把原爬虫程序改为:

if __name__ == '__main__':
# 初始化爬虫对象
xs = XDspiderStudent()
# 登录(在此处传入正确的个人学号与密码信息)
#从Java里传入参数
xs.login((sys.argv[1]), (sys.argv[2]))
xs.Store()
xs.saveMysql()


这样即可。

这样需要一个服务器也就可以了。

就是不知到怎么部署,还需要学习。

后果

之前试过用Java调用Python,到真正用的时候才发现是一个乌龙。

error

错误就是我的程序太多了,程序命名混乱,导致执行了不该执行的程序,而我以为它跑通了。

这个方法:

Runtime.getRuntime().exec("python D:\\studentdb.py id password");


并不能传递形参!!!

只可以这样使用:

Runtime.getRuntime().exec("python D:\\studentdb.py 12345678 666666");


这样是可以把学号和密码传入Python文件,并且执行。

而前者的形参方法,是会直接把形参当成字符串直接传进Python…

这也就是说,这个方法只可以传递字符串。

前几天调到半夜发现的真理。

那么还有解决办法吗?

肯定有,要么是我不知道,要么是我不会。

新方法Jython

查找资料发现这个第三方包Jython是可以用来传递Python参数并且执行代码。

之前也有注意到这个方法,但是由于考虑到它的复杂性,和Runtime.getRuntime().exec()方法的简单性,就没有往这里想,毕竟程序员是最懒的。

首先得下载Jython这个第三方包。

调试记录

1、

console: Failed to install '':java.nio.charset.UnsupportedCharsetException: cp0.


Run As>Run Configurations,选择第二个页签Arguments,在VM arguments中添加-Dpython.console.encoding=UTF-8即可,然后Apply>Run就行了

2、java用jython.jar调用python脚本,脚本中import了第三方库时,报错:import xxx: no module named xxx.

两种解决方法:

(1)下载或pip install需要的第三方库,将jython.jar改成jython.zip,并解压缩,将下载的第三方库(以库名定义的文件夹)放到jython文件夹下的/Lib或/Lib/site-packages下,最后将jython文件夹重新打包(注意:打包时不要直接对jython文件夹打包,只打包jython根目录下的所有文件),并改后缀为.jar,配置到java的工程目录中(构建路径)。

(2)配置python的系统路径,java解析脚本时会到sys.path中找import的第三方库,只要sys.path中能找到第三方库的文件夹即可。

注:在java端通过语句:PySystemState sys = Py.getSystemState();

System.out.println(sys.path.toString());打印路径信息。

最后的bug与悔悟

一步步的将各个遇到的bug击破,遇到最大的障碍:识别不了requests包。

和队友们思前想后,觉得这可能是和Python的版本有关系。

我们统一用的是Python35,从这个第三包的名字就可以的看出Jython2.7就能看得出它是支持Python27的。

但是事物的发展不就是要走在最前沿的吗!

这个问题肯定有它的解决办法。只是我不知道和不会。

现在最蠢的解决办法有两种:

1. 重写Python3程序为Python2

2. 后台将获得的学号密码生成为CSV文件保存到本地,再直接执行Python程序。Python程序里读取本地CSV文件,获取学号密码,进行爬虫活动,存数据到MySQL,再删除CSV。

第一种方法需要花时间。

第二种方法太笨,在处理多并发的活动时可能会崩塌。而且效率低。

思前想后,为了以后工作的顺利进行,还是选择第一种吧,重新写Python程序为2。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  python java 爬虫 mysql