抓取box.net分享连接的python脚本

通过前面写的注册机,我已经在box.net注册和上传了很多文件。

现在把自己提取分享连接的脚本发布出来。

这段脚本只是模拟各种http请求:登陆,查看文件夹,翻页,逐个分享文件,解析json

让人感觉麻烦一点是token和cookie。

token在切换文件夹的页面产生了变化,也曾让我在写代码的过程中遇到过疑惑。

Crawler类通过用户名和密码构造,login方法尝试登陆:

crawler = Crawler('your_email', 'your_password')
crawler.login()

ls方法用于列文件,必需的参数是一个文件夹名,

sorted_by参数是可选的: name, date, size

sorted_direction参数是可选的: ASC, DESC

lst_files = crawler.ls('a_folder_name', sorted_by='date', sorted_direction='ASC')

ls方法返回的是一个列表,而列表中的每个元素都是元组tuple。

这个tuple的形式是: (文件名, 分享链接)

 

这段代码的效率较低,

因为文件是逐个分享的,没有使用多线程,而http请求和解析json的次数过多。

查阅代码