crawler | 李劼杰的博客

通过前面写的注册机，我已经在box.net注册和上传了很多文件。

现在把自己提取分享连接的脚本发布出来。

这段脚本只是模拟各种http请求：登陆，查看文件夹，翻页，逐个分享文件，解析json

让人感觉麻烦一点是token和cookie。

token在切换文件夹的页面产生了变化，也曾让我在写代码的过程中遇到过疑惑。

Crawler类通过用户名和密码构造，login方法尝试登陆:

crawler = Crawler('your_email', 'your_password')
crawler.login()

ls方法用于列文件，必需的参数是一个文件夹名，

sorted_by参数是可选的: name, date, size

sorted_direction参数是可选的: ASC, DESC

lst_files = crawler.ls('a_folder_name', sorted_by='date', sorted_direction='ASC')

ls方法返回的是一个列表,而列表中的每个元素都是元组tuple。

这个tuple的形式是: (文件名, 分享链接)

这段代码的效率较低，

因为文件是逐个分享的，没有使用多线程，而http请求和解析json的次数过多。

标签： crawler