/ command

wget

下载单个文件

wget http://www.openss7.org/repos/tarballs/strx25-0.9.2.1.tar.bz2

下载并重命名文件

wget -O taglist.zip http://www.vim.org/scripts/download_script.php?src_id=7701

下载整个网站

wget --mirror http://www.vim.org/

抓取登陆界面后面的页面。

  • 分析登录界面 html 代码
  • 获取 cookie
  • 验证使用 cookie 登录成功
  • 用 cookie 爬取页面
# Log in to the server.  This can be done only once.                   
wget --save-cookies cookies.txt \
     --keep-session-cookies \
     --post-data 'user=foo&password=bar' \
     --delete-after \
     http://server.com/auth.php

# Now grab the page or pages we care about.
wget --mirror --load-cookies cookies.txt http://example.com/

或者,chrome 安装插件 cookies.txt export 复制粘贴获取 cookies.txt

但是,我想说的是,我在抓取某站页面时,抓到的所有页面都是 login 页面,需要后期跟踪。