回覆回應

wget Example

最後更新: 2019-06-05

目錄

  • 設定檔
  • Background 下載
  • 續存
  • 下載整個目錄
  • veiw header
  • Download list of file
  • Mirror Website
  • 下載目錄內某類檔案
  • login
  • Limit Speed
  • 其他 Opts
  • Drupal cron jobs
  • Other Tools

Limitation

wget parallel downloads

 


設定檔

 

/etc/wgetrc

~/.wgetrc

 


Example: Background 下載

 

wget -t 45 -o log.txt http://link &

or

wget -b -t 45 -c -o log http://link

# -b,  --background (相當於 &)

# -o logfile                                                       # Log all messages to logfile.

# --tries=45                                                    # Defaut: 20, infinity: 0

 

Example: 續存

wget -c bigfile

# -c 續存

 

Example: 下載整個目錄

wget -cp http://link/directory/

# -p  ‘--page-requisites’                                    # 下載 directory 內所有檔案

 

Example: veiw header

# 下載前會看到 header (--server-response)

wget -S http://web-site/

 

Example: Download list of file

wget -nc -i dl.file

# -i <file>                         file 內是一行一條 link 的      

# -nc, --no-clobber           不再 Download 以存在的 File, 就算它未完整(與 -c 正好相反)

 

Example: Mirror Website("-l", "-r"):

 

方法1:

wget --convert-links -N -l2  -P/tmp -r http://www.gnu.org/

# -r                                    Create a mirror of the GNU web site (default 5 level)
# -l                                    下載幾多層內的 file (nested levels)

# -P                                   saving them to /tmp ( Default PREFIX "." )
# --convert-links                view the documents off-line
# -N,  --timestamping        don't re-retrieve files unless newer thanlocal.

# -nd                                 不建立目錄 (假設 URL 是 A/B/C 沒有 -nd  時會建立 A/B/C 目錄)
# -np                                 not to recurse to the parent directory
# -L                                   Follow relative links only, 以下的不是 relative links
                                          <a href="/foo.gif">
                                          <a href="/foo/bar.gif">
                                          <a href="http://www.server.com/foo/bar.gif">
-I                                         comma-separated list of directories included in the retrieval.
                                            Any other directories will simply be ignored. The directories are absolute paths.
-D <url>                               allows you to specify the domains that will be followed,
                                            thus limiting the recursion only to the hosts that belong to these domains.

方法2:

wget -m -w 5 http://www.gnu.org/

  • -m,  --mirror                     相當於  -N -r -l inf --no-remove-listing.  ( -l inf 相當於 -l 0 )
  • -k,   --convert-links
  • -w,  --wait                         下載一檔案後, 等一定時間才下載另一個, 單位 sec

 

 

Example: 下載目錄內某類檔案

wget -r -l1  -A'.gif,.swf,.css,.html,.htm,.jpg,.jpeg' <url>

 

Example: login

wget -O - ftp://USER:PASS@server/README

# -O - 把下載好的檔案內容 outpurt 到 -
# -O file
# 登入方式 USER:PASS@
#  --user=USER
#  --password=PASS

Example: Limit Speed

 

--limit-rate= 100k

# 限速, 單位是 byte, 可以配合 k, m 使用

-N,  --timestamping

# 只下載較新的 file

 


其他 Opts

 

(-U)--user-agent="user agent"

--referer=

--accept=jpg,gif

--reject=html

--wait=5

 


Drupal cron jobs

 

-O file
--output-document=file

-q
--quiet

0 * * * * wget -O - -q http://?????  > /dev/null 2>&1  &&  touch /root/getlink

 


Other Tools

 

Parallel download tools

 

 


 

 

 

 

回應

此欄位內容將保密,不會公開顯示出來。