使用 Wayback Machine 完整備份網頁畫面,建立可永久使用的引用來源

最後更新於 2020 年 07 月 07 日

Copyright : rawpixel / 123RF Stock Photos

幾天前我介紹了「以網頁時光機 Wayback Machine 比較不同時間點的網頁內容差異」,也就是大家很熟悉的 Internet Archive 最近推出的新功能,這項服務確實非常好用,除了可以回溯查看某個網站在不同時間點樣貌,對於已經被刪除或編輯後的網頁內容也有保存紀錄或回復的效果。順帶一提,記得之前還看過付費服務可以協助網站管理員從 Wayback Machine 將以前的網頁資料恢復(因為這些備份還是得經過處理才能變回一般網頁),若網頁放在虛擬主機又沒續費而被刪除是可以救回資料的方法。

接下來想教讀者朋友們透過 Wayback Machine 來備份網頁畫面。或許你會問:螢幕擷圖就能備份畫面不是嗎?但自己擷取螢幕畫面很難證明在操作過程是否有使用任何方式改動網頁,若要做為可信的引用來源,以第三方 Wayback Machine 存檔可以證明無法以其他方式修改內容,確保紀錄正確性,對於要保留文章或網頁內容來說會很有用,特別是日後要再次查看或引用時就不必擔心鏈結失效。

可能很多人不知道 Wayback Machine 的「Save Page Now」可以立即備份網頁畫面,包括圖片、CSS 樣式表和 JavaScript 都會一併備份起來,確保日後檢視時可以完整呈現備份當下的樣貌。

不過 Save Page Now 仍有一些限制存在,例如只有在網頁允許爬蟲(web crawlers)進入時才能正確備份內容,若阻擋 Wayback Machine 進入就無法將網頁備份到這項服務上,此外,對於需要登入或驗證身分的頁面來說也無法透過這個服務備份存檔。

Wayback Machine
https://web.archive.org/

使用教學

STEP 1

開啟 Wayback Machine 網站後可以從右下角找到「Save Page Now」功能,這個服務支援桌面瀏覽器或行動裝置開啟,直接將要備份、保存的頁面鏈結貼上,點選「Save Page」就會保存內容。

STEP 2

接著 Wayback Machine 會顯示備份的網頁樣貌,可以看一下網址列為 https://web.archive.org/web/ 後面接上日期時間等資訊,現在頁面已經備份至遠端伺服器,未來就能以相同網址查看該時間點的內容。

頁面右上角會顯示該網頁備份的時間,例如這個畫面為 2019 年 10 月 19 日,點選左右的箭頭可切換不同時間的備份資料,就跟時光機一樣可快速退回到不同時間點。

STEP 3

點選右上角的「About this capture」會顯示關於此網頁擷取畫面的相關資訊,包括是由那一個爬蟲進行抓取、收錄在那一個 Collection,底下則有頁面中所有圖片及相關檔案的時間戳記,如果點選任一檔案會發現檔案也同時被備份到 Wayback Machine 伺服器。

順帶一提,在備份頁左上角會顯示該網址已經被擷取、備份過幾次,以及最早和最近的備份日期,點選後就能以 Wayback Machine 月曆模式瀏覽,每個藍色圈圈代表網站有備份紀錄的時間點,點選後可以快速返回某個時間的網頁樣貌。

之前介紹過的「Archive.is 線上備份網頁工具,可下載完整網頁內容或將畫面轉為擷圖」也是一個類似的網頁備份服務,可以在輸入網址後將網頁內容及相關檔案備份於遠端伺服器。

值得一試的三個理由:

  1. 透過 Save Page Now 立即將網頁備份到 Wayback Machine
  2. 可以將網頁裡所有圖片、CSS 和 JavaScript 複製到遠端伺服器
  3. 以服務備份並引用網頁資料更為可信,使用者無法修改或變更內容

 

相關的文章

Save To The Wayback Machine 一鍵備份網頁內容,查詢已存檔頁面版本(Chrome 擴充功能)

前幾天剛寫完「使用 Wayback Machine 完整備份網頁畫面,建立可永久使用的引用來源」教學,現在大家都知道 Internet Archive 網際網路檔案庫是可以用來備份網頁、查看不同時間網頁樣貌的工具,還能比較不同時間的內容差異。有時候如果要引用某個時間點的內容,透過 Wayback Machine 產生的網址可以永久使用而不必擔心失效,至少無法竄改內容,若是直接擷圖可能難以標示時間,也不能確保內容客觀性。

以網頁時光機 Wayback Machine 比較不同時間點的網頁內容差異

Internet Archive 最知名的工具「Wayback Machine」網站時光機相信大家都不陌生,這項服務的目標是將分分秒秒都在變化的網頁備份保存下來,以便使用者日後隨時返回、檢索特定時間點的網頁樣貌和內容。事實上現今搜尋引擎都有類似頁庫存檔(或稱為網頁快照)功能,當網頁暫時無法開啟時依然可以透過快取資料查看內容,以前介紹過「Cached Pages」能在網頁打不開或資料被刪除時利用頁庫存檔找回備份,當然它的資料也來自 Google 和 Archive.org,只不過提供一個更簡單、易於操作的介面。

Full Page Screen Capture 快速擷取完整網頁畫面,轉為圖片或 PDF 格式(Chrome 擴充功能)

對於可以保存網頁畫面的截圖工具相信大家都不陌生,像是 WinSnap、FastStone Capture 或 Mac 系統很好用的 Jing(現在是 TechSmith Screencast)都能達到類似效果,或是透過瀏覽器擴充功能和線上工具也能做到,通常保存下來的都是靜態圖片格式。如果你想要完整保存某個網頁在某個時間點的樣貌,透過第三方建立更具公信力的網頁備份可能是更好的選擇,我曾介紹過 Wayback Machine 網頁時光機就能讓使用者將頁面完整保存在線上,以便隨時回溯到特定時間:

Internet Archive 更新加入 2,500 個 MS-DOS 遊戲,可直接以模擬器線上玩

網際網路檔案館(Internet Archive)最為人熟悉的就屬 Wayback Machine 網路時光機,後來還推出 Chrome 擴充功能,讓使用者快速查看某一個網站以前的樣貌,隨意返回任何時間點,只要這個服務有索引並儲存網站就能查到。前段時間很多人跑去找以前無名小站的相簿、部落格,其實 Internet Archive 更強大的是收藏很多老東西,像是 The Great 78 Project 將兩萬張黑膠數位化,還有 Internet Arcade 收錄數千個投幣式電玩街機。

PDF24 Tools 免費易用的線上 PDF 工具,集合轉檔、編輯等 28 種功能

今天要介紹的 PDF24 是一家專注於 PDF 製作和轉換工具的開發商,早在 2011 年我就曾經寫過教學,最早只提供在線上將其他文件格式轉為 PDF 的服務,當前已經有 28 種 PDF 相關工具可直接線上使用,無需額外下載軟體 App。事實上 PDF24 也有開放免費、方便且功能豐富的 PDF 工具 PDF24 Creator,對於沒有網路的使用者來說會很有幫助,如果你不受網路連線限制的話,PDF24 Tools 就能在瀏覽器完成大部分工作。

回應