以網頁時光機 Wayback Machine 比較不同時間點的網頁內容差異

最後更新於 2020 年 07 月 07 日

Internet Archive 最知名的工具「Wayback Machine」網站時光機相信大家都不陌生,這項服務的目標是將分分秒秒都在變化的網頁備份保存下來,以便使用者日後隨時返回、檢索特定時間點的網頁樣貌和內容。事實上現今搜尋引擎都有類似頁庫存檔(或稱為網頁快照)功能,當網頁暫時無法開啟時依然可以透過快取資料查看內容,以前介紹過「Cached Pages」能在網頁打不開或資料被刪除時利用頁庫存檔找回備份,當然它的資料也來自 Google 和 Archive.org,只不過提供一個更簡單、易於操作的介面。

最近 Wayback Machine 帶來幾個新功能,依照官方網站公告加入可查詢不同時間點網頁變化的比較工具(Changes)還有一個收藏(Collections)功能,可以知道網頁在 Internet Archive 是基於那些目的或性質而被收錄保存。在此次更新中,最受歡迎的「Save Page Now」工具也一併更新,現在使用者可在輸入網址後提交給 Wayback Machine 備份網頁內容,而且能夠保存所有站內或站外鏈結,對於儲存網頁資料來說更有用處。

如果你想找回一個已遭修改或被刪除的網頁內容,除了透過 Google 搜尋引擎的頁庫存檔,網頁時光機 Wayback Machine 收錄的資料更多,而且時間還能回溯到更早以前,前提是網站內容有被 Internet Archive 索引保存。依照網站的重要性與更新頻率,Wayback Machine 也會有不同的擷取速度,在某些網站一天可能發生數百甚至數千次,而現在網站也把顯示所有擷取內容的功能開放出來,就能知道在某日、某個時間點該網頁的樣貌與內容變化。

Wayback Machine
https://web.archive.org/

使用教學

STEP 1

開啟 Internet Archive 的 Wayback Machine 網頁時光機,從這裡可以看到一些即時被索引儲存的頁面,首頁還有一個儲存(備份)頁面功能,文章後面會再介紹。

從網址列輸入要查詢的頁面網址,目前被儲存的頁面已經超過 3800 億個,非常可觀。

STEP 2

出現結果後,點選上方的「Changes」可開啟新的網頁比較工具,使用方法很簡單,點選一個基準點,上方有出現顏色方塊的日期代表 Wayback Machine 有索引備份,顏色越靠近藍色代表頁面變化越大,如果接近黃色的話就表示差異較小,點選色塊會顯示該日期的所有備份時間點。

選擇兩個要比較的時間點,上方會顯示「Compare」按鈕,點選就能開啟比較模式。

STEP 3

對於兩個不同時間點的頁面,標示為黃色代表是已刪除的部分,藍色則是新加入的內容。

STEP 4

這次還有新加入一個新功能「Collections」,可以了解網頁為何被放入 Wayback Machine,從這裡會看到各個收藏夾名稱,點選後可開啟收藏夾,或是依照不同時間點查詢被儲存的頁面內容。如果是由 Internet Archive 的 Archive-It 服務建立的話還可執行全文搜尋檢索。

STEP 5

前面有提到 Save Page Now 功能也有更新,勾選 Save outlinks 可以將出站鏈結也就是外部鏈結一併儲存,方便日後檢索時使用。透過這項功能可以讓 Wayback Machine 協助你完整備份某個網頁內容,只要將網址輸入,點選「Save Page」就能立即存檔。

儲存時會建立一個網頁擷圖,接著就會顯示抓取的網頁檔案,也會在右下角標示已經下載多少個網頁元件,對於日後要回顧來說能備份愈完整就愈能讓檢視貼近現況,畢竟網頁上除了文字,也有圖片、CSS 和 JavaScript 等等需要載入,為了避免將來這些檔案無法存取而造成缺陷,Wayback Machine 也會將這些網頁元件一併備份到資料庫。

STEP 6

完成後就能檢視備份、保存在 Wayback Machine 上的頁面囉!透過上方時間軸,還能看到不同時間點的頁面網址備份紀錄,點選可快速返回某個時間點,查看以前的網頁樣貌或內容。因為以前的資料可能不完整,有時候圖片或影片無法正確顯示,但近期的備份資料大多都能正常顯示。

值得一試的三個理由:

  1. Wayback Machine 加入針對兩個不同時間點的網頁內容比較功能
  2. 透過 Collections 了解頁面被收錄在那些主題收藏夾
  3. Save Page Now 現在可以抓取站外鏈結

 

相關的文章

Save To The Wayback Machine 一鍵備份網頁內容,查詢已存檔頁面版本(Chrome 擴充功能)

前幾天剛寫完「使用 Wayback Machine 完整備份網頁畫面,建立可永久使用的引用來源」教學,現在大家都知道 Internet Archive 網際網路檔案庫是可以用來備份網頁、查看不同時間網頁樣貌的工具,還能比較不同時間的內容差異。有時候如果要引用某個時間點的內容,透過 Wayback Machine 產生的網址可以永久使用而不必擔心失效,至少無法竄改內容,若是直接擷圖可能難以標示時間,也不能確保內容客觀性。

Internet Archive 更新加入 2,500 個 MS-DOS 遊戲,可直接以模擬器線上玩

網際網路檔案館(Internet Archive)最為人熟悉的就屬 Wayback Machine 網路時光機,後來還推出 Chrome 擴充功能,讓使用者快速查看某一個網站以前的樣貌,隨意返回任何時間點,只要這個服務有索引並儲存網站就能查到。前段時間很多人跑去找以前無名小站的相簿、部落格,其實 Internet Archive 更強大的是收藏很多老東西,像是 The Great 78 Project 將兩萬張黑膠數位化,還有 Internet Arcade 收錄數千個投幣式電玩街機。

Full Page Screen Capture 快速擷取完整網頁畫面,轉為圖片或 PDF 格式(Chrome 擴充功能)

對於可以保存網頁畫面的截圖工具相信大家都不陌生,像是 WinSnap、FastStone Capture 或 Mac 系統很好用的 Jing(現在是 TechSmith Screencast)都能達到類似效果,或是透過瀏覽器擴充功能和線上工具也能做到,通常保存下來的都是靜態圖片格式。如果你想要完整保存某個網頁在某個時間點的樣貌,透過第三方建立更具公信力的網頁備份可能是更好的選擇,我曾介紹過 Wayback Machine 網頁時光機就能讓使用者將頁面完整保存在線上,以便隨時回溯到特定時間:

PDF24 Tools 免費易用的線上 PDF 工具,集合轉檔、編輯等 28 種功能

今天要介紹的 PDF24 是一家專注於 PDF 製作和轉換工具的開發商,早在 2011 年我就曾經寫過教學,最早只提供在線上將其他文件格式轉為 PDF 的服務,當前已經有 28 種 PDF 相關工具可直接線上使用,無需額外下載軟體 App。事實上 PDF24 也有開放免費、方便且功能豐富的 PDF 工具 PDF24 Creator,對於沒有網路的使用者來說會很有幫助,如果你不受網路連線限制的話,PDF24 Tools 就能在瀏覽器完成大部分工作。

回應