互联网档案馆


















body.skin-minerva .mw-parser-output table.infobox caption{text-align:center}

















































互联网档案馆
Internet Archive

Internet Archive logo and wordmark.svg
公司类型
501(c)条款非盈利组织
网站类型
數位圖書館
语言
英語
成立
1996年5月12日,​22年前​(1996-05-12[1][2]
總部
美國加利福尼亞州舊金山里奇蒙德區
37°48′0″N 122°27′37″W / 37.80000°N 122.46028°W / 37.80000; -122.46028坐标:37°48′0″N 122°27′37″W / 37.80000°N 122.46028°W / 37.80000; -122.46028
创始人
布魯斯特·卡利
服务
互聯網檔案館,開放式圖書館,時光機(Wayback Machine)(2001年起),Netlabels,NASA Images,Prelinger Archives
员工
200
网站
archive.org

Alexa排名

272(2018年11月[update][3]
推出时间
1996年 (1996)

互联网档案馆英语:Internet Archive)是一個非營利性的數位圖書館组织。成立于1996年,由Alexa创始人布鲁斯特·卡利创办。提供數字資料如網站、音樂、動態圖像、和數百萬書籍的永久性免費儲存及獲取。迄至2012年10月,其信息儲量達到10PB[4][5]。除此之外,該檔案館也是網絡開放與自由化的倡議者之一。


其數據是由自帶的網絡爬蟲自動搜集的,其網站典藏英语Web archiving檔案館網站時光機,抓取了超過1500億的網頁[6][7]


其年度預算約为1000萬美元,來源則是其網頁爬蟲服務、合作關係、贊助以及卡利-奧斯丁基金會[8]。總部位於舊金山里奇蒙德區,此地僱員只有數十人,大部份僱員工作於書籍掃描中心,在紅木城也有數據中心。


該數據庫是國際網際網路保留協會英语International Internet Preservation Consortium成員[9],2007年被加利福尼亞州選為官方指定圖書館[10]。档案馆收集的数据是各种各样的。截止2015年年初,互联网档案馆共收录了2400款MS-DOS游戏[11]




目录






  • 1 歷史


  • 2 网页存档


    • 2.1 时光机


    • 2.2 Archive-It




  • 3 收集书目


    • 3.1 各语言的文本数


    • 3.2 各个年代的文本数




  • 4 影像资料


    • 4.1 音频收藏


    • 4.2 布鲁克林博物馆




  • 5 镜像網站


  • 6 参见


  • 7 参考文献


  • 8 延伸阅读


  • 9 外部連結





歷史


1996年,卡利(Brewster Kahle)在創建盈利性的Alexa Internet時同時也創立了互联网檔案館;同年10月開始收集儲存數據[12][13]。不過,直到2001年開發了「時光機」前,這些數據都無法存取。1999年末擴展收集範圍[14]


2012年8月,宣布[15]將在其現存的130萬檔案的下載選項中加入BitTorrent[16][17]。因為通過兩個檔案數據中心協調,這成為從該檔案館下載數據的最快方法[16][18]


2013年11月6日,檔案館在里奇蒙德區的總部失火,損壞了許多設備和一些附近的公寓[19][20],預計損失達到60萬美元[21]




.mw-parser-output .gallery-mod{background:transparent;margin-top:0.5em}.mw-parser-output .gallery-mod-collapsible{width:100%}.mw-parser-output .gallery-mod-center{margin:0 auto}.mw-parser-output .gallery-mod-title{text-align:center;font-weight:bold}.mw-parser-output .gallery-mod-box{float:left;border-collapse:collapse;margin:3px}.mw-parser-output .gallery-mod-box .thumb{border:1px solid #ccc;background-color:#F8F8F8;padding:0;text-align:center}.mw-parser-output tr.gallery-mod-text{vertical-align:top}.mw-parser-output tr.gallery-mod-text .core{display:block;font-size:small;padding:0}.mw-parser-output .gallery-mod-text .caption{line-height:1.25em;padding:6px 6px 1px 6px;margin:0;border:none;border-width:0;text-align:left}.mw-parser-output .gallery-mod-footer{text-align:right;font-size:80%;line-height:1em}


网页存档



时光机



网站时光机是互联网档案馆最重要的服务之一。其名取自一部名为The Rocky and Bullwinkle Show英语The Rocky and Bullwinkle Show的美国卡通片,时光机允许人们去搜索和访问其网页存档。在一些国家和地区,时光机这个术语的使用已经非常普遍,“时光机”和“互联网档案馆”甚至开始被当做同义词使用。





























年份
2005
2006
2007
2008
2009
2010
2011
2012
2013
2014
存档页面的数量

(亿)


400[22]
850[23]
850[24]
850[25]
1500[26]
1500[27]
1500[28]
1500[29]
3730[30]
4000[31]


Archive-It




File:Internet-archive-brewster-kahle-2013-0329.webm播放媒体

创始人布魯斯特·卡利正在谈论Archive-It


Archive-it是一款帮助机构和个人建立存档的工具。一旦目标网站的URL被输入并保存且该网站允许互联网档案馆所使用的Robots.txt访问,该网页将会成为时光机的一部分。[32]截至2014年3月 (2014-03)[update],Archive-it在美国的46个州和其他16个国家共有超过275个机构是其合作伙伴,共有超过74亿个网页的在线存档。



收集书目




互联网档案馆的“抄写员”图书扫描工作站


互联网档案馆收集了世界各地的数字化图书以及各大图书馆和文化遗产机构的特殊藏品。互联网档案馆在5个国家经营着33个圖書掃描中心,其活动受图书馆和基金会的财政支持。[33][34]截至2013年7月 (2013-07)[update],档案馆共收集了440万本书,每月的下载量超过1500万。[33]截至2008年11月 (2008-11)[update],档案馆共有100万个网络文本,总大小高达0.5PB,涵盖了原始照相图像、裁剪和歪斜的图像、PDF文件和原始OCR数据。[35]



各语言的文本数









































1
语言

英语

法语

德语

西班牙语

汉语

阿拉伯语
文本数(2015年11月27日)
6,553,945[36]
358,721[37]
344,810[38]
134,170[39]
84,147[40]
66,786[41]
2
语言

荷蘭語

葡萄牙語

俄语

乌尔都语

日语
合计(2016年10月30日)
文本数(2015年11月27日)
30,237[42]
25,938[43]
22,731[44]
14,978[45]
14,795[46]
10,612,003[47]


各个年代的文本数















































































1
年代
1800年代
1810年代
1820年代
1830年代
1840年代
1850年代
文本数

(2015年11月27日)


39,842[48]
51,151[49]
79,476[50]
105,021[51]
127,649[52]
180,950[53]
2
年代
1860年代
1870年代
1880年代
1890年代
1900年代
1910年代
文本数

(2015年11月27日)


210,574[54]
214,505[55]
285,984[56]
370,726[57]
504,000[58]
455,539[59]
3
年代
1920年代
1930年代
1940年代
1950年代
1960年代
1970年代
文本数

(2015年11月27日)


185,876[60]
70,190[61]
85,062[62]
81,192[63]
125,977[64]
206,870[65]
4
年代
1980年代
1990年代
2000年代
2010年代


文本数

(2015年11月27日)


181,129[66]
272,848[67]
579,905[68]
855,253[69]




影像资料




读卡器




互联网档案馆的缩微胶片




互联网档案馆的录影带


除了上述内容之外,互联网档案库还收集了大量的数字媒体,这些数字媒体均符合美国公共领域或CC授权协议。这些媒体文件均会根据媒体类型(moving images、audio、text、etc.)被组织成集合,并根据各项标准被分入子集合。例如大都會藝術博物館提供的相关资料就会被分入一个子集,目前该集合相关资料的数量已经超过了140,000个[70]。每个主集合都含有一个“社区”子集合(以前被称为“开源”)用于存储公众的贡献。



音频收藏


音频档案包括音乐,有声读物,新闻广播,旧时广播的节目和各种其他音频文件。该系列中有超过200,000个免费数字录音。子集包括有声读物和诗歌,播客,[71]非英语音频等。[72]


Live Music Archive子集包括来自独立音乐家的超过170,000个音乐会录音,以及更为成熟的艺术家和音乐合奏,以及关于录制他们的音乐会的宽松规则,例如Grateful Dead,以及最近的The Smashing Pumpkins。此外,Jordan Zevon还允许互联网档案馆收藏他父亲Warren Zevon的音乐会录音。Zevon系列从1976年至2001年不等,包含126场音乐会,包括1,137首歌曲。[73]



布鲁克林博物馆



此系列包含大约3,000件布鲁克林博物馆的物品。[74]




镜像網站


當機或資料庫出錯時,可於新亞歷山大圖書館鏡像網站查詢1996至2007年的備份資料[75]



参见




  • 網際網路檔案館存檔列表英语Lists of Internet Archive's collections

  • 公共領域音樂英语Public domain music

  • 網頁存檔英语Web archiving

  • 數位圖書館









参考文献





  1. ^ Internet Archive: About the Archive. Wayback Machine. April 8, 2000 [March 13, 2016]. (原始内容存档于April 8, 2000). 


  2. ^ archive.org WHOIS, DNS, & Domain Info – DomainTools. WHOIS. [March 13, 2016]. 


  3. ^ archive.org Site Info. Alexa Internet. [2018年11月13日]. (原始内容存档于2018年11月13日). 


  4. ^ 10,000,000,000,000,000 bytes archived!. Collections Team blog. Internet Archive. 2012-10-26 [2012-10-27]. On Thursday, 25 October, hundreds of Internet Archive supporters, volunteers, and staff celebrated addition of the 10,000,000,000,000,000th byte to the Archive's massive collections. 


  5. ^ Brown, A. (2006) Archiving websites: A practical guide for information management professionals. London: Facet Publishing. pp. 9.


  6. ^ Internet Archive: Projects. Internet Archive. [2013-03-06]. 


  7. ^ Grotke, A. (2011). Web Archiving at the Library of Congress. Computers In Libraries, 31 no. 10 (December 2011), p. 15-19.


  8. ^ Womack, David. Who Owns History?. Cabinet Magazine. No. 10. Spring 2003 [2013-04-13]. 


  9. ^ "Members" International Internet Preservation Consortium. Netpreserve.org


  10. ^ "Internet Archive officially a library", May 2, 2007. Archive.org


  11. ^ Internet Archive 放大招,2400 款 MS-DOS 游戏任你玩. ifanr爱范儿. 2015-01-07 [2017-01-29]. 


  12. ^ 互联网真能帮人类历史存档吗?. 腾讯科技. 2015-01-24 [2016-10-30]. 


  13. ^ Internet Archive: In the Collections. Wayback Machine. 2000-06-06 [2016-03-15]. (原始内容存档于2000-06-06). 


  14. ^ "Daisy Books for the Print Disabled", February 25, 2013. Internet Archive.


  15. ^ Kahle, Brewster (August 7, 2012). "Over 1,000,000 Torrents of Downloadable Books, Music, and Movies". Internet Archive Blogs.


  16. ^ 16.016.1 Van der Sar, Ernesto. Internet Archive Starts Seeding 1,398,875 Torrents. TorrentFreak英语TorrentFreak. 2012-08-07. 


  17. ^ "Hot List for bt1.us.archive.org (Updated August 7 2012, 7:31 pm PDT)". US Cluster. Internet Archive.


  18. ^ "Welcome to Archive torrents". Internet Archive.


  19. ^ Alexander, Kurtis. Internet Archive's S.F. office damaged in fire. San Francisco Chronicle. 2013-11-06. 


  20. ^ Fire Update: Lost Many Cameras, 20 Boxes. No One Hurt. Internet Archive Blogs. 2013-11-06. 


  21. ^ Shu, Catherine. Internet Archive Seeking Donations To Rebuild Its Fire-Damaged Scanning Center. TechCrunch. 2013-11-06. 


  22. ^ Internet Archive. Internet Archive. [2014-03-02]. (原始内容存档于2005-12-31). 


  23. ^ Internet Archive. Internet Archive. [2014-03-02]. (原始内容存档于2006-12-28). 


  24. ^ Internet Archive. Internet Archive. [2014-03-02]. (原始内容存档于2007-12-28). 


  25. ^ Internet Archive. Internet Archive. [2014-03-02]. (原始内容存档于2008-12-24). 


  26. ^ Internet Archive. Internet Archive. [2014-03-02]. (原始内容存档于2009-12-20). 


  27. ^ Internet Archive. Internet Archive. [2014-03-02]. (原始内容存档于2010-12-30). 


  28. ^ Internet Archive. Internet Archive. [2014-03-02]. (原始内容存档于2011-08-30). 


  29. ^ Internet Archive. Internet Archive. [2014-03-02]. (原始内容存档于2012-12-31). 


  30. ^ Internet Archive. Internet Archive. [2014-03-02]. (原始内容存档于2013-12-31). 


  31. ^ Wayback Machine Hits 400,000,000,000!. Internet Archive. [2014-09-01]. 


  32. ^ Rossi, Alexis. Fixing Broken Links on the Internet. Internet Archive. 2013-10-25 [2013-12-29]. 


  33. ^ 33.033.1 Hoffelder, Nate (July 9, 2013). "Internet Archive Now Hosts 4.4 Million eBooks, Sees 15 Million eBooks Downloaded Each Month". The Digital Reader.


  34. ^ Kahle, Brewster (May 23, 2008). "Books Scanning to be Publicly Funded". Internet Archive Forums.


  35. ^ "Bulk Access to OCR for 1 Million Books". Open Library Blog. November 24, 2008.


  36. ^ Internet Archive Search : (language:eng OR language:"English"). Internet Archive. [2015-11-27]. 


  37. ^ Internet Archive Search : (language:fre OR language:"French"). Internet Archive. [2015-11-27]. 


  38. ^ Internet Archive Search : (language:ger OR language:"German"). Internet Archive. [2015-11-27]. 


  39. ^ Internet Archive Search : (language:spa OR language:"Spanish"). Internet Archive. [2015-11-27]. 


  40. ^ Internet Archive Search : (language:Chinese OR language:"chi") AND mediatype:texts. Internet Archive. [2015-11-27]. 


  41. ^ Internet Archive Search : (language:ara OR language:"Arabic"). Internet Archive. [2015-11-27]. 


  42. ^ Internet Archive Search : (language:Dutch OR language:"dut") AND mediatype:texts. Internet Archive. [2015-11-27]. 


  43. ^ Internet Archive Search : (language:Portuguese OR language:"por") AND mediatype:texts. Internet Archive. [2015-11-27]. 


  44. ^ Internet Archive Search : (language:rus OR language:"Russian") AND mediatype:texts. Internet Archive. [2015-11-27]. 


  45. ^ Internet Archive Search : (language:urd OR language:"Urdu") AND mediatype:texts. Internet Archive. [2015-11-27]. 


  46. ^ Internet Archive Search : (language:Japanese OR language:"jpn") AND mediatype:texts. Internet Archive. [2015-11-27]. 


  47. ^ Internet Archive Search : mediatype:texts. Internet Archive. [2015-11-27]. 


  48. ^ Internet Archive Search : mediatype:texts AND date:[1800-01-01 TO 1809-12-31]. Internet Archive. [2015-11-27]. 


  49. ^ Internet Archive Search : mediatype:texts AND date:[1810-01-01 TO 1819-12-31]. Internet Archive. [2015-11-27]. 


  50. ^ Internet Archive Search : mediatype:texts AND date:[1820-01-01 TO 1829-12-31]. Internet Archive. [2015-11-27]. 


  51. ^ Internet Archive Search : mediatype:texts AND date:[1830-01-01 TO 1839-12-31]. Internet Archive. [2015-11-27]. 


  52. ^ Internet Archive Search : mediatype:texts AND date:[1840-01-01 TO 1849-12-31]. Internet Archive. [2015-11-27]. 


  53. ^ Internet Archive Search : mediatype:texts AND date:[1850-01-01 TO 1859-12-31]. Internet Archive. [2015-11-27]. 


  54. ^ Internet Archive Search : mediatype:texts AND date:[1860-01-01 TO 1869-12-31]. Internet Archive. [2015-11-27]. 


  55. ^ Internet Archive Search : mediatype:texts AND date:[1870-01-01 TO 1879-12-31]. Internet Archive. [2015-11-27]. 


  56. ^ Internet Archive Search : mediatype:texts AND date:[1880-01-01 TO 1889-12-31]. Internet Archive. [2015-11-27]. 


  57. ^ Internet Archive Search : mediatype:texts AND date:[1890-01-01 TO 1899-12-31]. Internet Archive. [2015-11-27]. 


  58. ^ Internet Archive Search : mediatype:texts AND date:[1900-01-01 TO 1909-12-31]. Internet Archive. [2015-11-27]. 


  59. ^ Internet Archive Search : mediatype:texts AND date:[1910-01-01 TO 1919-12-31]. Internet Archive. [2015-11-27]. 


  60. ^ Internet Archive Search : mediatype:texts AND date:[1920-01-01 TO 1929-12-31]. Internet Archive. [2015-11-27]. 


  61. ^ Internet Archive Search : mediatype:texts AND date:[1930-01-01 TO 1939-12-31]. Internet Archive. [2015-11-27]. 


  62. ^ Internet Archive Search : mediatype:texts AND date:[1940-01-01 TO 1949-12-31]. Internet Archive. [2015-11-27]. 


  63. ^ Internet Archive Search : mediatype:texts AND date:[1950-01-01 TO 1959-12-31]. Internet Archive. [2015-11-27]. 


  64. ^ Internet Archive Search : mediatype:texts AND date:[1960-01-01 TO 1969-12-31]. Internet Archive. [2015-11-27]. 


  65. ^ Internet Archive Search : mediatype:texts AND date:[1970-01-01 TO 1979-12-31]. Internet Archive. [2015-11-27]. 


  66. ^ Internet Archive Search : mediatype:texts AND date:[1980-01-01 TO 1989-12-31]. Internet Archive. [2015-11-27]. 


  67. ^ Internet Archive Search : mediatype:texts AND date:[1990-01-01 TO 1999-12-31]. Internet Archive. [2015-11-27]. 


  68. ^ Internet Archive Search : mediatype:texts AND date:[2000-01-01 TO 2009-12-31]. Internet Archive. [2015-11-27]. 


  69. ^ Internet Archive Search : mediatype:texts AND date:[2010-01-01 TO 2015-11-27]. Internet Archive. [2015-11-27]. 


  70. ^ Metropolitan Museum of Art - Gallery Images: Free Image : Download & Streaming : Internet Archive. Internet Archive. [2014-12-04]. 


  71. ^ How to Host Podcast MP3 on Archive.org. TurboFuture. [2019-02-25] (英语). 


  72. ^ Download & Streaming : Audio Archive : Internet Archive. archive.org. [2019-02-25] (英语). 


  73. ^ Clarke, John. Warren Zevon Live Shows Hit the Web, Possible Film in the Works. Rolling Stone. 2009-06-03 [2019-02-25] (美国英语). 


  74. ^ Brooklyn Museum : Free Image : Free Download, Borrow and Streaming : Internet Archive. archive.org. [2019-02-25] (英语). 


  75. ^ International School of Information Science (ISIS). www.bibalex.org. International School of Information Science. [2016-10-30]. 




延伸阅读


.mw-parser-output .refbegin{font-size:90%;margin-bottom:0.5em}.mw-parser-output .refbegin-hanging-indents>ul{list-style-type:none;margin-left:0}.mw-parser-output .refbegin-hanging-indents>ul>li,.mw-parser-output .refbegin-hanging-indents>dl>dd{margin-left:0;padding-left:3.2em;text-indent:-3.2em;list-style:none}.mw-parser-output .refbegin-100{font-size:100%}



  • Kahle, Brewster. Archiving the Internet. Scientific America. November 1996. 


  • Kahle, Brewster. Scanning Center Fire — Please Help Rebuild. Internet Archive Blogs. 2013-11-06. 


  • Jill Lepore. The Cobweb. The New Yorker. 2015-01-26. 


  • Ringmar, Erik. Liberate and Disseminate. Times Higher Education Supplement. 2008-04-10. 




外部連結








  • 官方网站 在维基数据上编辑此内容

  • 官方博客


  • 互联网档案馆的Twitter帳戶 (英文)


  • Internet Archive Mirror于埃及亚历山大图书馆

  • Netlabels release collection


  • The Other Minds Archive – 来自radiom.org的新音乐资源


  • Web Archiving at archive.org,关于互联网档案馆运营的详情

  • Pictures and descriptions of the Wayback Machine hardware in 2003 (prior to the Petabox), with cost information

  • Current Petabox storage hardware

  • Earliest known website of Internet Archive (www.archive.org) from 1997

  • Early websites from 1996


  • brewster. Scanning Center Fire — Please Help Rebuild. Internet Archive Blogs. 2013-11-06 [2013-11-07]. 


  • 互联网真能帮人类历史存档吗?. 腾讯网. 2015-01-24 [2015-09-04] (中文(中国大陆)‎). 






Popular posts from this blog

GameSpot

日野市

Tu-95轟炸機