安全圈 | 专注于最新网络信息安全讯息新闻

首页

數據至上的人工智慧時代,最好的公開數据集有哪些?

作者 landy 时间 2020-02-27
all

選自Medium

機器之心編譯

參與:蔣思源、黃小天

現如今構建人工智慧或機器學習系統比以往的時候更加容易。普遍存在的尖端開源工具如TensorFlow、Torch和Spark,再加上通過AWS的大規模計算力、Google Cloud或其他供應商的云計算,這些都意味著你可以在下午休閒時間使用筆記型電腦去訓練出最前沿的機器學習模型。

雖然不算是人工智慧訓練的最前沿,但人工智慧的無名英雄確實就是數據,許多許多標注或未標注的數據。研究部門和公司也都認識到數據民主化是加快人工智慧的必要步驟。

然而,涉及到機器學習或人工智慧的大多數產品强烈依賴於那些通常沒有開放的私有數据集,而本文將指出解决這種困境的辦法。

事實上,我們很難用一篇文章來說明哪些開放數据集是有用的,因為那些有用的開放數据集必須是可概念證明的,而什麼數据集對產品或確認特徵是有用的,在你收集你自己所有數據之前是不知道的。

重要的是,如果數据集有良好的表現並不能保證其訓練的機器學習系統在實際產品場景中表現良好。許多人在構建人工智慧系統時常常忘了構建一個新人工智慧解決方案或產品最困難的部分不是人工智慧本身或算灋,通常最困難的地方是數據收集和標注。標準數据集可以作為驗證或構建更優良解決辦法的良好起點。

在這個星期,我和一些機器學習專家們討論的都是有關標準數据集的問題。為了讓你能更輕鬆地構建人工智慧系統,我們蒐集了一些開源數据集,這些開源數据集是我們認為在人工智慧的世界裏你所需要瞭解的。

電腦視覺

MNIST:最通用的健全檢查。25x25的數据集,中心化,B&W手寫數位。這是個容易的任務——但是在MNIST有效,不等同於其本身是有效的。

地址:http://pjreddie.com/projects/mnist-in-csv/

CIFAR 10 & CIFAR 100: 32x32彩色影像。雖不再常用,但還是用了一次,可以是一項有趣的健全檢查。

地址:https://www.cs.toronto.edu/~kriz/cifar.html

ImageNet:新算灋實際上的影像數据集。很多圖片API公司從其REST介面獲取標籤,這些標籤被懷疑與ImageNet的下一級WordNet的1000個範疇很接近。

地址:http://image-net.org/

LSUN:場景理解具有很多輔助任務(房間佈置評估、顯著性預測等)和一個相關競爭。

地址:http://lsun.cs.princeton.edu/2016/

PASCAL VOC:通用影像分割/分類:對於構建真實世界的影像注釋毫無用處,對於基線則意義重大。

地址:http://host.robots.ox.ac.uk/pascal/VOC/

SVHN:來自穀歌街景視圖(Google Street View)的房屋數量。把這想像成荒野之中的週期性MNIST。

地址:http://ufldl.stanford.edu/housenumbers/

MS COCO:帶有一個相關性競爭的通用影像理解/字幕。

地址:http://mscoco.org/

Visual Genome:非常詳細的視覺知識庫,並帶有100K影像的深字幕。

地址:http://visualgenome.org/

Labeled Faces in the Wild:通過名稱識別字,已經為被裁剪的面部區域(用Viola-Jones)打了標籤。現有人類的子集在數據集中有兩個影像。對於這裡做面部匹配系統訓練的人來說,這很正常。

地址:http://vis-www.cs.umass.edu/lfw/

自然語言

文字分類數据集(2015年來自Zhang等人):一個用於文字分類的合8個數据集為1個的大型數据集。這些是用於新文字分類的最常被報導的基線。樣本大小從120K到3.6M,問題從2級到14級。數据集來自DBPedia、Amazon、Yelp、Yahoo!、Sogou和AG。

地址https://drive.google.com/drive/u/0/folders/0Bz8a_Dbh9Qhbfll6bVpmNUtUcFdjYmF2SEpmZUZUcVNiMUw1TWN6RDV3a0JHT3kxLVhVR2M

WikiText:來自由Salesforce MetaMind精心策劃的維琪百科文章中的大型語言建模語料庫。

地址:http://metamind.io/research/the-wikitext-long-term-dependency-language-modeling-dataset/

Question Pairs:從包含重複/語義相似性標籤的Quora釋放出來的第一個數据集。

地址:https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs

SQuAD:斯坦福大學問答數据集(The Stanford Question Answering Dataset)——一個被廣泛應用於問題回答和閱讀理解的數据集,其中每個問題的答案形式是文字的一個片段或碎片。

地址:https://rajpurkar.github.io/SQuAD-explorer/

CMU Q/A Dataset:手動生成的模擬陳述問題/回答與維琪百科文章的難度評級相對應。

地址:http://www.cs.cmu.edu/~ark/QA-data/

Maluuba Datasets:用於狀態性自然語言理解研究的人工生成的精密數据集。

地址:https://datasets.maluuba.com/

Billion Words:大型,有統一目標的語言建模數据集。常被用來訓練諸如word2vec或Glove的分佈式詞表徵。

地址:http://www.statmt.org/lm-benchmark/

Common Crawl: PB級規模的網絡爬行——常被用來學習詞嵌入。可從Amazon S3上免費獲取。由於它是WWW的抓取,同樣也可以作為網路資料集來使用。

地址:http://commoncrawl.org/the-data/

bAbi:來自FAIR(Facebook AI Research)的合成式閱讀理解與問答數据集。

地址:https://research.fb.com/projects/babi/

The Children’s Book Test:從來自古登堡計畫的童書中選取(問題+上下文,回答)組的基線。這對問題回答、閱讀理解和模擬陳述査詢有用。

地址:https://research.fb.com/projects/babi/

 Stanford Sentiment Treebank:標準的情感數据集,在每一個句子解析樹的節點上帶有細膩的情感注解。

地址:http://nlp.stanford.edu/sentiment/code.html

20 Newsgroups:文字分類經典數據集中的一個。通常可用作純分類或任何IR/索引算灋的基準。

地址:http://qwone.com/~jason/20Newsgroups/

Reuters:舊的,純粹基於分類的數据集與來自新聞專線的文字。常用於教程。

地址:https://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection

IMDB:一個用於二元情感分類的更舊更小的數据集。

地址:http://ai.stanford.edu/~amaas/data/sentiment/

UCI’s Spambase:來自著名的UCI機器學習庫較久的經典垃圾電子郵件數据集。由於數据集的策劃細節,這可以是一個學習個性化過濾垃圾郵件的有趣基線。

地址:https://archive.ics.uci.edu/ml/datasets/Spambase

語音

大多數語音辨識數据集是有所有權的,這些數據為收集它們的公司帶來了大量的價值,但在這一領域裏,許多可用的數据集都是比較舊的。

2000 HUB5 English:僅僅只包含英語的語音數據,最近百度發表的論文《深度語音:擴展端對端語音識別(Deep Speech: Scaling up end-to-end speech recognition)》就是使用了該語音數据集。

地址:https://catalog.ldc.upenn.edu/LDC2002T43

LibriSpeech:包括文字和語音的有聲讀物數据集。它是近500小時由多人朗讀清晰的各類有聲讀物數据集,且由包含文字和語音的書籍章節組織起結構。

地址:http://www.openslr.org/12/

VoxForge:帶口音的語音清潔數据集,特別是對於如期望對不同口音或腔調的語音有魯棒性需求的系統很有用。

地址:http://www.voxforge.org/

TIMIT:只包含英語的語音辨識數据集。

地址:https://catalog.ldc.upenn.edu/LDC93S1

CHIME:包含雜訊的語音辨識數据集。該數据集包含真實、類比和清潔的語音記錄。實際上是記錄四個說話者在四個雜訊源的情况下近9000份記錄,類比數據是在結合話語行為和清潔無噪語音記錄的多環境下生成的。

地址:http://spandh.dcs.shef.ac.uk/chime_challenge/data.html

TED-LIUM:TED演講的語音轉錄數据集。1495份TED演講的語音記錄,並且這些語音記錄有對應的全文本。

地址:http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus

推薦和排序系統

Netflix Challenge:第一個主要Kaggle風格的資料庫。因為存在隱私問題,只能非正式地獲得授權。

地址:http://www.netflixprize.com/

MovieLens:各種電影的評論資料庫,通常用於基線協同過濾(collaborative filtering baselines)。

地址:https://grouplens.org/datasets/movielens/

Million Song Dataset:在Kaggle上大量、富元數據(metadata-rich)、開源的數据集,有利於人們試驗混合推薦系統(hybrid recommendation systems)。

地址:https://www.kaggle.com/c/msdchallenge

Last.fm:音樂推薦數据集,該數据集能有權訪問底層社交網絡和其他中繼資料,而這樣的數据集正對混合系統有巨大的作用。

地址:http://grouplens.org/datasets/hetrec-2011/

網絡和圖表

Amazon Co-Purchasing和Amazon Reviews:從亞馬遜以及相關產品評論數據網絡爬取的如「用戶買了這個同時也會買哪個」這樣的語句。適合在互聯網中進行推薦系統的測試。

地址:http://snap.stanford.edu/data/#amazon和http://snap.stanford.edu/data/amazon-meta.html

Friendster Social Network Dataset:在Friendster的重心轉入到遊戲網站之前,這家網站發佈了包含103750348個用戶好友列表的匿名數据集。

地址:https://archive.org/details/friendster-dataset-201107

地理測繪資料庫

OpenStreetMap:免費許可的全球向量數据集。其包含了舊版的美國人口統計局的TIGER數據。

地址:http://wiki.openstreetmap.org/wiki/Planet.osm

Landsat8:整個地球表面的衛星拍攝數據,每隔幾周會更新一次。

地址:https://landsat.usgs.gov/landsat-8

NEXRAD:多普雷達掃描的美國大氣環境。

地址:https://www.ncdc.noaa.gov/data-access/radar-data/nexrad

人們常常認為解决一個數据集上的問題就相當於對產品進行了一次完整的審視。因為我們可以使用這些數据集進行驗證或證明一個概念,但是也不要忘了測試模型或原型是如何獲取新的和更實際的數據來提高運算效果,獲得優良產品的。數據驅動的成功公司通常從他們收集新數據、私有數據的能力中獲得力量,從而以一種具有競爭力的管道提高他們的表現。

最後的話

好數据集還有很多,這份清單當然不可能完全覆蓋,如果你知道還有很好的數据集值得推薦,請通過評論與我們分享。

原文地址:https://medium.com/startup-grind/fueling-the-ai-gold-rush-7ae438505bc2#.7yh3syep0

©本文由機器之心編譯,轉載請聯系本公眾號獲得授權。

✄------------------------------------------------

加入機器之心(全職記者/實習生):[email protected]

投稿或尋求報導:[email protected]

廣告&商務合作:[email protected]