はじめに
退屈な古いマーケティングキャンペーンのスプレッドシートだけでは、高度なデータ分析の実行方法や、意味のあるBeast Mode計算の記述方法を学ぶのは困難です。でも、ご安心ください。Domoでのカード作成やデータ分析の方法を学習する際に役立つ、わくわくするようなDataSetのリストをご用意しました。 この記事に記載されているDataSetにご満足いただけない場合は、 Kaggle をご覧ください。ここは、ユーザーが自作のDataSetをアップロードして競い合うウェブサイトであり、数千ものDataSetがそろっています。ジェパディで出題された20万件以上の質問
このDataSetには、クイズ番組「ジェパディ」の初回から2012年までのすべての質問と回答が入っています。XLSX、CSV、JSONの形式で利用できます。 このDataSetは、2014年にRedditユーザーtrexmattによって作成されました。このDataSetが最初に投稿されたRedditページを見るには、 https://www.reddit.com/r/datasets/comments/1uyd0t/200000_jeopardy_questions_in_a_json_file/ をクリックしてください。- JEOPARDY.xlsx (18.7 MB)
- JEOPARDY_CSV.csv (32.1 MB)
- JEOPARDY_QUESTIONS1.json (53 MB)
列 | 説明 |
|---|---|
category | 質問のカテゴリー(例:「HISTORY」) |
value | 質問の金額(「$200」などの文字列) |
question | 質問のテキスト。例:「Calf-length pants styled in colorful island prints are named for this type of Hawaiian party(カラフルな島スタイルのプリントでデザインされた膝丈のパンツは、ハワイで見られるあるパーティーにちなんで名付けられました)」 |
answer | 答えのテキスト。例:「luau pants(ルアウパンツ)」 |
round | 質問が出題されるジェパディのラウンド。「Jeopardy」、「Double Jeopardy」、「Final Jeopardy」、「Tiebreaker」(極めてまれ)のいずれかになります。 |
show_number | 番組の通し番号を示す文字列(例:「4680」) |
air_date | 番組の放送日。 |
ワインの評価
このDataSetには、2017年6月15日に winemag.com から取得したワインの評価に関するデータが入っています。CSVとJSONの形式で利用できます。 このDataSetは、Kaggleユーザーzackthouttによって作成されました。DataSetの詳細と使用方法については、 https://www.kaggle.com/zynicide/wine-reviews/home を参照してください。- winemag-data_first150k.csv (47.4 MB)
- winemag-data-130k-v2.csv (50.4 MB)
- winemag-data-130k-v2.json (75.6 MB)
列 | 説明 |
|---|---|
country | ワインの生産国。 |
description | 味、香り、見た目、口触りなど、ソムリエによる簡単な説明。 |
designation | ワインの原料となったブドウの産地であるワイナリー内のブドウ園。 |
points | WineEnthusiastによるワインの評価ポイント(1~100)。 |
price | このワインのボトルの価格(米ドル)。 |
province | ワインの生産国の県または州。 |
region | 県または州のワイン生育地(例「Napa」)。 |
region2 | 大きな地域内のより具体的な地域(小さな地域がない場合は空白)。 |
taster name | ワインのテイスティングと評価を行ったソムリエの名前。 |
taster_twitter_handle | ワインのテイスティングと評価を行ったソムリエのXのユーザー名。 |
title | ワイン評価のタイトル(区別しやすいように、多くの場合、等級が含まれています)。 |
variety | ワインの生産に使用したブドウの種類(例:「Pinot Noir」)。 |
オリンピック120年の歴史
このDataSetには、1896年から2016年までに開催された全オリンピックのアスリートとイベントのデータが入っています。CSVとXLSXの形式で利用できます。 このDataSetは、KaggleユーザーRandi H. Griffinによって作成されました。DataSetの詳細と使用方法については、 https://www.kaggle.com/heesoo37/120-years-of-olympic-history-athletes-and-results/home を参照してください。 このDataSetを使用する場合、1992年までは冬季と夏季の競技大会は同じ年に開催されていた点に注意してください。それより後は、夏と冬の開催がずらされ、それぞれ4年おきに行われるようになりました。このデータの分析時には、夏季および冬季の大会が常に別の年に開催されていると想定する間違いがよく発生します。- OLYMPICS_athlete_events.csv (34.5 MB)
- OLYMPICS_athlete_events.xlsx (20.7 MB)
列 | 説明 |
|---|---|
ID | DataSet内の順番に基づいてアスリートに割り当てられたID番号。 |
Name | アスリートの名前。 |
Sex | アスリートの性別。 |
Age | アスリートの年齢。 |
Height | アスリートの身長(センチメートル単位)。 |
Weight | アスリートの体重(キログラム単位)。 |
Team | このアスリートが所属する国。 |
NOC | アスリートが所属する国を表す3文字の略語。 |
Games | このオリンピック大会の開催年と季節。 |
Year | 大会の開催年。 |
Season | 大会の季節(SummerまたはWinter)。 |
City | オリンピックが開催された都市。 |
Sport | 大会の種目。 |
Event | 大会の名前。 |
Medal | アスリートが獲得したメダル(獲得したメダルがない場合は「NA」)。 |
スーパーヒーローの特徴と得意技
これらのDataSetには、700人を超えるスーパーヒーロー(および悪役)の基本情報が入っています。最初のDataSet(heroes_information.csv)には、性別、人種、コミック、出版社など、その人物の特徴が入っており、2つ目のDataSet(super_hero_powers.csv)には、それぞれのスーパーヒーローの特技が入っています(168個のスーパーパワーについて二択式(true/false)で記載)。 これらのDataSetは、KaggleユーザーClaudioDaviによって作成されました。詳細は、 https://www.kaggle.com/claudiodavi/superhero-set/home を参照してください。- heroes_information.csv (45 KB)
- super_hero_powers.csv (657 KB)
列 | 説明 |
|---|---|
Name | スーパーヒーローの名前または別名。 |
Gender | スーパーヒーローの性別。 |
Race | スーパーヒーローの種族(Human、Amazon、Vampireなど)。 |
Eye Color | スーパーヒーローの瞳の色。 |
Hair Color | スーパーヒーローの髪の毛の色。 |
Skin Color | スーパーヒーローの肌の色。 |
Height | スーパーヒーローの身長(センチメートル単位)。 |
Weight | スーパーヒーローの体重(キログラム単位)。 |
Publisher | このスーパーヒーローを作成した漫画会社(例:Marvel、D.C.)。 |
Alignment | スーパーヒーローの全体的な位置付け(善、悪、中立)。 |
UFO目撃現場
これらのDataSetには、1906年から2014年までに報告されたUFOの全目撃情報と、時刻標準とジオコーディングが入っています。CSV形式の2つのDataSetのリンクはこちらです。1つ目のUFO_sightings_complete.csvには、目撃情報の場所がないまたは空白のエントリ(0.8146%)、時間が誤っているまたは空白のエントリ(8.0237%)が含まれています。2つ目のUFO_sightings_scrubbed.csvでは、これらの誤ったエントリと空白のエントリが削除されています。 このデータのソースは、National UFO Reporting Center(NUFORC)です。詳細については、Kaggleのウェブサイト( https://www.kaggle.com/NUFORC/ufo-sightings/home )を参照してください。- UFO_sightings_complete.csv (14.5 MB)
- UFO_sightings_scrubbed.csv (13.1 MB)
列 | 説明 |
|---|---|
datetime | 目撃の日時(形式: |
city | UFOが目撃された都市。 |
state | UFOが目撃された米国の州(米国内での目撃のみに適用。その他は空白)。 |
country | UFOが目撃された国。国を表す2文字の略号を使用(例:「英国」の場合は「gb」など)。 |
shape | UFOの形状(例:円形、葉巻型)。 |
duration (seconds) | 目撃の時間(秒単位)。 |
duration (hours/min) | 目撃の時間(時間または分単位)。 |
date posted | 目撃情報を投稿した日時(形式: |
latitude | 目撃の緯度(形式: |
longitude | 目撃の経度(形式: |
キノコの分類
このDataSetには、ハラタケ属とキツネノカラカサ属のひだのあるキノコ(23種)に対応する仮想例の説明が入っています。出典は、『Auduron Society Field Guide to North American Mushrooms』(1981年)です。各標本は、「食用にして問題なし」、「間違いなく有毒」、「有毒かもしれないので食用には勧められない」に分類されています(3つ目のクラスは有毒なクラスと組み合わされました)。 この情報は、データの構造化と分析のスキルを磨くためにのみ使用することをお勧めします。キノコの可食性を決定するための植物リファレンス/サバイバルガイドとしてはこの情報を使用しないでください。野生キノコの識別は、専門家に任せる必要があります。 このDataSetはXLSX形式でのみ利用可能です。- mushrooms.xlsx (722 KB)
列 | 説明 |
|---|---|
class | サンプルの可食性(edibleかpoisonous)。 |
cap-shape | キノコの傘の形状(例:convex、bell-shaped、flat)。 |
cap-surface | キノコの表面の質感(例:smooth、scaly、fibrous)。 |
cap-color | キノコの傘の色。 |
bruises | キノコに斑点があるかどうか(yesまたはno)。 |
odor | キノコの香り(例:pungent、almond)。 |
gill-attachment | キノコにひだがあるかどうか。 |
gill-spacing | ひだの間隔が狭いか詰まったようになっているか。 |
gill-size | ひだのサイズ(narrowまたはbroad)。 |
gill-color | ひだの色。 |
stalk-shape | 柄が広がっているか細くなっているか。 |
stalk-root | 柄の根元の形状(例:equal、club、bulbous)。 |
stalk-surface-above-ring | 菌輪上部の柄の質感。 |
stalk-surface-below-ring | 菌輪下部の柄の質感。 |
stalk-color-above-ring | 菌輪上部の柄の色。 |
stalk-color-below-ring | 菌輪下部の柄の色。 |
veil-type | 菌膜のタイプ(すべて「Partial」)。 |
veil-color | 菌膜の色。 |
ring-number | 菌輪の数。 |
ring-type | 菌輪の形状。 |
spore-print-color | 胞子の色。 |
population。 | 同一エリア内の同様のキノコの相対数(例:abundant、scattered、solitary)。 |
habitat | キノコが見つかる生息環境のタイプ(例:grasses、urban)。 |
米国の子供の名前
これらのDataSetには、1880年から現在までに米国で名付けられたほぼすべての名前がリストされており、1年ごとの数も掲載されています。DataSetには、同じ年に少なくとも5人の赤ちゃんに付けられた名前のみが入っています。1つ目のDataSet(NationalNames.csv)には、米国全体で合計したすべての名前の数が入っています。2つ目のStateNames.csvは、個々の州ごとに数が細分化されています(そのため、ファイルサイズがかなり大きくなっています)。両方のファイルが次のzipファイルに結合されます。 BabyNameData.zip(43.8 MB)列 | 説明 |
|---|---|
Id | その年にこの名前に割り当てられたID番号(このDataSetでのみ使用)。 |
Name | 子供の名前。 |
Year | この名前がカウントされた年。 |
Gender | 使用された名前に関連付けられている性別(個々の数は名前と性別ごとの数であるため、この項目は重要な識別子になります)。 |
Count | 各年の特定の性別におけるこの名前の数。 |
State(StateNames DataSetのみ) | カウントされた州。 |
世界幸福度報告
世界幸福度報告は、世界の幸福の状態に関する画期的な調査です。幸福度で155ヶ国をランク付けした『World Happiness 2017』は、国際幸福デーを祝うイベントの際に国連で発表されました。政策決定の意思決定に関する報告に幸福度指標を使用する政府、組織、市民社会が増えており、このレポートは引き続き世界的な認知を得るものとなっています。 添付のCSV DataSetには、2015〜2017年における世界のほぼすべての国の幸福度データが入っています。国ごとに、全体におけるランキングが割り当てられ、平均寿命、経済、自由などの基準に対して個別のスコアが付けられています。 世界幸福度報告の詳細とデータの解釈方法については、Kaggleのページ( https://www.kaggle.com/unsdsn/world-happiness/home )を参照してください。- WHR_2015.csv (16 KB)
- WHR_2016.csv (17 KB)
- WHR_2017.csv (29 KB)
列 | 説明 |
|---|---|
Country | 国の名前。 |
Region(2015年と2016年のみ) | この国が属する地域(例:Western Europe、Middle East and Northern Africa)。 |
Happiness Rank | 幸福度に基づいたその国のランキング。 |
Happiness Score | サンプルとなった人に「0を最高として、あなたの幸福度を0~10の範囲で評価してください」という質問をして測定。 |
Standard Error(2015年のみ) | 幸福度の標準誤差。 |
Lower Confidence Interval(2016年のみ) | 幸福度の低い方の信頼区間。 |
Upper Confidence Interval(2016年のみ) | 幸福度の高い方の信頼区間。 |
Whisker.high(2017年のみ) | この国の箱ひげ図の最大値。 |
Whisker.low(2017年のみ) | この国の箱ひげ図の最小値。 |
Economy(1人あたりGDP) | GDPが幸福度の計算に寄与する程度。 |
Family | 家族が幸福度の計算に寄与する程度。 |
Health(平均余命) | 平均余命が幸福度の計算に寄与する程度。 |
Freedom | 自由が幸福度の計算に寄与する程度。 |
Trust(政府の汚職) | 政府の汚職の認知が幸福度の計算に寄与する程度。 |
Generosity | 寛容さが幸福度の計算に寄与する程度。 |
Dystopia Residual | ディストピア残差が幸福度の計算に寄与する程度(ディストピア残差の構成要素の詳細については、上述のKaggleページを参照してください)。 |
80種類のシリアル
このCSV DataSetには、80種類の朝食用シリアルの栄養に関するデータが入っています。 このDataSetは、ユーザーChris CrawfordによってKaggleにアップロードされました。データのまとめと整理は、Petra Isenberg、Pierre Dragicevic、Yvonne Jansenによって行われました。このKaggleページは、 https://www.kaggle.com/crawford/80-cereals/home から閲覧できます。原典は https://perso.telecom-paristech.fr/eagan/class/igr204/datasets です。 このDataSetの列は次のように構成されています。列 | 説明 |
|---|---|
name | シリアルの名前。 |
manufacturer | シリアルのメーカー。 |
type | シリアルのタイプ(coldまたはhot)。 |
calories | 一食あたりのカロリー数。 |
protein | 一食あたりのたんぱく質の量(グラム単位)。 |
fat | 一食あたりの脂肪の量(グラム単位)。 |
sodium | 一食あたりのナトリウムの量(ミリグラム単位)。 |
fiber | 一食あたりの食物繊維の量(グラム単位)。 |
carbo | 一食あたりの複合糖質の量(グラム単位)。 |
sugars | 一食あたりの糖類の量(グラム単位)。 |
potass | 一食あたりのカリウムの量(ミリグラム単位)。 |
vitamins | ビタミンとミネラルの割合(0、25、100のいずれか。FDA推奨の一般的な割合)。 |
weight | 一食あたりの重量(オンス単位)。 |
cups | 一食あたりのカップ数。 |
rating | シリアルの評価(作成者不明。おそらく『Consumer Reports』)。 |
スピードデートテスト
このDataSetのデータは、2002年から2004年に行われた実験的なスピードデートイベントの参加者から収集されたものです。イベントの出席者は、ほかの異性の参加者全員と4分間の「初デート」を行います。4分後、参加者はその相手と再びデートしたいかを尋ねられます。また、魅力、誠実さ、知性、楽しさ、熱意、共有の関心という6つの属性でデートを評価するように求められます。 DataSetには、イベント中のさまざまな時点で実施した参加者へのアンケートデータも含まれます。アンケートには、その人の特徴、デートの傾向、主要な属性についての自己評価、ほかの人が相手に求めると考えられる考え方、ライフスタイルに関する項目があります。 このDataSetは、コロンビアビジネススクールのRay Fisman教授とSheena Iyengar教授によって作成され、ユーザーAnna MontoyaによってKaggleにアップロードされました。詳細は、Kaggleのページ( https://www.kaggle.com/annavictoria/speed-dating-experiment/home )を参照してください。 このDataSetは非常に複雑であり、200以上の列があります。列を解釈しやすいように、データを含むCSVファイルとともにキーが提供されています。タイタニック号乗客名簿
このCSV DataSetには、1912年に沈没したHMSタイタニック号の887人の乗客の基本情報で構成されており、名前、年齢、性別、客室等級、運賃、乗船家族数、事故から生存できたかどうかの情報が入っています。 この情報を扱った、一般ユーザー作成のDataSetは、多数公開されています。これらのDataSetを閲覧したり、機械学習におけるタイタニックデータの活用方法を調べたりする場合は、 http://www.kaggle.com で「titanic」を検索してください。 このDataSetの列は次のように構成されています。列 | 説明 |
|---|---|
Survived | この乗客が生き残ったかどうか(0は「いいえ」、1は「はい」)。 |
Pclass | この人物の客室等級(1、2、3のいずれか)。 |
Name | 乗客の名前。 |
Sex | 乗客の性別。 |
Age | 乗客の年齢。 |
Siblings/Spouses Aboard | この乗客と同伴していた兄弟や配偶者の数。 |
Parents/Children Aboard | この乗客と同伴していた親や子供の数。 |
Fare | この乗客が支払った運賃(英ポンド(£)単位)。 |