メインコンテンツへスキップ

はじめに

退屈な古いマーケティングキャンペーンのスプレッドシートだけでは、高度なデータ分析の実行方法や、意味のあるBeast Mode計算の記述方法を学ぶのは困難です。でも、ご安心ください。Domoでのカード作成やデータ分析の方法を学習する際に役立つ、わくわくするようなDataSetのリストをご用意しました。 この記事に記載されているDataSetにご満足いただけない場合は、 Kaggle をご覧ください。ここは、ユーザーが自作のDataSetをアップロードして競い合うウェブサイトであり、数千ものDataSetがそろっています。

ジェパディで出題された20万件以上の質問

このDataSetには、クイズ番組「ジェパディ」の初回から2012年までのすべての質問と回答が入っています。XLSX、CSV、JSONの形式で利用できます。 このDataSetは、2014年にRedditユーザーtrexmattによって作成されました。このDataSetが最初に投稿されたRedditページを見るには、 https://www.reddit.com/r/datasets/comments/1uyd0t/200000_jeopardy_questions_in_a_json_file/ をクリックしてください。 このDataSetの列は次のように構成されています。

説明

category

質問のカテゴリー(例:「HISTORY」)

value

質問の金額(「$200」などの文字列)

注記: 「NONE」はファイナル・ジェパディとタイブレーカーの質問です。

question

質問のテキスト。例:「Calf-length pants styled in colorful island prints are named for this type of Hawaiian party(カラフルな島スタイルのプリントでデザインされた膝丈のパンツは、ハワイで見られるあるパーティーにちなんで名付けられました)」

注記: 写真や動画に関する質問の場合、ハイパーリンクや読みづらくしたテキストが含まれることがあります。

answer

答えのテキスト。例:「luau pants(ルアウパンツ)」

round

質問が出題されるジェパディのラウンド。「Jeopardy」、「Double Jeopardy」、「Final Jeopardy」、「Tiebreaker」(極めてまれ)のいずれかになります。

show_number

番組の通し番号を示す文字列(例:「4680」)

air_date

番組の放送日。 YYYY-MM-DD の形式です。

ワインの評価

このDataSetには、2017年6月15日に winemag.com から取得したワインの評価に関するデータが入っています。CSVとJSONの形式で利用できます。 このDataSetは、Kaggleユーザーzackthouttによって作成されました。DataSetの詳細と使用方法については、 https://www.kaggle.com/zynicide/wine-reviews/home を参照してください。 このDataSetの列は次のように構成されています。

説明

country

ワインの生産国。

description

味、香り、見た目、口触りなど、ソムリエによる簡単な説明。

designation

ワインの原料となったブドウの産地であるワイナリー内のブドウ園。

points

WineEnthusiastによるワインの評価ポイント(1~100)。

price

このワインのボトルの価格(米ドル)。

province

ワインの生産国の県または州。

region

県または州のワイン生育地(例「Napa」)。

region2

大きな地域内のより具体的な地域(小さな地域がない場合は空白)。

taster name

ワインのテイスティングと評価を行ったソムリエの名前。

taster_twitter_handle

ワインのテイスティングと評価を行ったソムリエのXのユーザー名。

title

ワイン評価のタイトル(区別しやすいように、多くの場合、等級が含まれています)。

variety

ワインの生産に使用したブドウの種類(例:「Pinot Noir」)。

オリンピック120年の歴史

このDataSetには、1896年から2016年までに開催された全オリンピックのアスリートとイベントのデータが入っています。CSVとXLSXの形式で利用できます。 このDataSetは、KaggleユーザーRandi H. Griffinによって作成されました。DataSetの詳細と使用方法については、 https://www.kaggle.com/heesoo37/120-years-of-olympic-history-athletes-and-results/home を参照してください。 このDataSetを使用する場合、1992年までは冬季と夏季の競技大会は同じ年に開催されていた点に注意してください。それより後は、夏と冬の開催がずらされ、それぞれ4年おきに行われるようになりました。このデータの分析時には、夏季および冬季の大会が常に別の年に開催されていると想定する間違いがよく発生します。 このDataSetの列は次のように構成されています。

説明

ID

DataSet内の順番に基づいてアスリートに割り当てられたID番号。

Name

アスリートの名前。

Sex

アスリートの性別。

Age

アスリートの年齢。

Height

アスリートの身長(センチメートル単位)。

Weight

アスリートの体重(キログラム単位)。

Team

このアスリートが所属する国。

NOC

アスリートが所属する国を表す3文字の略語。

Games

このオリンピック大会の開催年と季節。

Year

大会の開催年。

Season

大会の季節(SummerまたはWinter)。

City

オリンピックが開催された都市。

Sport

大会の種目。

Event

大会の名前。

Medal

アスリートが獲得したメダル(獲得したメダルがない場合は「NA」)。

スーパーヒーローの特徴と得意技

これらのDataSetには、700人を超えるスーパーヒーロー(および悪役)の基本情報が入っています。最初のDataSet(heroes_information.csv)には、性別、人種、コミック、出版社など、その人物の特徴が入っており、2つ目のDataSet(super_hero_powers.csv)には、それぞれのスーパーヒーローの特技が入っています(168個のスーパーパワーについて二択式(true/false)で記載)。 これらのDataSetは、KaggleユーザーClaudioDaviによって作成されました。詳細は、 https://www.kaggle.com/claudiodavi/superhero-set/home を参照してください。 heroes_information DataSetの列は次のように構成されています。

説明

Name

スーパーヒーローの名前または別名。

Gender

スーパーヒーローの性別。

Race

スーパーヒーローの種族(Human、Amazon、Vampireなど)。

Eye Color

スーパーヒーローの瞳の色。

Hair Color

スーパーヒーローの髪の毛の色。

Skin Color

スーパーヒーローの肌の色。

Height

スーパーヒーローの身長(センチメートル単位)。

注記: リスト内のスーパーヒーローの多くは、身長と体重が-99となっています。これが何を意味するのか正確には分かりませんが、不明であることを示していると考えられます。

Weight

スーパーヒーローの体重(キログラム単位)。

注記: リスト内のスーパーヒーローの多くは、身長と体重が-99となっています。これが何を意味するのか正確には分かりませんが、不明であることを示していると考えられます。

Publisher

このスーパーヒーローを作成した漫画会社(例:Marvel、D.C.)。

Alignment

スーパーヒーローの全体的な位置付け(善、悪、中立)。

super_hero_powers DataSetには168の列が含まれているため、ここには掲載しません。ただし、このDataSetは分かりやすい作りになっています。スーパーヒーローの各パワーにtrueまたはfalseの値が割り当てられています。たとえば、スーパーヒーロー「Banshee」には、「Flight」、「Audio Control」、「Force Field」、「Enhanced Hearing」、「Sonar」、「Sonic Scream」に「TRUE」が割り当てられており、その他のパワーにはすべて「FALSE」の値が割り当てられています。

UFO目撃現場

これらのDataSetには、1906年から2014年までに報告されたUFOの全目撃情報と、時刻標準とジオコーディングが入っています。CSV形式の2つのDataSetのリンクはこちらです。1つ目のUFO_sightings_complete.csvには、目撃情報の場所がないまたは空白のエントリ(0.8146%)、時間が誤っているまたは空白のエントリ(8.0237%)が含まれています。2つ目のUFO_sightings_scrubbed.csvでは、これらの誤ったエントリと空白のエントリが削除されています。 このデータのソースは、National UFO Reporting Center(NUFORC)です。詳細については、Kaggleのウェブサイト( https://www.kaggle.com/NUFORC/ufo-sightings/home )を参照してください。 両方のDataSetの列は次のように構成されています。

説明

datetime

目撃の日時(形式: m/d/yyyy h:mm

city

UFOが目撃された都市。

state

UFOが目撃された米国の州(米国内での目撃のみに適用。その他は空白)。

country

UFOが目撃された国。国を表す2文字の略号を使用(例:「英国」の場合は「gb」など)。

shape

UFOの形状(例:円形、葉巻型)。

duration (seconds)

目撃の時間(秒単位)。

duration (hours/min)

目撃の時間(時間または分単位)。

date posted

目撃情報を投稿した日時(形式: m/d/yyyy )。

latitude

目撃の緯度(形式: DDD.dddd )。

longitude

目撃の経度(形式: DDD.dddd )。

キノコの分類

このDataSetには、ハラタケ属とキツネノカラカサ属のひだのあるキノコ(23種)に対応する仮想例の説明が入っています。出典は、『Auduron Society Field Guide to North American Mushrooms』(1981年)です。各標本は、「食用にして問題なし」、「間違いなく有毒」、「有毒かもしれないので食用には勧められない」に分類されています(3つ目のクラスは有毒なクラスと組み合わされました)。 この情報は、データの構造化と分析のスキルを磨くためにのみ使用することをお勧めします。キノコの可食性を決定するための植物リファレンス/サバイバルガイドとしてはこの情報を使用しないでください。野生キノコの識別は、専門家に任せる必要があります。 このDataSetはXLSX形式でのみ利用可能です。 このDataSetの列は次のように構成されています。

説明

class

サンプルの可食性(edibleかpoisonous)。

cap-shape

キノコの傘の形状(例:convex、bell-shaped、flat)。

cap-surface

キノコの表面の質感(例:smooth、scaly、fibrous)。

cap-color

キノコの傘の色。

bruises

キノコに斑点があるかどうか(yesまたはno)。

odor

キノコの香り(例:pungent、almond)。

gill-attachment

キノコにひだがあるかどうか。

gill-spacing

ひだの間隔が狭いか詰まったようになっているか。

gill-size

ひだのサイズ(narrowまたはbroad)。

gill-color

ひだの色。

stalk-shape

柄が広がっているか細くなっているか。

stalk-root

柄の根元の形状(例:equal、club、bulbous)。

stalk-surface-above-ring

菌輪上部の柄の質感。

stalk-surface-below-ring

菌輪下部の柄の質感。

stalk-color-above-ring

菌輪上部の柄の色。

stalk-color-below-ring

菌輪下部の柄の色。

veil-type

菌膜のタイプ(すべて「Partial」)。

veil-color

菌膜の色。

ring-number

菌輪の数。

ring-type

菌輪の形状。

spore-print-color

胞子の色。

population。

同一エリア内の同様のキノコの相対数(例:abundant、scattered、solitary)。

habitat

キノコが見つかる生息環境のタイプ(例:grasses、urban)。

米国の子供の名前

これらのDataSetには、1880年から現在までに米国で名付けられたほぼすべての名前がリストされており、1年ごとの数も掲載されています。DataSetには、同じ年に少なくとも5人の赤ちゃんに付けられた名前のみが入っています。1つ目のDataSet(NationalNames.csv)には、米国全体で合計したすべての名前の数が入っています。2つ目のStateNames.csvは、個々の州ごとに数が細分化されています(そのため、ファイルサイズがかなり大きくなっています)。両方のファイルが次のzipファイルに結合されます。 BabyNameData.zip(43.8 MB)
注記: ファイルアップロードコネクターを使用してこれらのDataSetをDomoにアップロードしようとしたときにエラーが発生した場合は、ファイルをExcelファイル形式で保存してください。ただし、Excelファイルには最大1,048,576行しか含めることができません。これらのCSVファイルにはこの数を超える行が含まれています。したがって、Excelを使用する場合、DataSet全体をアップロードすることはできません。
これらのDataSetの列は次のように構成されています。

説明

Id

その年にこの名前に割り当てられたID番号(このDataSetでのみ使用)。

Name

子供の名前。

Year

この名前がカウントされた年。

Gender

使用された名前に関連付けられている性別(個々の数は名前と性別ごとの数であるため、この項目は重要な識別子になります)。

Count

各年の特定の性別におけるこの名前の数。

State(StateNames DataSetのみ)

カウントされた州。

世界幸福度報告

世界幸福度報告は、世界の幸福の状態に関する画期的な調査です。幸福度で155ヶ国をランク付けした『World Happiness 2017』は、国際幸福デーを祝うイベントの際に国連で発表されました。政策決定の意思決定に関する報告に幸福度指標を使用する政府、組織、市民社会が増えており、このレポートは引き続き世界的な認知を得るものとなっています。 添付のCSV DataSetには、2015〜2017年における世界のほぼすべての国の幸福度データが入っています。国ごとに、全体におけるランキングが割り当てられ、平均寿命、経済、自由などの基準に対して個別のスコアが付けられています。 世界幸福度報告の詳細とデータの解釈方法については、Kaggleのページ( https://www.kaggle.com/unsdsn/world-happiness/home )を参照してください。 これらのDataSetの列は次のように構成されています。

説明

Country

国の名前。

Region(2015年と2016年のみ)

この国が属する地域(例:Western Europe、Middle East and Northern Africa)。

Happiness Rank

幸福度に基づいたその国のランキング。

Happiness Score

サンプルとなった人に「0を最高として、あなたの幸福度を0~10の範囲で評価してください」という質問をして測定。

Standard Error(2015年のみ)

幸福度の標準誤差。

Lower Confidence Interval(2016年のみ)

幸福度の低い方の信頼区間。

Upper Confidence Interval(2016年のみ)

幸福度の高い方の信頼区間。

Whisker.high(2017年のみ)

この国の箱ひげ図の最大値。

Whisker.low(2017年のみ)

この国の箱ひげ図の最小値。

Economy(1人あたりGDP)

GDPが幸福度の計算に寄与する程度。

Family

家族が幸福度の計算に寄与する程度。

Health(平均余命)

平均余命が幸福度の計算に寄与する程度。

Freedom

自由が幸福度の計算に寄与する程度。

Trust(政府の汚職)

政府の汚職の認知が幸福度の計算に寄与する程度。

Generosity

寛容さが幸福度の計算に寄与する程度。

Dystopia Residual

ディストピア残差が幸福度の計算に寄与する程度(ディストピア残差の構成要素の詳細については、上述のKaggleページを参照してください)。

80種類のシリアル

このCSV DataSetには、80種類の朝食用シリアルの栄養に関するデータが入っています。 このDataSetは、ユーザーChris CrawfordによってKaggleにアップロードされました。データのまとめと整理は、Petra Isenberg、Pierre Dragicevic、Yvonne Jansenによって行われました。このKaggleページは、 https://www.kaggle.com/crawford/80-cereals/home から閲覧できます。原典は https://perso.telecom-paristech.fr/eagan/class/igr204/datasets です。 このDataSetの列は次のように構成されています。

説明

name

シリアルの名前。

manufacturer

シリアルのメーカー。

type

シリアルのタイプ(coldまたはhot)。

calories

一食あたりのカロリー数。

protein

一食あたりのたんぱく質の量(グラム単位)。

fat

一食あたりの脂肪の量(グラム単位)。

sodium

一食あたりのナトリウムの量(ミリグラム単位)。

fiber

一食あたりの食物繊維の量(グラム単位)。

carbo

一食あたりの複合糖質の量(グラム単位)。

sugars

一食あたりの糖類の量(グラム単位)。

potass

一食あたりのカリウムの量(ミリグラム単位)。

vitamins

ビタミンとミネラルの割合(0、25、100のいずれか。FDA推奨の一般的な割合)。

weight

一食あたりの重量(オンス単位)。

cups

一食あたりのカップ数。

rating

シリアルの評価(作成者不明。おそらく『Consumer Reports』)。

スピードデートテスト

このDataSetのデータは、2002年から2004年に行われた実験的なスピードデートイベントの参加者から収集されたものです。イベントの出席者は、ほかの異性の参加者全員と4分間の「初デート」を行います。4分後、参加者はその相手と再びデートしたいかを尋ねられます。また、魅力、誠実さ、知性、楽しさ、熱意、共有の関心という6つの属性でデートを評価するように求められます。 DataSetには、イベント中のさまざまな時点で実施した参加者へのアンケートデータも含まれます。アンケートには、その人の特徴、デートの傾向、主要な属性についての自己評価、ほかの人が相手に求めると考えられる考え方、ライフスタイルに関する項目があります。 このDataSetは、コロンビアビジネススクールのRay Fisman教授とSheena Iyengar教授によって作成され、ユーザーAnna MontoyaによってKaggleにアップロードされました。詳細は、Kaggleのページ( https://www.kaggle.com/annavictoria/speed-dating-experiment/home )を参照してください。 このDataSetは非常に複雑であり、200以上の列があります。列を解釈しやすいように、データを含むCSVファイルとともにキーが提供されています。

タイタニック号乗客名簿

このCSV DataSetには、1912年に沈没したHMSタイタニック号の887人の乗客の基本情報で構成されており、名前、年齢、性別、客室等級、運賃、乗船家族数、事故から生存できたかどうかの情報が入っています。 この情報を扱った、一般ユーザー作成のDataSetは、多数公開されています。これらのDataSetを閲覧したり、機械学習におけるタイタニックデータの活用方法を調べたりする場合は、 http://www.kaggle.com で「titanic」を検索してください。 このDataSetの列は次のように構成されています。

説明

Survived

この乗客が生き残ったかどうか(0は「いいえ」、1は「はい」)。

Pclass

この人物の客室等級(1、2、3のいずれか)。

Name

乗客の名前。

Sex

乗客の性別。

Age

乗客の年齢。

Siblings/Spouses Aboard

この乗客と同伴していた兄弟や配偶者の数。

Parents/Children Aboard

この乗客と同伴していた親や子供の数。

Fare

この乗客が支払った運賃(英ポンド(£)単位)。

日本語