Orangeにおけるデータ実験を通じた機械学習とAI
Blaž Zupan
イルカは哺乳類ですか?もしそうなら、なぜですか?
キウイはどの動物の種に分類されますか?
アテネとローマは同じ気候帯にありますか?
叫ぶ女性を描いた有名な絵の作者は誰ですか? この画家はいつも空をオレンジ色に描きますか?
文体だけで、ソーシャルメディアの投稿の著者を推測することはできますか?
NBAにルカ・ドンチッチのプレイスタイルに似た選手はいますか?
木の葉や樹皮の写真から、木の種類を推測することはできますか?
世界の国々は、社会経済的特徴でどのように分類されますか? 世界は実際に北と南で社会経済的に分断されているのですか?
ローマとアテネは同じ気候帯にありますか? 気候パターンから見て、どの国の首都が最もベルリンに似ていますか?
データサイエンス、特に機械学習の方法は、科学、工学、技術などのさまざまな分野で変革の触媒として機能し、私たちの日常生活に大きな影響を与えています。膨大なデータセットを精査し興味深いパターンを特定し、予測モデルを構築する計算技術は、至る所で見られるようになりました。しかし、データサイエンスの基礎的な理解を持つ専門家はごくわずかであり、自らのデータからモデル構築に積極的に関わる人はさらに少ないのが現状です。AIが静かに私たちの世界を変容させている時代において、誰もがその能力、利点、潜在的なリスクを認識する必要があります。データサイエンスに関連する概念を幅広い層に効果的に伝え、教育する方法を確立しなければなりません。機械学習、データサイエンス、人工知能の原則と技術は、一般常識として扱われるようになるべきです。
この章の冒頭で提起されたすべての質問には、関連するデータを観察することで答えることができます。ここでは機械学習のトレーニングとして次のアプローチを提案します。質問から始め、関連するデータを見つけ、関連するデータパターンやモデルを見つけることによって質問に答えましょう。プロジェクトPumiceでは、さまざまな教科の教育活動を豊かにする開発を進めています。教科の内容に関連するデータを使用し、AIと機械学習の手法で探求します。教育者との連携により、教師と学習者のための学習テンプレートと背景説明が開発されています。
Pumiceのアクティビティとトレーニングは、直感的なインターフェース、インタラクティブな可視化、ビジュアルプログラミングを特徴とする、機械学習プログラムOrangeによってサポートされています。このプログラムのシンプルさの鍵は、分析パイプラインをレゴブロックのように構築できることと、すべてのコンポーネントの双方向性にあります(図1)。これは、主要なトピックの大半を網羅し、さまざまな応用分野に適応するためのトレーニングと汎用性の両面から必要とされています。教育支援を強化し、基盤となるメカニズムよりも概念に焦点を当てるために、Orangeは容易なデータへのアクセス、ユーザーの設定や選択を含むワークフローの保存による再現性、新しいコンポーネント設計による簡易なカスタマイズといった機能を実装しています。トレーニングの重要な側面として、ワークフローの検証を通じたストーリーテリングや実験に特化した機能(実験データセットの描画や多項式線形回帰の過剰適合に対する学習など)が挙げられます。Orangeはオープンソースソフトウェアとして利用可能であり、簡潔なトレーニングビデオによって補完されています。

図1. Orangeデータマイニングソフトウェアと典型的なデータ探索ワークフロー。
図1では、Orangeでの典型的なデータ探索ワークフローを示しています。このワークフローは、データの読み込み、距離の計算、データや結果のモデルの視覚化、あるいはデータパターンを発見し可視化するために必要な任意のタスクを実行するコンポーネントで構成されています。このワークフローでは、世界の国々の社会経済データを使用しています。ワークフローの上流の分岐は2つの特徴を分析し、寿命と就学年数に相関関係があることを示しています。また、カーボベルデやモロッコのように、人々が長生きするが学校にあまり通わない国があることも示しています。学校の子供たちはこのようなネットワークを構築することによって、どの国が社会経済的に互いに似ているかということや、どこで世界が社会主義的に北・中央・南に分かれいるか、どこに先進地域と未開発地域の間の大きな分断が存在するか、といったことを探索することが出来るようになります。このような点を明示的に伝える必要はありません。 Orangeでデータをマイニングする過程で、彼らは自ずと気づき、上級クラスでは自らこのような課題について深く掘り下げて調べていくでしょう。
Orangeの開発は2003年に始まりました。それ以来、著しい勢いで普及が進んでいます。月間5万人以上のユニークユーザーを持つOrangeは、広く受け入れられている専門ソフトウェアアプリケーションとしての地位を確立しています。ユーザーの約半数は学術分野に所属しています。特に、教育分野でのOrangeの採用は顕著に増加しており、世界中の500以上の大学がデータサイエンスの授業に導入しています。
機械学習やデータサイエンスの領域に深く関わりたいと考えている教育者向けに、Orangeを使用した実践的なデータ探索を通じてこれらの分野について学べる入門的な教材をまとめました。
- Orange:ツールボックスのウェブサイト
- An introduction to data science: Orangeでの可視化と機械学習方法を紹介する複数のショート動画です。http://youtube.com/orangedataminingで動画を見つけ、「Intro to Data Science」再生リストにアクセスしてください。
- Pumice:トレーニングプログラムに組み込むことができる活用事例を集めた教師向けのウェブサイトです。