AIとは：データに基づくシステム（１）

Colin de la Higuera; Jotsna Iyer

22 AIとは：データに基づくシステム（１）

教室での決定

教師であるあなたは、さまざまなデータを日々扱っています。出欠や成績記録のように目に見えるものもあれば、生徒の表情やしぐさといった、数値化しにくい手がかりもあるでしょう。まずは、仕事の中でどんな判断をしているかをいくつか思い浮かべてみてください。その判断を支えているのは、どのようなデータでしょうか。

データを可視化したり整理したりするためのツールは数多くあります。さらにAIは、データをもとに学習を個別化したり、先を見通す予測や判断を行ったりして、授業や教室運営を支援することもできます。あなたの現場には、テクノロジーで改善できそうな課題がありますか。もしあるなら、それを実現するには、どんなデータが必要になるでしょうか。

参考文献: Kelleher, J.D., Tierney, B.『Data Science』(London, 2018)；Kitchin, R. “Big Data, new epistemologies and paradigm shifts,” *Big Data & Society* (2014)

教育システムは常にデータを生成してきました。学生の個人情報、成績記録、出席データなどです。デジタル化とAIED（人工知能を活用した教育）アプリケーションの導入により、さらに多くのデータが記録・保存されるようになっています。マウスクリック、開いたページ、タイムスタンプ、キーボード入力などです。社会全体でデータを重視する考え方が広がる中、こうした膨大なデータをどのように処理し、学習に役立つ形で活用するかが問われるようになりました。学習者に、より個別化されたフィードバックを届けられないか。教師にとって、より分かりやすい可視化や適切な通知の仕組みを作れないか――こうした課題が自然に浮かび上がってきます²。

どのような技術を用いるにせよ、まず必要なのは、教室で実際に求められていること（ニーズ）を満たすことです。ニーズが明確になったら、利用できるデータを確認し、目指す成果にとって何が関係するのかを整理します。その際には、教師が状況に応じて適切に判断するための手がかりとなる要因を見極めることが重要です。そうした要因は、手元のデータで十分に捉えられるでしょうか。そもそも、その課題に対してデータやデータに基づくシステムが最適な解決策なのでしょうか。さらに、データをこのように用いることで、意図しない影響が生じる可能性はないでしょうか³。

機械学習は、先ほどの問いの多くを、ある程度「データに任せる」ことを可能にします⁴。機械学習アプリケーションはデータから学習し、データを入力として処理しながら動作します。そこからパターンを見つけて一般化し、その結果をモデルとして蓄積します。こうして作られたモデルは、将来の問いに答えるために使える“知識”として機能します⁴。さらに、機械学習が出す判断や予測、そしてそれが学習者の学びに与える影響もまた、記録・分析できるデータになります。だからこそ、プログラマ、機械、そして利用者がデータをどのように扱うのかを理解することは、AIがどのように働くのかを理解するうえで欠かせません。

データについて

データは一般的に、現実世界にある対象――人や物、出来事――に関する情報です。対象は、いくつかの属性（特徴／変数）によって表せます⁵。たとえば生徒であれば、氏名、年齢、学級などが属性の一部です。こうした属性を集めたものが、その生徒について私たちが持つデータになります。データは本人そのものではありませんが、その人についての手がかりを与えてくれます。教育の場で収集・利用・処理されるデータは、教育データと呼ばれます¹。

データセットとは、複数の対象について集めたデータを、行と列の形に整理したものです。たとえばクラスの出欠表はデータセットの一例です。この場合、行には生徒一人ひとりが並び、列には各日（あるいは各授業回）の出席・欠席が入ります。つまり、列は対象を説明するための属性（項目）に当たります。

（DIKWピラミッド）参考：Kelleher, J.D., Tierney, B.『Data Science』(2018)；Kitchin, R. (2014)

データは、「どの属性（項目）を選び、どう測るか」を決めることで作られます。つまり、データは常に人間の判断と選択の産物です。そのため、データの作成は主観的かつ部分的で、技術的な制約や手間も伴うため、必ずしもきれいに整ったものにはなりません⁴⁵。さらに、何を測り、何を測らないかという選択は、最終的に得られる結果や結論に大きく影響します。

データトレースとは、デジタルシステム上での学習者の行動の記録（例：マウスクリック、閲覧ページ、操作のタイミング、キー入力）を指します¹。メタデータは、別のデータの内容や性質を説明するためのデータです⁵。派生データは、既存のデータから計算したり推定したりして得られるデータです。たとえば、生徒一人ひとりの得点は元のデータで、クラス平均はそこから算出される派生データに当たります。多くの場合、派生データのほうが、意味のある気づき（洞察）を得たり、パターンを見つけたり、将来を予測したりするのに役立ちます。機械学習を用いると、派生データを生成し、それをメタデータやデータトレースと組み合わせて、より精緻な学習者モデルを構築できます。これは学習の個別化に活用できます¹。

データに基づく取り組みをうまく進めるには、属性（項目）を慎重に選び、正確に測定することが欠かせません。さらに、得られたパターンが教育の現場で意味のあるものか、妥当性を確認する必要があります。適切に設計し、継続的に運用・改善していけば、データ駆動型のシステムは大きな価値を発揮します。

(ビッグ)データリテラシーがあるか確認しよう

本章では、データとデータに基づく技術について、基本的なポイントをいくつか紹介します。ただし、データ・リテラシーはきわめて重要な能力であり、体系的な研修に加えて、継続的な支援や知識のアップデートが欠かせません¹。

知っておくべき法制度

データ保存のコストが大幅に下がったことで、より多くのデータやメタデータが、より長い期間保存されるようになっています⁶。その結果、プライバシー侵害や権利侵害が起こるリスクも高まります。一般データ保護規則（General Data Protection Regulation: GDPR）のような法制度は、こうした過度な収集・長期保存を抑え、EU市民が自分の個人データをより適切に管理できるようにするものです。GDPRはEU加盟国全体に共通する、法的拘束力のあるデータ保護ルールを定めています。

参考: “GDPR & ePrivacy Regulations” by dennis_convert CC BY 2.0 ライセンス：https://creativecommons.org/licenses/by/2.0/?ref=openverse

GDPRでは、個人データとは、特定された、または特定可能な個人（データ主体）に関するあらゆる情報を指します。学校は、外部企業と連携してデータを取り扱うだけでなく、生徒・保護者・教職員・管理者・取引先などに関する膨大な個人情報を保有しています。こうしたデータの管理者として、学校には、取り扱うデータを機密かつ安全に保管し、個人データを適切に保護・利用するための手続きを整備する義務があります¹。

GDPRで定められた権利には、次のようなものがあります。

アクセス権：自分についてどのようなデータが収集されているかを（容易に）知る権利
通知を受ける権利：データがどのように利用されるかについて知らされる権利
消去権：プラットフォームが収集した個人データを、データセットから削除するよう求める権利（第三者に販売され得る場合も含む）
説明を受ける権利：自分に影響する自動処理による判定について、必要に応じて説明を受ける権利

一方でGDPRは、「正当な利益（legitimate interest）」⁷にもとづく一部のデータ収集や、派生データ・集計データ・匿名化データを、同意なしに無期限に利用することを一定程度認めています⁵。また、新たなデジタルサービス法（Digital Services Act）は、ターゲティング広告の目的で個人データを利用することを制限しています⁷。加えて、EU域外にデータが移転される場合に備え、EU市民のデータ保護上の権利を強化する枠組みとしてEU-USプライバシーシールド（EU-US Privacy Shield）も言及されています⁵。

なお、欧州自由権連合（Civil Liberties Union for Europe: Liberties）の独立専門家による分析として “GDPR for dummies” を参照してください。Libertiesは、EU市民の人権を守る監視団体です。

¹Ethical guidelines on the use of artificial intelligence and data in teaching and learning for educators, European Commission, October 2022.

² du Boulay, B., Poulovasillis, A., Holmes, W., Mavrikis, M., Artificial Intelligence And Big Data Technologies To Close The Achievement Gap, in Luckin, R., ed. Enhancing Learning and Teaching with Technology, London: UCL Institute of Education Press, pp. 256–285, 2018.

³Hutchinson, B., Smart, A., Hanna, A., Denton, E., Greer, C., Kjartansson, O., Barnes, P., Mitchell, M., Towards Accountability for Machine Learning Datasets: Practices from Software Engineering and Infrastructure, Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, Association for Computing Machinery, New York, 2021.

⁴Barocas, S., Hardt, M., Narayanan, A., Fairness and machine learning Limitations and Opportunities, MIT Press, 2023.

⁵Kelleher, J.D, Tierney, B, Data Science, MIT Press, London, 2018.

⁶ Schneier, B., Data and Goliath: The Hidden Battles to Capture Your Data and Control Your World, W. W. Norton & Company, 2015.

⁷ Kant, T., Identity, Advertising, and Algorithmic Targeting: Or How (Not) to Target Your “Ideal User.”, MIT Case Studies in Social and Ethical Responsibilities of Computing, 2021.

Licence

Icon for the Creative Commons Attribution 4.0 International License

データについて

知っておくべき法制度

Licence

Share This Book