データは常にラベル付けが必要?
データは常にラベル付けされなければならないのでしょうか?
必ずしもそうではありません。機械学習アルゴリズムの大部分は、教師あり学習(正解ラベル付き)アルゴリズムまたは教師なし学習(正解ラベルなし)アルゴリズムのいずれかです。
犬、猫、ゴリラの写真を分類したい場合、犬、猫、ゴリラとタグ付けされた写真を機械に与えることができます。小論文を採点したい場合、それぞれの成績でラベル付けされた大量の添削済み小論文を与えることができます。いずれの場合も、出力の結果(犬、猫、ゴリラ、A+、A、A-、Dなど)がどのようになるかは事前に分かっています。
学習段階でラベル付きデータを与えられた場合、アルゴリズムは入力と出力を結び付ける関数または数学的なレシピを見つけようとします。これは、多くの場合でプログラマーが様々なアルゴリズムを試して、最も適切な関数を見つけているということを意味します。しかし、データにラベルが付いている限り、これらのラベルはアルゴリズムが選択した関数が実際に機能しているかどうかを検証する監督者やガイドのように機能します1。関数がラベルと異なる出力を与える場合、アルゴリズムはより良い関数を見つけなければなりません。
しかし、データのラベル付けは時間とコストがかかる作業であり、多くの場合は人を雇う必要があります。また、データの中のパターンを探していて、どのようなパターンを見つけられるか明確でない場合、どのような出力結果になるかも私たちには分かりません。したがって、このようなデータにラベル付けすることはできません。ここで教師なしアルゴリズムが登場します。
教師なしアルゴリズムでは入力と出力を一致させようとするのではなく、入力をカテゴリに分類するためのデータの規則性を見つけようとします1。銀行は、クレジットカード取引における不正行為を検出するために教師なし機械学習を利用しています。銀行ではどの瞬間においても膨大な数の取引があり、人間にはどのようにパターンを見つけ不正行為とラベル付けすればよいのか分かりません。そこで、機械学習に頼って自動的にパターンを見つけてもらうのです。ある学習者の集団を固定数のグループにクラスタリングする問題でも、しばしば教師なし学習が使用されます。ネットワーク内の携帯通信からテロ活動を検出することも同様にして行われています。
1 Kelleher, J.D, Tierney, B, Data Science, London, 2018.