コース: データサイエンスの基礎:基本

今すぐコースを受講しましょう

今すぐ登録して、23,200件以上登録されている、業界エキスパート指導のコースを受講しましょう。

モデルを検証する

モデルを検証する

数年前、わが家は 2人目の子として養子を迎えました。 この動画とは別人ですが、 とてもかわいい女の子です。 私たちはこの子に惜しみなく愛を注ぎ、 大切に育ててきたのですが、 1つだけ重大なミスを犯したせいで、 本人にたいへんな苦労を 背負わせることになってしまいました。 例外的な文字を使った名前を つけてしまったのです。 このように、e の上にある 2つの点はダイエリシスという符号で、 2番目の母音が単独の音節として 発音されることを表しています。 ウムラウト符号と同じ形をしていて 紛らわしいですが、 そちらは母音変化を表したり ヘビーメタルのバンド名の 目印になったりする別物です。 入力フォームに 非 ASCII 文字があると、 不正なデータとして登録を拒否する ウェブサイトが、今も少なくありません。 本名を拒否されてしまう人はほかにもいて、 代表的なのがアポストロフィーや ハイフンが入っている名前です。 ほかにも、人気歌手のように 姓と名前に分かれていない 1語だけを本名とする人たちが、 インドネシアやミャンマーなどにいます。 また、1文字だけの名前もあります。 昨日も、名前の欄に最低2文字は 入力するよう求めている サイトを見ましたが、 韓国には O 1文字という姓が 存在します。 E 1文字という姓も中国にあります。 他方で、文字数の上限を超える 長い名前もあります。 例えば、1行に収まらないこれは、 ハワイの姓です。 さらに、コンピューターが 「空白」と解釈してクラッシュしてしまう ヌル値と同じ綴りの姓も実在します。 本名の入力が拒否されてしまう サイトのほとんどは、 入力ミスがあってはいけないという 善意から文字列を 検証する仕組みを用意して、 一般的な名前でテストしています。 テキストが氏名として有効か無効かを 分類するアルゴリズムだと 思ってください。 ただ、世界には さまざまな名前がありますし、 開発者の知る範囲にうちの娘のような 名前の子はいなかったのでしょう。 想定外の問題やシステムの故障は こうして起こります。 ですから、作ったものの検証は重要です。 データサイエンスや機械学習で言うなら、 モデルの構築に使ったのとは 別のデータでも正常に動作するかを 確認することが重要です。 スタンフォード大学名誉教授で…

目次