TEL 018-863-9341
2024年7月15日
社員日記

システムと名前。

あるシステムの開発中、データを眺めていてふと思ったことがあります。
「もしかして、『け』から始まる苗字って意外と少なかったりする?」

日本の苗字は数あれど、例えば「ん」と「を」はほぼ居ないか、居ても数件ではないかという予測はつきます。他にも「ぱ行」はどれもほとんど居なさそうだし、「ら行」も居ないことはないけど少なそうとは思います。
でも「け」ならそんなことはない……と思いながら、肝心の苗字が出てきませんでした。ぱっと思い浮かんだのが「剣持」で、それ以外が出てきません。苗字以外の言葉ならいくつかは出て来るからありそうなのにと思いつつ。

という訳で調べてみました。……ですが、一般的な苗字であれば統計はあるものの、希少な苗字については実在するかどうか諸説あり、というものが多くてどこまで正確かは判断しかねるのですが、とりあえず紹介されているものは信じるスタンスで行きます。

・を:該当なし
・ん:該当なし、もしくは1件だけあり(一般的ではない漢字で、しかも同じ字で他の読み方もあるため割合的には少なそう)
・ぱ行:「ぱ」と「ぽ」は該当なし、「ぴ」「ぷ」「ぺ」は1~2件ほど
・ら行:それぞれ10~100件ほどで、他に比べると少ない

さて、当初の疑問であった「け」についてなのですが、多くはないですが極端に少ないということもありませんでした。ただし、一般的な苗字かと言われると……というものが非常に多いように感じました。
地名や一般名詞として使われるため言葉自体は知っていても、苗字として使われる印象がないものだったり、後はシンプルに珍しい苗字だったり……見ていて思い出せたのは「刑部」や「煙山」くらいで、少ないというイメージはあながち間違いではなかったのかもしれません。
そもそも「け」に限らず「え」の段は少ないというデータもありました。逆に「あ行」や「あ」の段が多いというのも何となく分かるような気がします。

名前と言えば、システムにテストとして入力する時によく使うのが、「秋田太郎」「秋田次郎」「秋田三郎」のように明らかに試しに打ってみたと分かる名前です。
とはいえ、「秋田十郎」くらいまでは頑張って入力しますが、例えばCSVやExcelから取り込むような大量のデータを考えるのはさすがに大変です。名前以外の住所や電話番号なども必要となると尚更で、しかも住所で分類するような機能がある場合はなるべくばらけさせたい思いもあります。

そういった要望はやはりあるようで、一見すると個人情報に見えるダミーデータを生成するサービスがいくつもありました。
氏名や生年月日は完全にアトランダムで、一方住所や電話番号は個別には実在しているであろうものになりますが、その組み合わせまで考えたら本物の個人情報とマッチしてしまうことはないように思います。

あまりにリアルだと却って本物のデータと見分けがつかなくなるため、あえてダミーデータっぽさを出すために芸能人や有名人の苗字と名前を分割して混ぜ込んでいるサービスもありました。
意図的に芸名も含んでいるため、明らかに普通じゃない名前も出てきてなかなか面白かったです。個人的に秀逸だと思った名前が、

「パンツェッタ光良」

……あえて説明はしませんが、しなくても元ネタが分かりやす過ぎる名前だったため笑ってしまいました。ちなみに元ネタの方は日本式に名乗っているため「パンツェッタ」はちゃんと苗字なんだそうです。

まぁこれは特徴的過ぎましたが、日本人以外の名前が入ってくることも今時なら考慮されて然るべきです。最初のデータの話も、日本の苗字として「け」から始まる人は少なかったものの、海外の方も含めればもう少しいたくらいですし。
もちろん日本の「苗字+名前」に当てはめて考えられるとは限りませんが(特にミドルネームとか)、海外由来の名前も問題なく登録できるようシステムもちゃんと考えないといけないですね。

システMAX

2024年7月5日
社員日記
エアコン
エアコン
2024年7月25日
社員日記
我々が20年待ったもの
我々が20年待ったもの