さっきの話。ビッグデータを扱うとき、プライバシーに関わる情報は出したくない。そこで、その部分をコード化する。
このとき、コード化を
暗号で行う、
ハッシュで行う、
コード表をどこかに持っておく
ある規則を決めて変換する
という方法が考えられる。
この中で、ハッシュは、たしかにお手軽にできる。
でも、ハッシュ化する場合、ちゃんとデータクレンジングして、名寄せしたものに対してやるのならいいけど、そうじゃないと、前に書いたように、同一データを違って見てしまったりする。あとで、「おかしい」と気づいても戻せない。
そもそも、ハッシュだと長くなるので、よくないんだけどね。
このとき、コード化を
暗号で行う、
ハッシュで行う、
コード表をどこかに持っておく
ある規則を決めて変換する
という方法が考えられる。
この中で、ハッシュは、たしかにお手軽にできる。
でも、ハッシュ化する場合、ちゃんとデータクレンジングして、名寄せしたものに対してやるのならいいけど、そうじゃないと、前に書いたように、同一データを違って見てしまったりする。あとで、「おかしい」と気づいても戻せない。
そもそも、ハッシュだと長くなるので、よくないんだけどね。