データのバイアスを如何せん

前回,データを収集・共有するのは今やごく当たり前で,
これからはそれをどう解析して実際の行為に結びつけるかが大事だ,という話をしました.
そのためには,データの性質に合わせた解析方法を選ぶ必要があります.

 

そもそも,僕らはどうやってデータを得ているのでしょうか?

 

気象データなら,各地に設置したセンサーで気温や湿度や気圧を計測します.
実験データなら,電子天秤や吸光度計などの測定装置の値を読み取ります.
野外調査データなら,観測者がフィールドを歩き回り,ひとつひとつ記録していきます.
これら従来のデータは,装置の性能や観測者の力量によってある程度の精度が担保されています.
だからこそみんな「母集団から抽出したサンプルについて,正確な情報を得た」という前提で解析をするのです.

 

しかしこれらのデータも,必ずしも寸分違わぬ数値ではありません.多少なりともズレているものです.

こういう誤差はできれば排除したいものですが,限界はあります.

自然界には,観測誤差以外にもばらつきの原因になる要素がたくさんある.

そのばらつきが大事だったりするので,そういう時には観測誤差とその他の要因を分けて考えたい.

例えば雑草の発芽のばらつきは重要な生存戦略なのに,観測誤差と混ざっちゃって結局よくわからなかった,っていうんじゃもったいない.

観測の際にどんなバイアスがかかっているかを想像し,それを数学的に表現できれば,誤差をモデルに組み込むことができます.

 

データを取ったときの方法や状況が分かれば,どんなバイアスがかかっているか想像できますが,

ビッグデータではそういうわけにはいかないことがあります.

SNS上のリア充アピールや病みツイートも,今や立派なデータになり得ますが,

それがどんな人によって,どういう状況で発信されたかがわからないと,データの質や構造がわからないのです.

「iNaturalist」のデータにしても,AIによる画像判別の精度も上がってきたし,キュレーターという分類の専門家も入ってくれているとはいえ,
そのデータを分布解析に使う際には,その構造に注意した方がいいでしょう.

極端にいうと,素人100人が東京の公園で集めた植物の分布データと,植物学者が単独で北アルプスを縦走して得た高山植物の分布データとでは,
データの質や構造が違います.

 

生物の分布データは,観測の際の精度に制約が大きい.

そこで,数理生態学者のダリル・マッケンジーは、観測時の発見率を明示的にモデルに組み込むことを提案しています.

しかしこれだって,データの構造がわかっているからこそ.

さらに,その発見率は努力量(調査にかけた人手と時間の積)に依存しますが,専門家1人と素人1人を同じにカウントするわけにもいかんでしょう.

やはり,どういう条件でデータがとられ,誤差が何によって生じているのかを気にする必要があります.

 

いくらビッグデータと言っても、データの構造が分かりやすいものから利用していくと良いでしょう.

データの質が担保されているとか,観測者の層が限られているデータです.

 

一方で,ビッグデータを活用する方法も探っていくべきでしょう.

最近,ビッグデータ誤差構造を理解するには,認知科学的なアプローチが参考になるんじゃないか,と思っています.

 

例えば、この前の学生実習で「iNaturalist」を使って信大農学部構内の植物のマッピングを行いました.

馴染み深いものからマニアックなものまで,10種類の雑草を探してくるよう学生に指示したのですが,

事前に言い添えるコメントしだいで,探す際の行動が違ってきます.

「よーく探してみてね」と言えば,少ししかないものだと思ってひとつ見つけたら満足してしまうし,

「いっぱいあるやんけ」と言えば,もっとあるんじゃないかと思って他にも探そうとする.

結果的に,事前の情報に引っ張られたデータになるわけです.

こういうふうに事前の情報によって判断が引っ張られるのを,心理学では「アンカリング効果」と呼ぶそうです.

思えば,野外調査ではこういう状況はしょっちゅうある気がする・・・

意図的に情報を与えなくても,先入観は各々持っているものだし.

多少面倒でも,データを取る前に目を慣らす時間を設けるとか,工夫したいものです.

 

参考文献

MacKenzie et al. 2006. Occupancy Estimation and Modeling: Inferring Patterns and Dynamics of Species Occurrence. Academic Press, Burlington.

Kahneman 2011. Thinking Fast and Slow. Farrar, Straus and Giroux, New York.