lab.jsで作成した調査・実験で出力されるデータの読み込みと前処理について紹介します。

lab.jsで出力されるファイル形式

lab.jsでは実施する方法によって出力されるファイル形式が異なります。

データ構造

データ構造とは,どのような形式でデータが保存(格納)されているかを意味します。データ構造には様々な分類がありますが,lab.jsに関連する分類としてWide型とLong型があります。画像に対する評定を行った2名分の架空データに対して,ほぼ同一の内容をWide型とLong型で以下に示しています。

直感的にはWide型の方が我々人間には理解しやすいことが多いはずです。1名分が1行なので全体的な傾向を掴むことが容易です。一方で,Wide型では見出しが何を示しているのかが不明な事態が起こります。画像評定課題のデータであることを知っていれば,Wide型のデータが何を意味するのかはわかりますが,データだけでは,画像ファイルと値が何を意味するのかわかりません。一方で,Long型はデータが冗長になりやすいため,人間には理解しにくいです。しかし,変数ごとに見出しが与えられているため,どのような変数が格納されているのかはわかります。コンピュータはWide型よりもLong型の処理が得意です。

一般に実験にせよ,調査にせよ,プログラムは時間や反応とともに段々と進行していきます。多くのプログラムでは時間情報(各処理の開始時間など)も含んで,データを段々と出力します。このような場合,Wide型では1名につき1行であるため,時間情報をうまく格納することができません。したがって,プログラムの出力としてはLong型の方が適しています。実際に大半の実験プログラムでデータはLong型で格納されます。先に述べたようにlab.jsの出力もLong型ですので,ここまでで説明したLong型の特徴を覚えておきましょう。

Excelでの読み込み

lab.jsから出力されたcsv形式のファイルExcelで読み込む場合は注意が必要です。lab.jsで出力されるcsvにはBOMという情報が書き込まれていないため,Excelでそのまま開いたり,インポートするだけではデータに含まれる日本語が文字化けしてしまいます。これはエンコード形式を指定しても直りません。そのため,Excelで読み込む場合には以下の手続きを取ってください。

インポートする際には「区切り記号付き」で,「元のファイル」には「Unicode(UTF-8)」を選び,区切り文字には「カンマ」を選びましょう。

前処理とは

データ読み込み後には前処理といって,分析前に不要なデータを削除したり,整えたりします。ここでの重要なルールはローデータと解析用データを分けるということです。lab.jsから出力されたローデータとは別途,解析用データを用意してください。ローデータは必ずバックアップを取った上で保存しておきましょう。