Rプログラム (TAKENAKA's Web Page)

R でプログラミング：データの一括処理とグラフ描き

2. ひとつのファイルからデータを読み込む

この文書の最終的な目標は，いくつものデータセットを一括処理するためのプログラムを書くことですが，そのまえに，ひとつのデータファイルを読み込んでの処理をごくごく簡単に練習してみます．

練習用ディレクトリとデータファイルの用意

すでに前のページの練習のためにディレクトリは作ってあるかもしれません．それならそれを使いましょう．まだ作ってないなら，さっそく用意してください．名前はなんでもけっこうです．そのディレクトリの中に，最初に使う練習用データ len_width.txt を入れます．

クリックするとそのまま内容が表示される場合，全体をコピーしてからエディタの新規文書に貼りつけるとか，「対象をファイルに保存」「リンク先を保存」（ブラウザによる）というようなメニュー項目を選ぶとかしてみてください．

このファイルに，以下のように３列のデータが見出し行 + 50行，あわせて51行並んだものです．中身は仮想的なもので，なにかの長さ（length），幅（width），種（species）のデータが50個体分並んだもの，と思ってください．

前のページで紹介した R で扱いやすいデータファイルのかたちになっていますね．

R は，練習に使えるように，いくつものデータセットが組み込まれています．前のページでちょっとふれた irisもそのひとつです．統計計算だのグラフ描きだのの練習には，これらを使えば簡単です．でも，このページは自分が持ってるたくさんのデータをプログラムを書いて一括処理することを目的にしているので，あえてデータファイルを読み込むというところからはじめることにしました．

データフレームへの読み込み

データフレームとは

R でデータを扱うとき，データフレームというものが中心になります．これは，オブジェクトであり，データ構造のひとつ，というようなことを言っても，最初はなんのことやら分かりませんね．

プログラミングの世界で使う「オブジェクト」は，データがひとつ以上あつまって，なんらかの「こと」や「もの」を表現しているものを指します． R では，変数はみなオブジェクトだと考えます．また，計算処理を定義した関数もオブジェクトだと考えます．処理のしかたをデータとしてもっている，というイメージでしょうか．データフレームもオブジェクトの一種で、たくさんのデータをまとめて管理するためのデータ構造をもっています（データフレームはリストの一種ですが、そのことにはここでは触れません）．

データ構造とは、複数のデータをまとめて記録・管理するときの，まとめ方の構造のことです。たとえば，

ある変数になにかを代入して…　という作業をすると，その変数がひとつのオブジェクトとして作り出されることになります． R がもともと用意しているものをのぞいて，自分がどんなオブジェクトを作ったを見るには，objects という関数を使います．さっき作った変数はどんな名前だっけ，と思い出すのにも使えます． objects() と入力してためしてみましょう．

データの読み込み

データフレームがどのようなものなのか感じをつかむため，さっそく作ってみます． R の練習用に作製して len_width.txt を入れたディレクトリを作業ディレクトリにしてから，入力画面で以下のように read.table という関数を呼び出します．

read.table 関数は，最初の引数としてファイル名を与えます．

この関数には，そのほかにもいろいろな引数を渡せます．とはいえ，５個も10個もある引数を，関数が期待する通りの順序で全部指定するのは大変です．そのようなめんどうを避けるため，引数にはそれぞれ名前がついていて，呼び出す側では値を設定したい引数についてだけ「引数名 = 値」という形で書けばよいことになっています．デフォルトの設定でかまわない引数についてはなにも指定しません．上の例では，header という名前の引数に TRUE （真偽の真）という値を設定しています．こうすると，データファイルの一行めはデータそのものではなく，各列の名前が並んだ見出し行だと解釈してくれます．

真偽値は、TRUE(真）, FALSE(偽）で表現されます。これらはそれぞれ T, F と書くこともできますが、、きちんと TRUE, FALSE と書くほうが安全です。初期状態では T には TRUE, F には FALSE が代入されているのですが、他の値を代入することができるので、真、偽以外の値を持つことがあり得るからです。

read.table 関数は，読み込んだファイルの内容にもとづいてデータフレームを作ります．できあがったものを，d という変数に，代入演算子 '<-' で代入しています．

というように，読み込んだデータがそのまま表形式で表示されます．左端の数字は行番号（見出し含まず）です．

補足：欠測値などの扱い

実際のデータは，一部が欠けていたり，測定回数がちがっていたりして，きれいな行列にならない場合も多々あります．R は，あるべきデータが欠けている場合には NA (欠測値）をあてて，そのあとの処理を適当に進めてくれます．

read.table でタブ区切りデータを読み込む場合，オプション指定で区切りがタブであることを明示的に示せば，タブのあいだ/あとの空欄は，NA として読み込みます．データが不揃いでも，タブの数が全部の行で揃っていればエラーとならずに読み込めます．

read.table とほぼ同じ動作をする read.csv は，データの区切りを特に指定しないと sep = ',' が指定されたものとしてファイルを読み込みます．その際，コンマのあいだ/あとの空欄は，NA として読み込みます．この場合も，全部の行でコンマの数が揃っていることは必要です．

(さらに補足)　read.table で、空欄があるデータを読む場合、sep = '\t' を指定しないと正しく読めないのは、なにも指定しない場合には連続する空白文字（スペース、タブ、改行）をひとつの区切りと認識する設定になっているからです。空欄がひとつあると２つのタブが連続することになりますが、これをまとめてひとつの区切りと認識するため、一行中のデータ数が少なくなってしまいます。明示的に sep = '\t'と指定すると、ひとつのタブがひとつの区切りと解釈されるので、空欄部分は空欄として読み込まれます。

(もうひとつ補足)　上で、「R は，あるべきデータが欠けている場合には NA (欠測値）をあてて，そのあとの処理を適当に進めてくれます」と書きました。この「適当」は、どちらかというと安全めになっています。たとえば、いくつものデータの平均を求める関数 mean は、 NA を含むデータを与えられると、平均値として NA を返します。これは、一部にNAが含まれているのに気付かないであとの処理を進めてしまう危険を回避しやすい振る舞いです。 NA を無視して、それ以外のデータの平均が知りたい場合は、そのことを na.rm = TRUE というオプションで指定します。詳しくは ?mean としてヘルプを確認してください。分散を求めるvar、最大・最小をもとめる max, minも同様の振る舞いをします。

データフレーム内の情報を見る

データフレーム内のデータは，いろいろな形で取り出すことができます．下のプログラムをコピーして入力画面に貼り付けてためしてみてください．

変数名を入力画面に入力するとその内容が表示されますが、変数名だけ書いたプログラムを実行してもてもなにも表示されません．プログラムの中でなにかを表示したり記録したるする方法はあとで出てきます．

上の例で，データフレーム中のどのデータというのを数字（列番号，行番号）や文字列（名前）で指定しているところは，数字や文字列そのものでなく，数値や文字列を記憶している変数を書くこともできます．

ただし，$ のうしろには，d$width のように名前そのものしか書けません．名前が入った変数の名前や，引用符でくくった文字列は，[] や [[]]の中にのみ書くことができます．

プログラム中ででデータフレームを処理するとき，どの列やどの行に注目するのか，あらかじめ決まっているとは限りません．読み込んだデータによってプログラム中で判断して指定したくなることもよくあります．また，そういうことができるプログラムのほうが汎用性があるはずです．変数を介して行や列の指定をできるので，このような汎用性を持ったプログラムを書くことが容易になります．

ひとつややこしいのは，d[2] と d[[2]] とd[,2] の関係，また，d$width ととd[['width']] と d['width'] の関係です．

これらの６つの表現のうち d[2] とd['width'] がほかとは別の意味を持っています．ほかのものは，２番目の（あるいは 'width' という名前の）列に含まれるデータを並べたベクトルを意味します．ベクトルとは，同じ型（かた．数値とか，文字列とか）のデータが並んだものです．入力画面に d[,2] と入力すると，要素が横にならんで表示されます．

一方，d[2] とd['width']は，d というデータフレームの２番めの列，ないしは width という名前の列だけからなるデータフレームを意味します．ちいさいけど，これでもデータフレームです．入力画面に d[2] や d['width'] と入力すると，要素が縦に並んで表示されるはずです．これは，列が１個の表という形です．

ベクトルとデータフレームの区別は，とくに関数にデータを渡すときに注意する必要があります．引数としてベクトルを求めているものにデータフレームを渡したり，あるいはその逆だったりすると，正しく処理してもらえません．

たとえば，データフレームが何列からなっているかを調べる ncol 関数に d[2] を渡せば 1列ですよという答えがかえってきます．でも，ベクトルである（データフレームではない）d[[2]] やd[,2] を ncolに渡しても，まともに答えてもらえません．

＜練習＞

len_width.txt をread.table() を使ってデータフレームに読み込む．
上の例を見ながら，様々なやりかたで列，行，要素を表示させてみる．
ncol() 関数に，d[2], d[[2]], d[,2], d$width, d['width'], d[['width']] を渡して何が表示されるか見てみる．

colnames関数は，データフレームの各列の名前をベクトルにまとめて返します．ベクトルのn 番めの要素を表示させるには，ベクトル名に続けて [n] のように書きます．ですから，たとえば以下のように書けば各列の名前をひとつづつ表示させることができます．

条件を指定して行を選ぶ

データフレームを，各行がひとつのサンプル，各列が測定項目と見るとします．この全部のサンプルでなく，なんらかの条件を満たす一部のサンプルだけを処理したい場合ことがあります．幅が 10未満のものだけとか，特定の種のサンプルだけ，といった具合です．

'データフレーム名 [行番号, ]' という書式の行番号のところを条件式に置き換えれば，このような一部のサンプルの抽出ができます．

とすれば，種名の列のデータが Sp1 という文字列になっている行だけを取り出したデータフレームが d.sub に代入されますし，

とすれば，width の列のデータが10未満の行だけを取り出したデータフレームが d.subに代入されます．複数の条件を， & (かつ）や | （または）で結びつけることもできます．

とすれば，width が10以上という条件とおなじくwidthが20未満という条件を & で結びつけていますので， width が 10以上で20未満の行だけからなるデータフレームができます．

条件式で使われる比較演算子や論理演算子（と呼ぶ）の詳細は， R-Tips の該当ページを見てください．

＜練習＞

上の例にならって d.sub にデータフレームを代入し，その内容を表示させてみる．
width が15 未満で，かつ sp が Sp1 である行からなるデータフレームを作ってみる．
さらに条件をいろいろ変えて d の一部の行からなるデータフレームを作ってみる．

条件を指定して行を選ぶ：NA を含む行を捨てる

前に，欠測値は NA という特殊な値で表現されることを説明しました．ある値がNA かどうかは，専用の関数 is.na を使って調べます．この関数に渡した値が NA なら TRUE, NA でないなら FALSE が返ってきます．この関数を利用すると，NA が含まれている行を取り除くことができます．

条件を指定して行を選ぶ：補足

前のところで，行番号を指定するかわりに条件を書けることを紹介しました．なんだか，ずいぶんつごうのよい書き方です．こういう書き方がどうして許されるのか，簡単に解説してみます．読み流すだけでけっこうです．

データを読み込んだデータフレームが d に代入されているとします．入力画面で

のように，TRUE（論理値の真）と FALSE（論理値の偽）が50個ずらずらと表示されます． x には，50個の論理値からなるベクトルが代入されています．

これは，d というデータフレームの len という名前の列を最初から順番に見ていって，データの値が 50 未満なら TRUE，50以上なら FALSE と評価していった結果です．だから，

と書くと，行指定のかわりに，（この場合は）50個の論理値が並んだベクトルを書いたことになります．行指定ではなく，このような論理値のベクトルが渡されると，真に対応する行のみを抽出したデータフレームが作られます．それが，さきほど

なお，x <- d$len < 50 で論理値が50個並んだベクトルが作られたのは， R ではベクトルを含む演算式を書くと，ベクトルの各要素について計算した結果を並べたてベクトルを返すことになっているからです．たとえば

と書くと，データフレームの一行ごとに width の二乗と len とをかけた結果が並んだベクトルが作られます． '^' はべき乗を計算する演算子です．

と書けば，データフレーム d にあらたに volume という名前の列が作られて，そこに各行ごとにwidth の二乗と len とをかけた結果がしまわれます．

論理値について，もうちょっと寄り道します．数値を論理値として評価すると，ゼロは偽（F, FALSE)，それ以外の値はすべて真（T, TRUE) となります．文字列を論理値として評価しようとするとエラーになります．一方，論理値を数値として評価すると，TRUE は 1，FALSE は 0となります．

このことを使って，ある条件を満たすデータの数を簡単に求めることができます．使うのは sum という関数です．これは引数に与えたベクトルの合計を求めます．そこで，

と書けば d$len の全要素を合計した値を求めることになりますし，

と書けば，上に示したような50個の論理値が並んだベクトルを sumに渡したことになり，このうち TRUE は 1，FALSE は 0 と評価されるので，sumは TRUE の数を返します．これはすなわち d$lenのうち 50未満の要素数に相当します．

条件を満たす要素の値を変更する

もうひとつだけ、条件を指定してのデータフレームのいじりかたを紹介します。 len_width.txt のデータをデータフレームに読み込んでから、以下のようにして len の大きさによって、10刻みでクラス分けをすることにします。まず、それぞれのデータがどのクラスに属するかを記録する列を新たに作ってみます。

d の中身を見てみると、len.classという列ができていて、そこには length の値に応じて 2 から 7 の値が入っているはずです。

ここで、len.class　は最大 5 までとし、6や7のものはみな 5 のクラスとして扱いたいとします（値によって色分けしたグラフを描く場合などにありそうなことです）。

と書けば、len.class が 5 より大きい行だけが表示されます。また、

と書けば、len.class のうち、 5 より大きい要素だけ (6 や 7) が表示されます。やりたいことは、len.class の値が 5より大きい場合(6や7の場合）にこれを 5 に書き換えることですが、以下のように書けば一括して置換できます。

d の内容を確かめてみると、たとえば３行めの len.class の値が 6から 5に置き換わっていることが分かります。

一般的に言うと、「オブジェクト名[...] <- 値」という書き方は、オブジェクトの [...] で指定される要素（この例では条件式で指定）を、 <- の後ろに書いた値（この例では 5という数値）で置換せよと言う意味になります。

ほかにもいろいろあるデータフレームのいじり方

上で紹介したのはほんとうに基礎の基礎だけですが，これだけでも理解していれば，たいていのことはできます．そのうえで，さらにいくつか関数を覚えると，よりスマートに作業ができます． R-Tips の，データの加工と抽出の章などを参考にしてください．