今回の内容はこの1年間の演習の中で最も重要で意味深い
入手した情報資源からの情報抽出こそは,学ぶに値する重要課題であることをまず認識すべきである. 適切に整備された情報資源には,内容全てに目を通すことが不可能な巨大情報になっている場合が少なくない.
このような巨大情報資源の出現は,情報のデジタル化(情報の電子化)がもたらす情報形態の真の姿に他ならない. この視点は,今後の情報化社会を考える場合には極めて重要である.
大量の情報が電子化されて誰でも自由にアクセスできるような情報の共有化が進んだとしよう. しかし,この状態は社会の平等化を決して保障しないことに注意する.情報資源として入手した巨大情報からの情報抽出技法は,情報化社会において個人のパワーを拡大するための最も重要な技法となるのである.無限に近い大量情報から『利益』を取り出せる技術やノウハウあるいは資力・権力を持つ者と持たない者との『差』はむしろ拡大することが予想されるからである.
World Fact Bookとして演習で利用するものは
The Project Gutenberg Edition of THE WORLD FACTBOOK 1992: January 1, 1993として配布されているテキストファイルである. Project Gutenbergは,出版物の電子テキスト化を推進しているアメリカのボランティア団体である. CIAが作成した報告書から,文字情報だけを取り出したもので,図表などは含まれていない.
このテキストは
/usr/local/data/world92.txt
にある.
ファイルサイズは大きいので決して自分のホームへコピーしないこと.
情報の共有化とは,情報を『共有場所』に置いて必要に応じて参照する仕組みで,管理者は1つの元情報だけ維持するだけでよい. コピーを禁止しているわけではないが,共有情報が更新されときにはコピー情報はもはや共有情報ではなくなっている.演習: このテキスト内容をページャ従って,共有情報を不用意にコピーするのは無駄であるばかりか,共有性の利点を放棄していることになる.
lessを使って眺めてみよ.
THE WORLD FACTBOOK 1992は,実際には255行目以降から始まっている. それまでは,Project Gutenbergの紹介や情報の入手,およびテキストの著作権について説明されている.% less /usr/local/data/world92.txt
演習: 上のことを確かめてみよ.
% grep -n '^THE WORLD FACTBOOK 1992' /usr/local/data/world92.txt
演習:
lessで,次のような部分(240行目以降)を表示させてみよ.
(ヒント:lessの安直な使い方.
次のページを見るには『スペース』キー,前のページに戻るには『p』キーを使う.終了するときには『q』キー.)
Mail subject headers can be searched with leading :'s. . .such as: :Afghanistan Geography :Afghanistan People :Afghanistan Government :Afghanistan Government :Afghanistan Economy :Afghanistan Economy :Afghanistan Communications :Afghanistan Defense Forces To find the beginning of any country, search for :country To find internal information, search for :country section, as above.
演習: 上にあるように,次の行はテキストの何行目にあるか.
Mail subject headers can be searched with leading :'s. . .such as:
と行頭に:Afghanistan Geography
:を付けた行に続く行に記載されている.
具体的には,
:Afghanistan Geography
Total area:
647,500 km2
Land area:
647,500 km2
:Afghanistan People
のように,Total area:やLand area:などの各項目についても,定めてあるキーワードを行頭に付けている.
こうして,巨大情報であっても,後からの情報処理(たとえば,情報の抽出)に備えて,テキスト作成を工夫している.
こうした『工夫』は,情報の作成においては決定的に重要であり,作成者の知性が反映される.
アドバイス:
いかなる場合においても,文書やデータを作成する場合には,後から情報処理が容易になるような工夫を凝らして蓄積しておくこと. コメントなども必ず付けておく.データは蓄積することによって『情報になる』が,蓄積しておくためには知性が必要である. ちょっとした心づかいやわずかな手間をかけて作成した情報は,蓄積量に比例してその価値を増していく.
コンピュータを使うこととは,情報の蓄積と再利用に他ならない. 蓄積の仕方に工夫のないものはゴミにかならない. 使い捨てるならばコンピュータを使う必要はない. せっかく作成したものをゴミにしてしまわないように,日ごろからさまざまな工夫を試みること.
このテキストはRead Onlyとなっているので,直接エディタを使って内容を眺めても変更されることはない. 課題に答えるためには,今までに知り得た技法を動員せよ.参考:Muleで行番号を指定してカーソルを移動するには,
ESC-x goto-lineを入力,つまり,キーボードから,ESCを押してからxを押し(このとき,エディタウィンドウの下部のエコーラインにM-xが表示される),続いてgoto-lineを入力してからEnterを押す,つまりM-x goto-lineとすると,エコーラインにが表示されるので,移動したい行番号を入力する.Goto line: ■現在カーソルのある行が何行目かを知るには
M-x what-lineを使うと,エコーラインに行数が表示される.
world92.txtは何行からなるファイルか.
以下の問題は日本(Japan)の場合について答えよ.
Geography
People
Government
Economy
Communications
提出上の注意