情報処理概論目次

今回の内容はこの1年間の演習の中で最も重要で意味深い

巨大情報からの情報抽出


ネットワーク時代における情報処理の基本問題は次の2つに分類できる. インターネットの普及に伴う環境整備の向上によって,世界の情報資源から関連情報を入手するのはそれほど難しくはない(これについては別の機会に詳しく学ぶ予定).

入手した情報資源からの情報抽出こそは,学ぶに値する重要課題であることをまず認識すべきである. 適切に整備された情報資源には,内容全てに目を通すことが不可能な巨大情報になっている場合が少なくない.

このような巨大情報資源の出現は,情報のデジタル化情報の電子化)がもたらす情報形態の真の姿に他ならない. この視点は,今後の情報化社会を考える場合には極めて重要である.

大量の情報が電子化されて誰でも自由にアクセスできるような情報の共有化が進んだとしよう. しかし,この状態は社会の平等化を決して保障しないことに注意する.

無限に近い大量情報から『利益』を取り出せる技術やノウハウあるいは資力・権力を持つ者と持たない者との『差』はむしろ拡大することが予想されるからである.

情報資源として入手した巨大情報からの情報抽出技法は,情報化社会において個人のパワーを拡大するための最も重要な技法となるのである.

演習で使用する情報

巨大情報として,アメリカ合衆国の情報機関CIA(the Central Intelligence Agency)が毎年作成しているWorld Fact Book 1992を使ってみる. これは,CIAは世界中の国家や自治領を対象に, の各項目について,その時点における情勢をまとめたものである. スパイ行為によってではなく公開情報だけを集大成した情報であるが,実に多岐にわたる内容を網羅している. CAIによって,アメリカ合衆国がそれぞれの国家を(表向きに)どのように認識しているかを伺うことができ興味深い.

World Fact Bookとして演習で利用するものは

The Project Gutenberg Edition of THE WORLD FACTBOOK 1992: January 1, 1993
として配布されているテキストファイルである. Project Gutenbergは,出版物の電子テキスト化を推進しているアメリカのボランティア団体である. CIAが作成した報告書から,文字情報だけを取り出したもので,図表などは含まれていない.

このテキストは

/usr/local/data/world92.txt
にある. ファイルサイズは大きいので決して自分のホームへコピーしないこと.
情報の共有化とは,情報を『共有場所』に置いて必要に応じて参照する仕組みで,管理者は1つの元情報だけ維持するだけでよい. コピーを禁止しているわけではないが,共有情報が更新されときにはコピー情報はもはや共有情報ではなくなっている.

従って,共有情報を不用意にコピーするのは無駄であるばかりか,共有性の利点を放棄していることになる.

演習: このテキスト内容をページャlessを使って眺めてみよ.
% less /usr/local/data/world92.txt
THE WORLD FACTBOOK 1992は,実際には255行目以降から始まっている. それまでは,Project Gutenbergの紹介や情報の入手,およびテキストの著作権について説明されている.

演習: 上のことを確かめてみよ.

% grep -n '^THE WORLD FACTBOOK 1992' /usr/local/data/world92.txt

演習lessで,次のような部分(240行目以降)を表示させてみよ.
(ヒント:lessの安直な使い方. 次のページを見るには『スペース』キー,前のページに戻るには『p』キーを使う.終了するときには『q』キー.)

Mail subject headers can be searched with leading :'s. . .such as:

:Afghanistan Geography
:Afghanistan People
:Afghanistan Government
:Afghanistan Government
:Afghanistan Economy
:Afghanistan Economy
:Afghanistan Communications
:Afghanistan Defense Forces

To find the beginning of any country, search for :country
To find internal information, search for :country section, as above.

演習: 上にあるように,次の行はテキストの何行目にあるか.

Mail subject headers can be searched with leading :'s. . .such as:

THE WORLD FACTBOOK 1992は,アフガニスタン(Afghanistan)からアルファベット順に記載されている. 上の演習で確かめたように,記載の形式は項目別に定められている.たとえばアフガニスタンの地理(Geography)に関する記載は,
:Afghanistan Geography
と行頭に:を付けた行に続く行に記載されている. 具体的には,
:Afghanistan Geography
Total area:
    647,500 km2
Land area:
    647,500 km2

:Afghanistan People
のように,Total area:Land area:などの各項目についても,定めてあるキーワードを行頭に付けている. こうして,巨大情報であっても,後からの情報処理(たとえば,情報の抽出)に備えて,テキスト作成を工夫している. こうした『工夫』は,情報の作成においては決定的に重要であり,作成者の知性が反映される.
アドバイス
いかなる場合においても,文書やデータを作成する場合には,後から情報処理が容易になるような工夫を凝らして蓄積しておくこと. コメントなども必ず付けておく.

データは蓄積することによって『情報になる』が,蓄積しておくためには知性が必要である. ちょっとした心づかいやわずかな手間をかけて作成した情報は,蓄積量に比例してその価値を増していく

コンピュータを使うこととは,情報の蓄積と再利用に他ならない. 蓄積の仕方に工夫のないものはゴミにかならない. 使い捨てるならばコンピュータを使う必要はない. せっかく作成したものをゴミにしてしまわないように,日ごろからさまざまな工夫を試みること.


提出課題

World Fact Book 1992を使って,日本(Japan)に関する以下の質問に答えよ.
このテキストはRead Onlyとなっているので,直接エディタを使って内容を眺めても変更されることはない. 課題に答えるためには,今までに知り得た技法を動員せよ.

参考:Muleで行番号を指定してカーソルを移動するには, ESC-x goto-line を入力,つまり,キーボードから,ESCを押してからxを押し(このとき,エディタウィンドウの下部のエコーラインにM-xが表示される),続いてgoto-lineを入力してからEnterを押す,つまり

M-x goto-line
とすると,エコーラインに
Goto line: ■
が表示されるので,移動したい行番号を入力する.

現在カーソルのある行が何行目かを知るには

M-x what-line
を使うと,エコーラインに行数が表示される.

  1. world92.txtは何行からなるファイルか.
  2. そのファイルサイズはどれほどか.
  3. 日本についての記述は何行目からか

    以下の問題は日本(Japan)の場合について答えよ.

    Geography

  4. 国土面積
  5. 広さ比較(アメリカとの比較:Comparative area)

    People

  6. 人口(Population)
  7. 平均余命(Life expectancy at birth)
  8. 人種(Ethnic)
  9. 宗教(Religions)
  10. 言葉(Languages)
  11. 読み書き能力(Literacy)

    Government

  12. 独立したのはいつか(Independence)
  13. 法体系はどうか
  14. リーダー(複数も可)は誰で,いつからか
  15. 国旗はどのようなものか(Flag)

    Economy

  16. 失業率(Unemployment rate)
  17. 輸出額(Exports)と輸入額(Imports)
  18. 1$は何円(Exchange rates)

    Communications

  19. 電話事情は(Telecommunications)
以上の質問についての回答をLaTeX文書の列挙箇条書として,日本語で簡素に記述し提出せよ.

提出上の注意

提出場所
教務課窓口
締め切り
月曜クラス
26日(火曜日)午後4時30分厳守
水曜クラス
28日(木曜日)午後4時30分厳守
体裁
表題を『World Fact Book 1992』とし,学生番号,氏名を明記. LaTeX文書としての仕上がりに注意する.
注意
複数枚の場合には,ホッチキスで『左上端を一個所』留める.

情報処理概論目次