電子書籍ケーススタディ 8
1分間は何バイト? イースト株式会社 下川 和男
イーストでは、電子出版やインターネット出版だけではなく、様々なサーバシステムの構築を行っているが、先日、放送局から受注した、映像蓄積システムのサーバ構成図を見て驚いてしまった。ハードディスク 36ギガバイト×12台と書いてある。合計432ギガバイトつまり432,000,000,000バイトである。
そこで、変なことを考えた。
ニュース映像蓄積システム
このシステムは、信越放送さんのローカルニュース映像を蓄積し検索するシステムで、ビデオテープに録画されている過去の映像を、マイクロソフト社のWindows Media Technologyという仕組みを使って、WMV(Windows Media Video)形式のデジタルデータに変換し、これを蓄積し再生するものである。
過去の記事やニュースを検索、再利用するには、従来、文字での確認か、わざわざマスターテープを持ち出してきて確認していた。このシステムの導入により、局内のLANにつながったパソコンで、容易に検索と確認が行えるようになった。当面、イントラネットで使われるが、ブロードバンド時代に備えて、インターネットでの配信にもすぐに対応できるシステムとなっている。
図1のサーバ構成で説明すると、ENは、マスタービデオのNTSC信号を取り込むビデオキャプチャー・カードを搭載したPCで、内容、地域、日時などの文字データとともに、映像のデジタル化(エンコード)作業を行う。ビデオフォーマットは、MPEG1またはWMVをサポートしている。入力された文字データはNSに入り、映像データはVSに蓄積される。
DBは、記事データベース(NS)に保存されている記事番号と、映像サーバ(VS)に蓄積された映像の関連付けを行うサーバである。
VSが、432ギガバイトの映像蓄積サーバである。数年分の映像を蓄積する予定なので、VGA(640×480ドット)の解像度で、毎秒24フレームでの蓄積を行っている。ハードディスクは信頼性を高めるために、RAID 5(12台中1台のディスクには差分を書き込む)に設定しているので、36×11=396ギガバイトの実容量となる。VGA、24フレームで、1分間の映像に約6メガバイトを使うので、66,000分、つまり1,100時間の映像を蓄積できる。
1分間は何バイト?
432ギガバイトには驚いた。20数年前、8ビットのパーソナルコンピュータには、漢字ROMすら標準では付いておらず、私が最初に仕事で作ったプログラムは、マイクロソフト・ディスクBASICの8キロバイトの空きメモリーの中で動くものであった。
数値 ⇒ 文字 ⇒ 画像 ⇒ 図形 ⇒ 音楽 ⇒ 映像
と、パーソナルコンピュータは、その進歩とともに、扱えるデータの種類が増え、CPUの高速化とメモリー、ハードディスクの大容量化で、音楽や映像のデジタル処理が可能となった。
電子書籍で扱うデータ形式は、文庫、新書などのテキストと、マンガや写真集などの画像だが、音楽や映像とともに、1分間に使用するファイルサイズを比較してみた。
音楽や映像は時間軸を持っているので、計算が簡単である。映像は、解像度やフレーム数、映像の質によりサイズが異なるが、前出の通り6メガバイトとした。
音楽は、MP3のCD音質のものが、1分でだいたい1メガバイトである。WMA(Windows Media Audio)形式を使えば、さらに、20から40%くらい圧縮される。
マンガは、市販の新書版コミックの一頁を120dpiでスキャンし圧縮すると、100キロバイト程度になる。1分間に何頁読むかは、個人差があるが、10頁とすると、1メガバイトで、MP3と同じサイズになる。
文庫、新書などのテキストは、単純に一頁の文字数を計算すれば、40字×18行=720文字=1440バイトと極端に少ない。アドビやマイクロソフトのeBookには、いろいろ枝葉のデータが入っているが、テキストは圧縮効率が高いので、一頁1キロバイト程度になる。文庫本を1分間に何頁読むかも、千差万別だが、二頁としても、たったの2キロバイトである。
300頁の文庫は、写真や図版がなければ、300キロバイトとなり、396ギガバイトの信越放送サーバには、何と、132万冊の書籍が入る計算になる。日本で今、売られている書籍は約60万点なので、その倍の書籍が、すっぽり入ってしまう。
表1に単位容量、単位時間というのを入れてみたが、読み終わるまでの時間は、300頁の本は、300キロバイトで150分、200頁のマンガは20メガバイトで20分、音楽は一曲なら5分で5メガバイト程度だが、CD一枚なら60メガバイトで60分となる。
表1 コンテンツのサイズ比較 コンテンツ 1分間のサイズ 単位 単位容量 単位時間 文庫、新書 2KB 300頁/冊 300KB 150分 マンガ 1,000KB 200頁/冊 20,000KB 20分 音楽 1,000KB 60分/CD 60,000KB 60分 映像 6,000,000KB 120分/ビデオ 720,000KB 120分
映画や映像をハードディスクに入れている人は稀だが、音楽をノートパソコンに入れたり、MP3をCD-Rに焼いて、「CD 10枚分だ!」と喜んでいる人は良く見かける。
私が持ち歩いているノートパソコンには、32ギガバイトのハードディスクが付いているが、その内、10ギガバイトがMP3ファイルで、約170時間、つまりCD170枚分の音楽が入っている。ちなみに、この10数年間に私が書いたレポートや見積書や各種の管理表も、すべて、このハードディスクに入っているが、その合計は、126メガバイトである。
先ほどの300頁の文庫なら、10ギガバイトに3万3千冊が入る。テキストデータのみだが、自分のすべての蔵書を、ノートパソコンに入れて持ち歩くことは、電子書籍ではいとも簡単に行えるのである。
サーチエンジンGoogleが大躍進中だが、Googleは、世界中のホームページ、つまりHTMLタグ付きテキストを収拾して、キーワードインデックスを作成している。数百万円のサーバに日本の書籍のテキストデータが、すべて格納できることを考えれば、Googleの高速検索も納得できる。
昔、新潮文庫の宣伝で糸井重里さんが「想像力と数百円」というコピーを作ったが、まさに、「想像力と数百キロバイト」で、数時間その作品の世界に埋没できる。
文字は、コンピュータにとって、至って扱いやすいコンテンツなので、その電子化をもっと推進しなければならない。
Kazuo Shimokawa [EAST Co., Ltd.]