電子書籍ケーススタディ 8
 1分間は何バイト? 
イースト株式会社 下川 和男


 イーストでは、電子出版やインターネット出版だけではなく、様々なサーバシステムの構築を行っているが、先日、放送局から受注した、映像蓄積システムのサーバ構成図を見て驚いてしまった。ハードディスク 36ギガバイト×12台と書いてある。合計432ギガバイトつまり432,000,000,000バイトである。
 そこで、変なことを考えた。

ニュース映像蓄積システム

 このシステムは、信越放送さんのローカルニュース映像を蓄積し検索するシステムで、ビデオテープに録画されている過去の映像を、マイクロソフト社のWindows Media Technologyという仕組みを使って、WMV(Windows Media Video)形式のデジタルデータに変換し、これを蓄積し再生するものである。

 過去の記事やニュースを検索、再利用するには、従来、文字での確認か、わざわざマスターテープを持ち出してきて確認していた。このシステムの導入により、局内のLANにつながったパソコンで、容易に検索と確認が行えるようになった。当面、イントラネットで使われるが、ブロードバンド時代に備えて、インターネットでの配信にもすぐに対応できるシステムとなっている。

 図1のサーバ構成で説明すると、ENは、マスタービデオのNTSC信号を取り込むビデオキャプチャー・カードを搭載したPCで、内容、地域、日時などの文字データとともに、映像のデジタル化(エンコード)作業を行う。ビデオフォーマットは、MPEG1またはWMVをサポートしている。入力された文字データはNSに入り、映像データはVSに蓄積される。

 DBは、記事データベース(NS)に保存されている記事番号と、映像サーバ(VS)に蓄積された映像の関連付けを行うサーバである。

 VSが、432ギガバイトの映像蓄積サーバである。数年分の映像を蓄積する予定なので、VGA(640×480ドット)の解像度で、毎秒24フレームでの蓄積を行っている。ハードディスクは信頼性を高めるために、RAID 5(12台中1台のディスクには差分を書き込む)に設定しているので、36×11=396ギガバイトの実容量となる。VGA、24フレームで、1分間の映像に約6メガバイトを使うので、66,000分、つまり1,100時間の映像を蓄積できる。

1分間は何バイト?

 432ギガバイトには驚いた。20数年前、8ビットのパーソナルコンピュータには、漢字ROMすら標準では付いておらず、私が最初に仕事で作ったプログラムは、マイクロソフト・ディスクBASICの8キロバイトの空きメモリーの中で動くものであった。

 数値 ⇒ 文字 ⇒ 画像 ⇒ 図形 ⇒ 音楽 ⇒ 映像

と、パーソナルコンピュータは、その進歩とともに、扱えるデータの種類が増え、CPUの高速化とメモリー、ハードディスクの大容量化で、音楽や映像のデジタル処理が可能となった。

 電子書籍で扱うデータ形式は、文庫、新書などのテキストと、マンガや写真集などの画像だが、音楽や映像とともに、1分間に使用するファイルサイズを比較してみた。
 音楽や映像は時間軸を持っているので、計算が簡単である。映像は、解像度やフレーム数、映像の質によりサイズが異なるが、前出の通り6メガバイトとした。
 音楽は、MP3のCD音質のものが、1分でだいたい1メガバイトである。WMA(Windows Media Audio)形式を使えば、さらに、20から40%くらい圧縮される。

 マンガは、市販の新書版コミックの一頁を120dpiでスキャンし圧縮すると、100キロバイト程度になる。1分間に何頁読むかは、個人差があるが、10頁とすると、1メガバイトで、MP3と同じサイズになる。
 文庫、新書などのテキストは、単純に一頁の文字数を計算すれば、40字×18行=720文字=1440バイトと極端に少ない。アドビやマイクロソフトのeBookには、いろいろ枝葉のデータが入っているが、テキストは圧縮効率が高いので、一頁1キロバイト程度になる。文庫本を1分間に何頁読むかも、千差万別だが、二頁としても、たったの2キロバイトである。

 300頁の文庫は、写真や図版がなければ、300キロバイトとなり、396ギガバイトの信越放送サーバには、何と、132万冊の書籍が入る計算になる。日本で今、売られている書籍は約60万点なので、その倍の書籍が、すっぽり入ってしまう。

 表1に単位容量、単位時間というのを入れてみたが、読み終わるまでの時間は、300頁の本は、300キロバイトで150分、200頁のマンガは20メガバイトで20分、音楽は一曲なら5分で5メガバイト程度だが、CD一枚なら60メガバイトで60分となる。

表1 コンテンツのサイズ比較
コンテンツ1分間のサイズ単位単位容量単位時間
文庫、新書2KB300頁/冊300KB150分
マンガ1,000KB200頁/冊20,000KB20分
音楽1,000KB60分/CD60,000KB60分
映像6,000,000KB120分/ビデオ720,000KB120分

 映画や映像をハードディスクに入れている人は稀だが、音楽をノートパソコンに入れたり、MP3をCD-Rに焼いて、「CD 10枚分だ!」と喜んでいる人は良く見かける。
 私が持ち歩いているノートパソコンには、32ギガバイトのハードディスクが付いているが、その内、10ギガバイトがMP3ファイルで、約170時間、つまりCD170枚分の音楽が入っている。ちなみに、この10数年間に私が書いたレポートや見積書や各種の管理表も、すべて、このハードディスクに入っているが、その合計は、126メガバイトである。

 先ほどの300頁の文庫なら、10ギガバイトに3万3千冊が入る。テキストデータのみだが、自分のすべての蔵書を、ノートパソコンに入れて持ち歩くことは、電子書籍ではいとも簡単に行えるのである。
 サーチエンジンGoogleが大躍進中だが、Googleは、世界中のホームページ、つまりHTMLタグ付きテキストを収拾して、キーワードインデックスを作成している。数百万円のサーバに日本の書籍のテキストデータが、すべて格納できることを考えれば、Googleの高速検索も納得できる。


 昔、新潮文庫の宣伝で糸井重里さんが「想像力と数百円」というコピーを作ったが、まさに、「想像力と数百キロバイト」で、数時間その作品の世界に埋没できる。
 文字は、コンピュータにとって、至って扱いやすいコンテンツなので、その電子化をもっと推進しなければならない。


目次へ
Kazuo Shimokawa [EAST Co., Ltd.]