原文:Introduction paper to H.264/MPEG-4 AVC includingthe Fidelity RangeExtension. (PDF ) ※スウェーデン、 Luleå University of Technology、Dr. Peter Parne氏の講義ガイダンスの模様。 ) 1.イントロダクション 90年代初頭、この分野の揺籃期より、国際ビデオ符号化規格
– 時系列順に並べるとH.261[1], MPEG-1 [2], MPEG-2 / H.262 [3], H.263 [4], and MPEG-4 (Part 2) [5]–は、デジタル映像圧縮の商業的成功の影の立役者だった。これらの規格の意義は、様々な会社の製品間での相互互換性を助けるとともに、特定用途向けアプリケーションや製品開発に於いて、コストパフォーマンスと性能のバランスの良い技術を選択できるだけの「多様性」を確保した事にある。その結果、様々な分野で、妥当なコストで先端技術が活用されるようになった。これらの規格はコンテンツ・クリエイタに再生互換性を保証し、同じコンテンツを様々な会社の様々な製品むけにコピーしなくて済むようになった。その結果、多くの人が技術を享受出来るだけの劇的なコスト削減と規模の利益追求が可能になった。これらの規格は会社の壁を超えた専門家の間のオープンな共同作業や、技術との需要のバランスの録れたイノベーションを進めるよう助長した。
ITU-T H.264 / MPEG-4(Part10) Advanced VideoCoding(一般にはH.264/AVC)[6]は、これら国際映像符号化規格の最新版だ。現時点では最もパワフルで、最新技術を結集したものだ。開発に当たったのは、
JVT 。これはITU-Tの
VCEG とISO/IECの
MPEG の専門家で構成された。
過去の規格同様、H.264/AVCが提供するのは、VLSI(CPU, DSP, ASIC, FPGAなど)技術の状況を考慮しつつ、符号化効率・実装上の複雑さ・コストの「現時点で望み得る最善のバランス」だ。具体的な目標は「妥協できるコストで、少なくともMPEG-2の2倍の符号化効率を達成する事」だった。
2004年7月、この規格に改正が施された。名称はFidelity Range Extensions(FRExt Amendment1)。これは符号化効率をさらに向上するもので、主要なアプリケーションでの符号化効率は、潜在的にMPEG-2の3倍に達し得る。
この文書ではまず最初のH.264/AVCのアウトラインを紹介し、その後で、既に産業界から大きな注目を集めている新しいFRExt拡張の概要を紹介する。
1.1. H.264/AVC の歴史 H.264/AVCの開発は4年を要した。この規格のルーツはITU-Tの
VCEG が始めたH.26Lプロジェクトにある。H.26Lは1998前半にCfP(Call for Proposal、提案書募集声明。技術提案の募集の段階)に達し、1998/8月に規格化に向けた最初のドラフト・デザインが作られた。2001年、ISO/IECの
MPEG がMPEG-4Part2の策定を終えた段階で、彼らも将来に向けて似たようなCfPを出して更に符号化効率の良い技術を募集した。これに対して
VCEG はH.26LのCfPを
MPEG に送って次世代規格の共同策定を提案した。
MPEG 側はその他の団体等からの提案も含めてテストした結果、H.26Lの中から以下のものを支持する結論を出した。
動き補償における離散コサイン変換(DCT )は他よりも優れている。少なくとも現段階では、次世代符号化規格のストラクチャに根本的な変更は必要無い。 過去の規格(MPEG-2/4 part2,H.263)よりも良い結果を出した符号化ツールのいくつかは、機能向上の一方、複雑であり、実装コストの肥大を招く。ただし、大規模LSI技術は規格原案作成時よりも大きく進歩しており、こうしたツールの実装コストも大きく下がった。再テストすべき(このテストはコストを度外視した"白紙小切手"ではなく、複雑さの問題から来る妥協も必要なものだ。しかし、大規模LSIの進歩も考慮して、過去に採用されなかった技術も再テストするべきだろう)。 符号化効率の向上を可能な限り自由に追求するため、次世代規格のSyntax(*構文・書式*) に過去の規格との互換性を持たせるべきではない。 最良の技術提案はITU-TのH.26Lだった。また、好成績を出した他の案も大半はH.26Lベースだった。 この結果、ITU-TとISO/IECは、迅速な規格策定のために、次世代映像符号化規格をH.26Lベースで共同開発することで合意した。2001/12月に両者の専門家からなるJVT が発足し、2003年までに規格の為の技術開発を完了すべく活動しはじめた。新規格の名称として、ITU-Tは「ITU-TH.264」を考えており、一方ISO/IECはISO/IEC 14496で定義済みのMPEG-4 規格の一部として「MPEG-4 Part10 Advanced Video Coding(AVC)」を考えていた。結果的として誰も望まなかった事だが、この規格は少なくとも6種類の名前で呼ばれる事になった。H.264, H26L,ISO/SEC 14496-10, JVT, MPEG-4 AVC, MPEG-4Part10。この文書では2組織の間をとって「H.264/AVC」とします。
両組織がカバーするアプリケーションは幅広く、従って規格策定作業で考慮すべきアプリケーションも幅広かった。ビデオ会議システム、エンターテインメント(ケーブル放送、衛星放送、地上波、ケーブルモデム、DSLなど、DVDやハードディスクなどのストレージに、ビデオ・オン・デマンドなど)、ストリーミング、監視用、軍事用、そしてデジタル・シネマ、、、。これらの用途を大雑把に分類するために、プロファイルという機能セット
(*使っても良い技術の詰め合わせ*) がつくられた。Baseline、Main、Extendedの三種である:
Baselineprofileは複雑さを最小限に抑え、幅広いネットワーク環境(そのコンディション下でも使える)での信頼性とフレキシビリティを狙ったもの。Main profileは符号化効率の向上を主軸に置いたもの。 ExtendedprofileはBaselineの信頼性を保ちつつ、符号化効率の向上とさらなる信頼性を加え、フレキシブル・ビデオ・ストリーミングなどで有用な"trick use"向け拡張を加えたものだ。
メモ: 「開発」と言っても、これらの団体はJISのようなもので、実際の「技術」は企業や研究所が持ち寄る。現実には政治力や資金力がモノを言う局面もあるだろう。自社特許が「国際標準規格」に採用されればメリットは大きい。てゆうか日米欧韓それぞれの知財戦略が全開バリバリで絡む。おいらが中・印・露・ブラジルあたりの政府の人だったら普及はジャマしたいと思うだろう。『H.264/AVC教科書』によると、JVTはこの後、特許料の問題には深入りを避けている。はっきりとは書いてないが、多少の紛糾はあったようだ。実際、MPEG-4part 2 videoが変則的な形で普及した背景には、様々な技術を盛り込みすぎてパテント料の高騰を招いたという背景もあった。 1.2. FRExt追加議定書 2003/3月に完成した最初のH.264/AVC規格は "エンターテインメント・クオリティ"に主眼を置いた。すなわち、8bits/sampleと4:2:0
chroma サンプリングベースの映像フォーマットである。時間的な制約から、プロフェッショナル環境下で必要な仕様はほとんどがサポート対象外で、高解像度に適した設計にもなっていない。コンテンツ制作、コンテンツ・ディストリビューション、スタジオ編集やポストプロセッシングといった用途には以下のようなものが必要だ。
素材映像を1サンプルあたり8bit以上の精度で再現すること。 一般的なコンシューマ・アプリケーションよりも広い色彩表現の幅(たとえば、4:2:0 chroma サンプリングではなく、4:2:2や4:4:4 chroma サンプリング)。 アルファ・ブレンディングなどの素材編集機能(複数の映像場面のブレンド。たとえば天気予報でキャスターの上に地図や気象レーダーの映像をスーパーインポーズするなど) すごい高ビットレート すごい高解像度 すごい忠実度の実現 -- 部分的に映像をロスレスに再現する事も含む。 カラースペース変換の丸め誤差回避。 RGBカラー表現の採用(*YUV4:2:0とかじゃなくて*) 。 こうしたニーズを満たすため、JVTは規格の拡張作業を続けた。作業は2003/3月の最初のドラフト案から2004/7月の最終設計案を経て、編集作業は2004/8~9月に終わると見込まれている。この拡張は当初 "プロフェッショナル" 拡張と呼ばれていたが、最終的には "fidelity rangeextension(FRExt)"
(*忠実度、正確さの拡張*) と呼ばれる事になった。その方がこの拡張の本質を表しているからだ。
JVTはこのFRExt改正の過程で、時間的な制約から最初の規格に盛り込めなかった技術提案や、利得が不確実だったもの、想定アプリケーションなどの見直しも行った。特筆に値するものは以下。
Supporting an adaptive block-size for the residual spatialfrequency transform ・残りの空間軸周波数変換のための適応ブロックサイズ。(*PHLが提案した8x8と思われる。i8x8, 8x8dct*) Supporting encoder-specified perceptual-based quantizationscaling matrices, and ・エンコーダが指定できる、人間の知覚に基づいた量子化スケーリングマトリクス。(*カスタム量子化マトリクス。cqm*) Supporting efficient lossless representation of specificregions in video content. ・映像内の特定箇所をロスレスに、効率的に表現する。(*下手に圧縮すると肥大化する部分、というのがあるらしい。MEncoderの対応不詳。*) FRExtは新たに4つのプロファイルを定義した。これらはひとまとめにしてHigh profileと総称する。
名称 1サンプルbit数 色彩信号形式 備考 Highprofile (HP) 8-bitvideo 4:2:0 ハイエンドコンシューマ、および高サンプル精度や拡張彩度フォーマットが必要無い高解像度アプリ用。 High10 profile (Hi10P) 10bitまで 4:2:0 High4:2:2 profile (H422P) 10bitまで 4:2:2まで High4:4:4 profile (H444P) 12bitまで 4:4:4まで 他に 部分的な、効率的なロスレス符号化の使用。 RGBビデオの符号化における、color-space変換エラーの無い、残りの整数色彩変換
上記のプロファイルは全てMainの全機能を含み、さらに適応ブロックサイズと人間の認識ベースの量子化スケーリングマトリクスをサポートする。
産業界の反応は劇的でFRExtは急速に受け入れられた。Highprofileが近未来の重要なアプリケーション規格に盛り込まれる事は確実に思える。中でも重要なのは:
HD-DVD 規格(DVD Forum ) BD-ROM Video 規格(Blu-ray Disc Association) DVB (digital video broadcast) 規格(欧州のTV放送 ) その他の環境も程なく後に続くだろう(例えばATSC、Advanced Television SystemsCommittee、米国および多様な衛星/ケーブルTVで採用)。事実、産業界がHighprofileの実装に寄せる関心は急速にMainへのそれにとって変わりつつ有る。なぜならHighprofileでは実装をあまり複雑化することなく、Mainより高い符号化効率が得られるからだ。
スポンサーサイト