PostgreSQL をベースとしたカラムストア機構の実現検討

DEIM Forum 2015 E4-2
PostgreSQL をベースとしたカラムストア機構の実現検討
中村 実† 田原 司睦†
宇治橋 善史† 橋田 拓志† 河場 基行† 原田 リリアン†
†富士通研究所 ICT システム研究所 〒211-8588 川崎市中原区上小田中 4-1-1
E-mail: †{nminoru, tabaru, ujibashi, hashida.takushi, kawaba, harada.lilian}@jp.fujitsu.com
あらまし 近年、トランザクション処理と高速分析処理を兼ね備えた OLXP の必要性が高まっている。我々は
OSS の RDBMS である PostgreSQL 9.4 をベースとして、OLXP システムを実現するための設計・開発を行っている。
我々のシステムではテーブルに Column Store Index(CSI)と呼ぶ独自インデックスを付与することで列形式の複製テ
ーブルを生成し、スキャン・ソート・集計処理を高速化する。ユーザは行形式テーブル、列形式テーブルの参照を
意識する必要がなく、実行時に自動的に選択される。本発表では PostgreSQL ベースの OLXP システム実現に向けた
拡張機能について概要を説明する。
キーワード カラムナー,ベクター処理,PostgreSQL,OLXP
1.
はじめに
リレーショナルデータベースマネージメントシス
それぞれが分離したシステムと 同程度の性能を出すこ
とは困難である。
テ ム (RDBMS)に お い て 、一 件 あ た り の デ ー タ 量 は 比 較
的小さいが挿入・更新・削除の操作が短期間 に大量に
我 々 は OSS の RDBMS で あ る PostgreSQL 9.4[5]を ベ
発 生 す る オ ン ラ イ ン ト ラ ン ザ ク シ ョ ン 処 理 (Online
ー ス と し た OLXP シ ス テ ム の 開 発 を ス タ ー ト し た
Transaction Processing、OLTP)の ワ ー ク ロ ー ド と 、す で
[6][7][8]。 PostgreSQL を 選 択 し た 理 由 は 、 PostgreSQL
に蓄積されたデータを広範囲に読み込み複雑な統計処
が OLTP RDBMS と し て PowerGres Plus や Symfoware
理 を 行 う オ ン ラ イ ン 解 析 処 理 (Online Analytical
Server V12 な ど の 実 績 が あ る た め で あ る 。我 々 の OLXP
Processing, OLAP)の ワ ー ク ロ ー ド の 2 種 類 が あ る こ と
シ ス テ ム は 、 特 に 従 来 と 同 程 度 の OLTP 性 能 を 実 現 し
が 知 ら れ て い る 。 そ し て RDBMS の 構 成 方 法 と し て 、
た 上 で 、 OLAP 性 能 を 向 上 さ せ る こ と を 目 標 と す る 。
OLTP ワ ー ク ロ ー ド に 特 化 す る 場 合 、 デ ー タ ス ト ア を
さらに以下のような機能要件を設けて設計を行ってい
行形式で格納すると効率よく処理できることが知られ
る。
て い る 。 一 方 、 OLAP に お い て は 蓄 積 さ れ た デ ー タ の
中で特定のカラムに注目して分析することが多く、同
1.
既存の行形式テーブルに対するインデックス
じカラムを固めて格納する列形式が向いていることが
と し て 列 形 式 テ ー ブ ル を 実 現 す る 。こ れ に よ り
知られている。
行
形
式
テ
ー
ブ
ル
に
対
す
る
し か し OLTP&行 形 式 デ ー タ ス ト ア と OLAP&列 形 式
INSERT/DELETE/UPDATE 操 作 を 捕 捉 す る こ と
データストアは相反する性質を持っている ため、一つ
が 可 能 に な る 。た だ し イ ン デ ッ ク ス と し て 実 装
の RDBMS で 処 理 す る こ と は 困 難 で あ る 。 そ の た め
す る た め 、同 じ デ ー タ を 行 形 式 と 列 形 式 で 二 重
別 々 の シ ス テ ム を 用 意 し て OLTP シ ス テ ム か ら OLAP
に保持することになる。
シ ス テ ム へ ETL(Extract Transform Load)ツ ー ル な ど を
2.
用いて一定間隔でデータをロードするという使い方が
処理の負荷が高い時は反映を遅延させること
一般的であった。
し か し 近 年 、 ビ ジ ネ ス の 世 界 で は OLTP シ ス テ ム の
列 形 式 テ ー ブ ル へ の 反 映 を 非 同 期 に 行 い 、OLTP
で OLTP 性 能 の 低 下 を 防 ぐ 。
3.
行形式テーブルに対してアクセスするか列形
持 つ デ ー タ を リ ア ル タ イ ム に 分 析 で き る RDBMS の 存
式テーブルにアクセスするかをコスト評価に
在 が 必 要 と さ れ る よ う に な っ て き た 。こ の よ う な OLTP
よ っ て 自 動 的 に 切 り 替 え る 。ユ ー ザ ー は ア ク セ
と OLAP が 混 在 し た ワ ー ク ロ ー ド は OLXP と 呼 ば れ [4]、
ス す る テ ー ブ ル を 意 識 す る 必 要 が な い 。こ の 実
OLAP ワ ー ク ロ ー ド を 効 率 的 に 処 理 可 能 な デ ー タ ベ ー
現のために列形式テーブルに対するアクセス
ス は OLXP シ ス テ ム と 呼 ぶ こ と が で き る 。こ の よ う な
が PostgreSQL と 完 全 に 互 換 な MVCC を 実 現 す
OLXP シ ス テ ム は 研 究 レ ベ ル ・ 商 業 レ ベ ル の 両 方 で 発
表 さ れ て い る (SAP HANA[1],Oracle Database 12c[2],
HyPer[3])。 し か し OLXP シ ス テ ム は 、 OLTP と OLAP
る必要がある。
4.
列形式データをベクター処理することでプラ
ンツリーの実行に対するオーバーヘッドを削
減し高速化する。
5.
マルチコアを利用しクエリーを並列処理する。
6.
列 形 式 テ ー ブ ル の 圧 縮 す る こ と で 、使 用 デ ィ ス
ク 量 を 減 ら す 。ま た 圧 縮 に よ り デ ィ ス ク か ら 読
み 込 み 時 の I/O 量 を 減 ら す こ と で 高 速 化 す る 。
我 々 は こ れ ら の 目 標 を 満 た す OLXP シ ス テ ム を
PostgreSQL 本 体 か ら 分 離 し た エ ク ス テ ン シ ョ ン と し
て 実 現 す る よ う に 設 計 し た 。 こ れ を Column Store
Index(CSI)と 名 付 け た 。
なお現在の設計では、更新を含まない参照のみのク
エリーの中でテーブルスキャン、ソート、集約
(Aggregation) を 高 速 化 の 対 象 と す る 。 テ ー ブ ル 結 合
(Join)は 今 後 の 課 題 と し て い る 。
ト ラ ン ザ ク シ ョ ン 分 離 レ ベ ル は READ COMMITTED
と REPEATABLE READ の み カ ラ ム ス ト ア を 用 い た 高
速 実 行 を 試 み 、 SERIALIZABLE で は オ リ ジ ナ ル の
PostgreSQL で 動 作 す る 。
2.
DBMS デ ー モ ン プ ロ セ ス
(postmaster) を 中 心 と し た 複 数 の プ ロ セ ス で 構 成 さ れ
る 。 ク ラ イ ア ン ト が ソ ケ ッ ト 経 由 で postmaster へ 接 続
す る と 、 postmaster は 自 身 を fork し て バ ッ ク エ ン ド プ
ロセスを作成する。以降はクライアントとバックエン
ドプロセス間でセッションを確立し、バックエンドプ
ロセスがクライアントからのクエリーを処理する。
PostgreSQL は マ ル チ ス レ ッ ド に 対 応 し て お ら ず 、各 セ
ッションのクエリーは一部の処理を除いてシングルプ
ロセスで逐次処理される。
PostgreSQL の デ ー タ ベ ー ス は フ ァ イ ル シ ス テ ム 上
に 記 録 さ れ る 。1 つ の テ ー ブ ル は 1GB 単 位 で 分 割 さ れ
た フ ァ イ ル 群 と し て 構 成 さ れ る 。PostgreSQL は こ の フ
ァ イ ル 群 を Relation を 呼 ぶ 。 テ ー ブ ル 以 外 に イ ン デ ッ
ク ス や ビ ュ ー も relation と し て 記 録 さ れ る 。 例 え ば
CREATE INDEX に よ っ て イ ン デ ッ ク ス を 作 成 す る と 、
Index Relation が 1 つ 新 規 に 作 成 さ れ る こ と に な る 。
PostgreSQL は 共 有 メ モ リ 上 に 共 有 バ ッ フ ァ を 持 ち 、
relation を 8KB を 単 位 の ブ ロ ッ ク で ロ ー ド し て 、 や は
り 8KB 単 位 の ペ ー ジ に マ ッ プ す る 。 共 有 バ ッ フ ァ は
PostgreSQL の プ ロ セ ス 間 で 共 有 さ れ て い る 。 Relation
上で連続したページが共有バッファ上で連続したペー
ジに割り当てられる保証はない。
3.
Column Store Index の 設 計
3.1.
CREATE INDEX indexname ON tablename USING csi (a,
b, c);
PostgreSQL の CREATE INDEX 文 が 持 つ USING 句 は
nbtree や hash な ど イ ン デ ッ ク ス 内 部 の ア ル ゴ リ ズ ム を
指 定 す る が 、 こ れ と 並 列 に "csi"キ ー ワ ー ド を 追 加 し て
CSI を カ ス タ ム イ ン デ ッ ク ス と し て 追 加 す る 。ON 句 で
カラムストアを設けるテーブル名を指定し、 その後に
ON 句 で 指 定 し た テ ー ブ ル の 中 の カ ラ ム 名 を a, b, c の
ように列挙する。ここで指定するカラム名のリストは
オ リ ジ ナ ル の PostgreSQL で は イ ン デ ッ ク ス の ソ ー ト
キ ー と な る が 、 CSI で は 列 形 式 デ ー タ へ 変 換 す る カ ラ
ムを指定する効果のみでカラムの並び順にも意味はな
い。
既 成 の テ ー ブ ル に 対 し て CREATE INDEX を 実 行 す
ると、テーブルにすでに格納されているデータを一括
でカラムストアに格納する。
い っ た ん CSI イ ン デ ッ ク ス を 作 成 し た 後 に 、
PostgreSQL
PostgreSQL 9.4 は
う に CREATE INDEX 文 を 実 行 す る 。
利用方法
我 々 は CSI を PostgreSQL の イ ン デ ッ ク ス の 一 つ と し
て 実 現 す る 。 ユ ー ザ ー が CSI を 使 う 場 合 は 、 以 下 の よ
INSERT/UPDATE 文 を 実 行 す る と 、 PostgreSQL は イ ン
デ ッ ク ス 毎 に 設 定 さ れ た コ ー ル バ ッ ク (aminsert) を 呼
び 出 す 。こ の コ ー ル バ ッ ク を CSI イ ン デ ッ ク ス で も 捕
捉 す る 。 一 方 、 PostgreSQL は テ ー ブ ル 中 の タ プ ル が
DELETE さ れ た 場 合 、 そ の 削 除 契 機 を イ ン デ ッ ク ス に
は 通 知 し な い 。 CSI は こ の 機 能 の 不 足 を 補 う た め に 、
タ プ ル 削 除 の 契 機 で も コ ー ル バ ッ ク (amdelete) が 呼 び
出 さ れ る よ う に PostgreSQL 本 体 側 に 変 更 を 加 え て い
る。
3.2.
ストレージ構成
カラムストアは追記的なデータ挿入に適している
が 、 OLTP の よ う に DELETE/UPDATE 文 が ラ ン ダ ム な
位置に発生するワークロードでは効率が低下する。そ
の た め 過 去 列 形 式 RDBMS で は 、 列 形 式 ス ト ア の 前 段
と し て Write-Optimized-Storage(WOS)[9]あ る い は Delta
Store な ど と 呼 ば れ る 行 形 式 格 納 の キ ャ ッ シ ュ を 設 け 、
短期的な更新は行形式で貯めるのが一般的である。そ
し て WOS へ 一 定 量 の デ ー タ が 貯 ま っ た 後 に 非 同 期 な
タイミングで列形式に変換しストレージへ反映する。
こ の 時 、 WOS
に 対 し て 列 形 式 ス ト ア を
Read-Optimized-Storage(ROS)と 呼 ぶ 。
CSI で も WOS と ROS の 二 つ の ス ト ア を 設 け る 。 ま
た CSI が WOS か ら ROS へ 反 映 す る こ と を WOS→ ROS
変 換 と 呼 ぶ こ と に す る 。 CSI の WOS と ROS を 構 成 の
イ メ ー ジ は Figure 1 の よ う に な る 。
3.4.
Read-Optimized-Store(ROS)
CSI の カ ラ ム ス ト ア で あ る ROS は 、 最 大 262,144 行
を 1 つ に ま と め た エ ク ス テ ン ト (extent)単 位 で 管 理 す る 。
こ れ は 一 定 量 の 行 を ま と め て 処 理 す る こ と で ROS の
管理オーバーヘッドを減らし、同時に読み出しを効率
化 す る た め で あ る 。 WOS→ ROS 変 換 は 、 Data WOS が
1 エクステントを構成するために必要な数だけ貯まっ
た 時 に 変 換 を 開 始 す る 。 WOS に は TID の み が 記 録 さ
れ て い る の で 、ROS へ 格 納 す る カ ラ ム デ ー タ は イ ン デ
ックス元となるテーブルからフェッチする。
Figure 1 WOS と ROS の 構 成
エクステントのデータは圧縮が可能な場合に は、列
単位で圧縮を行う。圧縮方式は固定サイズの列には ラ
WOS と ROS は PostgreSQL の relation と し て デ ィ ス
ク に 記 録 す る 。 ROS は 列 ご と に 別 個 の relation を 作 成
ンレングス圧縮を、可変サイズの列には辞書圧縮を行
う。
し て 、 別 々 に デ ィ ス ク に 書 き 出 す 。 Relation を 利 用 し
ま た WOS→ ROS 変 換 で は 、 Whiteout WOS に の み 存
て い る た め WOS と ROS は PostgreSQL の 他 の テ ー ブ ル
在 す る TID に 対 応 す る 行 を ROS か ら 削 除 す る 必 要 が
と 同 様 に Write-Ahead-Logging(WAL)ロ グ を 生 成 す る こ
ある。しかしエクステントの一部行だけが削除された
とができ、システムダウン時には自動的にリカバリー
場合に既存のエクステントを再作成するのはコストが
される。
高 い の で 、 削 除 行 を 示 す delete vector を 導 入 す る 。
CSI は カ ス タ ム イ ン デ ッ ク ス と し て 機 能 す る が 、
ROS に 格 納 す る デ ー タ は ソ ー ト を せ ず に 追 記 順 に 書
き 込 ん で い る 。ROS に 対 す る イ ン デ ッ ク ス や プ ロ ジ ェ
クションを追加するのは今後の課題とする。
3.5.
MVCC
CSI は OLXP を サ ポ ー ト す る た め 、WOS→ ROS 変 換
中 も 含 め て 、 オ リ ジ ナ ル の PostgreSQL に 準 拠 し た
MVCC を 実 施 す る [7]。CSI が MVCC を 守 る た め に は 以
3.3.
Write-Optimized-Store(WOS)
下の 2 つの条件を守る必要がある。
CSI は 本 来 の テ ー ブ ル と カ ラ ム ス ト ア を 二 重 に 保 持
す る た め 、 WOS は テ ー ブ ル 内 の ROS へ 反 映 し て い な
1.
INSERT し た ト ラ ン ザ ク シ ョ ン が ロ ー ル バ ッ ク
い 箇 所 を 記 録 す る だ け の 装 置 と な る 。 OLTP 性 能 を 低
し た 場 合 そ の 行 は INSERT さ れ な か っ た こ と に
下 さ せ な い た め に 、WOS は で き る だ け 処 理 の オ ー バ ー
な る 。 DELETE し た ト ラ ン ザ ク シ ョ ン が ロ ー ル
ヘッドを小さくする必要がある。
バ ッ ク し た 場 合 、そ の 行 は DELETE し な か っ た
PostgreSQL は テ ー ブ ル 内 の 行 (タ プ ル )の 位 置 を 記 録
す る Tuple-ID(TID)と 呼 ぶ 情 報 を 持 つ 。 TID は 32 ビ ッ
ことになる。
2.
WOS→ ROS 変 換 中 に カ ラ ム ス ト ア へ の 参 照 を
ト の ペ ー ジ 番 号 と 16 ビ ッ ト の ペ ー ジ 内 ア イ テ ム 番 号
し た 場 合 で も 、 挿 入 さ れ た 行 が Data WOS と
が 対 に な っ た 48 ビ ッ ト の 識 別 子 で あ る 。 WOS は こ の
ROS で 二 重 に 出 現 す る こ と は 許 さ れ な い 。ま た
TID だ け を 記 録 し 、 タ プ ル 内 の カ ラ ム デ ー タ は 保 持 し
削 除 さ れ た 行 の 情 報 が Whiteout WOS か ら 消 え
な い 設 計 と し た 。 こ れ に よ り INSERT/DELETE に 対 す
delete vector に 出 現 せ ず 削 除 さ れ て な い よ う に
るオーバーヘッドが最小限になる。
見えることも許されない。
CSI の WOS は タ プ ル の 挿 入 を 記 録 す る Data WOS と
タ プ ル の 削 除 を 記 録 す る Whiteout WOS の 二 種 類 を 設
PostgreSQL は テ ー ブ ル 内 に あ る 各 行 が 生 成 ト ラ ン
け る 。イ ン デ ッ ク ス へ 挿 入 (aminsert)が 行 わ れ た 場 合 は 、
ザ ク シ ョ ン ID(Xmin) と 削 除 ト ラ ン ザ ク シ ョ ン
Data WOS 内 に 挿 入 し た 行 の TID を 追 記 す る 。 行 の 削
ID(Xmax)の 情 報 を 持 っ て お り 、テ ー ブ ル ス キ ャ ン の 際
除 が 行 わ れ た 場 合 (amdelete)は 、 Whiteout WOS 内 に 削
には現在のトランザクション情報と照合して「可視な
除 し た 行 の TID を 追 記 す る 。 WOS→ ROS 変 換 時 に は 、
(visible)」な 行 だ け を 読 む 。こ れ が MVCC 制 御 で あ る 。
Data WOS と Whiteout WOS の 両 方 に 存 在 す る TID は 削
CSI は 1 を 守 る た め に 、 Data WOS と Whiteout WOS
除 し 、Data WOS ま た は Whiteout WOS に の み 存 在 す る
に は テ ー ブ ル と 同 様 に Xmin/Xmax の 情 報 を 記 録 す る
TID を ROS へ 移 動 す る 。
(Figure 2)。そ の 上 で WOS→ ROS 変 換 時 に は 、Data WOS
内 の TID は ト ラ ン ザ ク シ ョ ン の 可 視 性 を チ ェ ッ ク し 、
TID を 挿 入 し た ト ラ ン ザ ク シ ョ ン が コ ミ ッ ト 済 か つ 他
の 全 て の ト ラ ン ザ ク シ ョ ン か ら 見 て 可 視 状 態 な TID だ
とが可能になる。
け を ROS に 移 動 さ せ る 。同 様 に Whiteout WOS 内 の TID
も全てのトランザクションから見て可視状態となり削
3.6.
プランの書き換え
除 さ れ た と 判 定 で き る 場 合 に の み ROS の delete vector
CSI は あ る ク エ リ ー が カ ラ ム ス ト ア を 用 い て ア ク セ
へ 反 映 す る 。こ の た め ROS は ロ ー ル バ ッ ク が 起 き て も
スした方が高速であるとコスト評価した場合に限り、
巻 き 戻 す 必 要 の な い デ ー タ だ け を ROS へ 移 動 す る こ
プランを書き換える。プランの書き換えには
とができる。
PostgreSQL 9.5 か ら 導 入 さ れ る Custom Scan API を バ ッ
ク ポ ー ト し て 使 用 し て い る [10]。
プ ラ ン の 書 き 換 え の 対 象 と す る の は 、 SeqScan ノ ー
ド 、Agg ノ ー ド 、Sort ノ ー ド と す る 。こ れ ら を Custom
Scan API を 派 生 さ せ た CSI Scan ノ ー ド 、 CSI Agg ノ ー
ド 、 CSI Sort ノ ー ド に 置 換 す る 。
Figure 2 WOS の ト ラ ン ザ ク シ ョ ン 情 報
次 に 2.を 守 る た め 、 ク エ リ ー の 開 始 時 点 の WOS と
ROS の ス ナ ッ プ シ ョ ッ ト が 読 め る よ う に す る 。 WOS
は相対的に容量が小さいため、クエリー開始時点に
WOS 内 の 可 視 な TID の 行 デ ー タ を テ ー ブ ル か ら 読 み
込み、メモリ上で一時的に列形式データに変換する。
Figure 3 プ ラ ン の 書 き 換 え 位 置
我 々 は こ の デ ー タ 構 造 を Local ROS と 名 付 け た 。Local
ROS の 作 成 と WOS→ ROS の 変 換 は 排 他 的 に 行 っ て お
り 、 プ ラ ン 実 行 中 は Local ROS の み を 参 照 す る こ と で
PostgreSQL は planner の フ ェ ー ズ で 複 数 の ア ク セ ス
ク エ リ ー 開 始 時 点 の WOS の ス ナ ッ プ シ ョ ッ ト を 見 る
パスを提案し、最もコストが小さいものを採用する。
ことができる。
この際、インデックスごとにアクセスパスが生成され
一 方 、ROS は 巨 大 な た め ク エ リ ー 実 行 前 に ス ナ ッ プ
る の で 、 CSI イ ン デ ッ ク ス に 対 し て も ア ク セ ス パ ス を
シ ョ ッ ト を 保 存 す る こ と も 、 ク エ リ ー 実 行 中 に WOS
提 出 す る 機 会 が あ る 。 た だ し CSI は pg_hint_plan な ど
→ ROS 変 換 を 停 止 さ せ る こ と も 実 用 的 で は な い 。そ こ
のプランを書き換える他のエクステンションと併用す
でエクステント単位にトランザクション情報を記録す
ることを想定している。アクセスパスを使ったプラン
る こ と で 、二 段 目 の MVCC を 導 入 す る 。我 々 は エ ク ス
の書き換えは他のエクステンションと干渉する危険性
テ ン ト 生 成 時 の ト ラ ン ザ ク シ ョ ン ID を Xgen、 エ ク ス
が あ る 。そ こ で CSI は 常 に 最 悪 値 と な る コ ス ト を 提 出
テ ン ト 無 効 化 時 の ト ラ ン ザ ク シ ョ ン ID を Xdel と 名 付
し て ア ク セ ス パ ス と し て の 採 用 を 回 避 し 、 PostgreSQL
け た 。 そ の 上 で WOS→ ROS 変 換 自 体 を 独 立 し た ト ラ
本 来 の planner に プ ラ ン を 確 定 さ せ る 。 そ の プ ラ ン ツ
ン ザ ク シ ョ ン で 行 い 、 ト ラ ン ザ ク シ ョ ン ID を エ ク ス
リ ー 中 に SeqScan ノ ー ド 、 Agg ノ ー ド 、 Sort ノ ー ド が
テ ン ト の Xgen に 記 録 す る 。ま た delete vector に 記 録 さ
あ れ ば 、再 度 コ ス ト 評 価 を 行 い CSI ノ ー ド へ の 書 き 換
れる削除された行の数が閾値を越えた エクステントは
え を 実 施 す る (Figure 3)。
生きている行だけを取り出してエクステントを再作成
するが、処理後に不要になった古いエクステントの
Xdel に は ト ラ ン ザ ク シ ョ ン ID を 記 録 す る 。CSI は ROS
3.7.
プラン実行
書 き 換 え た プ ラ ン は ROS と WOS を 組 み 合 わ せ た デ
を 更 新 し た 最 後 の ト ラ ン ザ ク シ ョ ン ID を 記 録 し お り 、
ータセットを参照して実行する必要がある。そのため
ク エ リ ー 開 始 時 に そ の ト ラ ン ザ ク シ ョ ン ID を 読 み 込
に プ ラ ン 実 行 に 先 立 っ て Local ROS を 作 成 す る 。Local
み ク エ リ ー 実 行 中 は 「 Xgen ≦ ク エ リ ー 開 始 時 点 で 最
ROS は Data WOS に 登 録 さ れ た TID の 行 デ ー タ を テ ー
後 に ROS を 更 新 し た ト ラ ン ザ ク シ ョ ン ID < Xdel」
ブ ル か ら 参 照 し 、ROS と 同 様 の 列 形 式 デ ー タ に 変 換 す
が成立するエクステントのみをフェッチすることで、
る 。 ま た Whiteout WOS 内 の TID も 読 み 込 み 、 ソ ー ト
ク エ リ ー 開 始 時 の ROS の ス ナ ッ プ シ ョ ッ ト を 読 む こ
し て メ モ リ 上 に 削 除 リ ス ト と し て 記 録 す る 。ROS か ら
読 み 込 ん だ デ ー タ は 、 delete vector と ソ ー ト 済 み 削 除
を 読 み 込 み 、 こ れ を ベ ク タ ー (vector)と し 、 expression
リ ス ト を マ ー ジ し て 削 除 さ れ た 行 を 決 定 す る (Figure
tree の 各 ノ ー ド は 1 行 単 位 で は な く ベ ク タ ー 単 位 で 処
4)。
理 を 実 行 す る (Figure 6)。
Figure 4 プ ラ ン 実 行 の カ ラ ム ス ト ア ス キ ャ
ンのイメージ
Figure 6 ベ ク タ ー 処 理 の イ メ ー ジ
Local ROS を 作 成 す る こ と で CSI の 実 行 エ ン ジ ン は
列 形 式 の み に 対 応 す れ ば よ い 。 し か し Local ROS を ク
3.9.
並列実行
エリー毎に作成し、毎回破棄しているのはオーバーヘ
CSI は 可 能 な 場 合 に は ク エ リ ー の 並 列 実 行 を 実 現 す
ッ ド が か か る 。た だ し こ の オ ー バ ー ヘ ッ ド は 、WOS→
る 。 こ れ に は PostgreSQL 9.4 か ら 導 入 さ れ た Dynamic
ROS 変 換 が 定 期 的 に 行 わ れ WOS は 一 定 量 に 抑 え ら れ
Background Worker を 利 用 し て 行 う 。
るので、実際の運用では無視できると考えられる。
並列実行は、カラムストアをエクステント単位に分
割し、それぞれの並列ワーカーが別々のエクステント
3.8.
ベクター処理
を処理する。並列ワーカーが行う処理のアルゴリズム
PostgreSQL の 各 プ ラ ン は 選 択 リ ス ト や WHERE 句 を
は、元のプランで選択されたアルゴリズムと同じもの
処 理 す る た め に expression tree を 持 つ 。 プ ラ ン 実 行 時
を利用する。例えばハッシュ・アグリゲーションが選
に は こ の expression tree を 走 査 し な が ら 処 理 す る こ と
択された場合は、並列ワーカーはハッシュ・アグリゲ
で 演 算 を 行 う 。 例 え ば (A* 3) + B と い う 句 に 対 し て
ーションを行い、バックエンドプロセス は結果を統合
PostgreSQL は Figure 5 の よ う な expression tree を 作 成
して上位プランノードに返却する。
する。
並列実行には並列ワーカー間のデータ共有が必要
と な る 。 PostgreSQL 9.4 は Dynamic Background Worker
と 伴 に Dynamic Shared Memory(DSM)と い う 共 有 メ モ
リ 機 構 が 導 入 さ れ た 。 し か し DSM は 同 一 の メ モ リ 実
体を共有する機構であっても、プロセス間ではマッピ
ングする位置が異なり、ポインタを含んだデータをそ
のまま転送することができない。
そ こ で 我 々 は DSM に 替 わ る 機 構 と し て 、 Shared
Memory Context(SMC)機 構 を 開 発 し た [8]。SMC は バ ッ
ク エ ン ド プ ロ セ ス と 並 列 処 理 を 行 う Dynamic
Background Worker 間 で 共 有 さ れ る 共 有 メ モ リ だ が 、関
連するプロセス間で同一のメモリアドレスにマッピン
グする。
Figure 5 PostgreSQL の expression tree
ま た SMC は PostgreSQL の Memory Context 機 構 の イ
ン タ ー フ ェ イ ス と 合 致 さ せ て い る 。 こ の た め SMC は
し か し こ の よ う な expression tree の 走 査 は 条 件 分 岐
既 存 の PostgreSQL の ル ー チ ン を そ の ま ま 呼 び 出 し 、ル
ミ ス を 大 量 に 発 生 さ せ 、性 能 低 下 の 要 因 と な っ て い る 。
ーチン内で新規に割り付けられるメモリを共有メモリ
そ こ で CSI で は カ ラ ム ス ト ア か ら 128 行 単 位 で デ ー タ
に割り当てることが可能になっている。このため
PostgreSQL の 提 供 す る プ ラ ン ツ リ ー や ハ ッ シ ュ テ ー
ブ ル な ど を そ の ま ま 共 有 す る こ と が で き る (Figure 7)。
Figure 7 SMC の 利 用 イ メ ー ジ
4.
まとめ
PostgreSQL を ベ ー ス に OLTP 処 理 を 低 下 さ せ ず に
OLAP 処 理 を 高 速 化 す る OLXP シ ス テ ム を 開 発 す る た
め 、 列 形 式 格 納 の イ ン デ ッ ク ス を 実 現 す る CSI の 設
計 ・ 実 装 を 進 め て い る 。本 稿 で は CSI の 基 本 な 設 計 を
述べた。
今 後 は 実 装 を 進 め OLAP の 性 能 向 上 率 、 OLTP と
OLAP 混 在 時 の 性 能 の 評 価 を 実 施 す る 。 ま た テ ー ブ ル
結合についても設計・実装を行う。
参
考
文
献
[1] V. Sikka, F. Färber, W. Lehner, S. K. Cha, T. Peh, and
C. Bornhövd, "Efficient Transaction Processing in
SAP HANA Database: The End of a Column Store
Myth", Proc. SIGMOD, 2012.
[2] Oracle
Database
In-Memory,
Oracle,
http://www.oracle.com/technetwork/database/in -mem
ory/overview/twp-oracle-database-in-memory-22456
33.html
[3] Florian Funke, Alfons Kemper, and Thomas Neumann,
"Compacting
Transactional
Data
in
Hybrid
OLTP&OLAP Database", Proc. VLDB, 2012.
[4] Hasso Plattner,"The Impact of Columnar In -Memory
Databases on Enterprise Systems ", Proc. VLDB,
2014.
[5] PostgreSQL, http://www.postgresql.org/
[6] 田 原 司 睦 他 ,カ ラ ム ナ デ ー タ を サ ポ ー ト す る た め
の PostgreSQL 拡 張 ,第 77 回 日 本 情 報 処 理 学 会 全 国
大会
[7] 橋 田 拓 志 他 ,PostgreSQL ベ ー ス の カ ラ ム ナ 機 構 へ
の ト ラ ン ザ ク シ ョ ン 実 現 検 討 ,第 77 回 日 本 情 報 処
理学会全国大会
[8] 宇 治 橋 善 史 他 ,PostgreSQL ベ ー ス の 並 列 処 理 向 け
の 共 有 メ モ リ 機 構 の 設 計 ,第 77 回 日 本 情 報 処 理 学
会全国大会
[9] Mike Stonebraker, et al., "C-store: a column-oriented
DBMS", Proc. VLDB, 2005.
[10] 海 外 浩 平 氏 の カ ス タ ム プ ラ ン の パ ッ チ ,
http://www.postgresql.org/message-id/9A28C8860F7
[email protected]
isp.nec.co.jp