Gluster

本家
複数台のサーバ上のファイルシステムをまとめて1つのネットワークボリュームを生成できるソフト
ネットワークミラーリングみたいなことができる

インストール

クライアントインストール

wget http://download.gluster.org/pub/gluster/glusterfs/repos/YUM/
glusterfs-3.4/LATEST/EPEL.repo/glusterfs-epel.repo
mv glusterfs-epel.repo /etc/yum.repos.d/
yum install -y glusterfs gluster-fuse

サーバインストール

yum install -y glusterfs-server
chkconfig glusterd on
service glusterd start

サーバの設定

peer接続するサーバはホスト名で名前解決できることが望ましいので hostsファイルで定義しておくのがよい
ネットワーク越しにデータ転送するので、最低でも1Gbpsの回線が必要。100Mbpsでは遅すぎて厳しかった。

例として2台構成の場合を記述しておく

vi /etc/hosts
192.168.0.1  gluster01
192.168.0.2  gluster02

サーバを接続

gluster01上で実行
gluster peer probe gluster02
gluster peer status

vol01という名前でボリュームを作成、2ノードでレプリカ構成

gluster vol create vol01 replica 2 gluster01:/data/brick01 gluster02:/data/brick01
gluster vol start vol01

クライアントの設定

クライアント側はサーバで生成されたボリュームをマウントするだけ
マウント方式にはNFSとglusterの2種類ある
ここではglusterマウントについて書く

mount -t gluster gluster01:/vol01 /mnt/mount_point

glusterマウントする場合、glusterサーバ名を指定するけど
一度マウントしてしまえば、指定したglusterサーバが停止していても
他のglusterサーバの情報を取得済みなのでそちらに自動的に切り替わる

fstabでマウントする場合
_netdevが超重要！

vi /etc/fstab
gluster01:/vol01    /mnt/mount_point    gluster    defaults,_netdev    0 0

netfsサービスも起動しておいてね

再レプリケーション

レプリカ構成のボリュームでは、特定のノードが一時的に停止していて
その後復活した場合は、自動的にバックグラウンドで再レプリケーション処理が実施される
ファイルにアクセスがあった場合は、そのファイルが即時再レプリケーションされる

手動でやる場合

gluster vol heal vol01 info
　→再レプリケーションが必要なノードとファイルが表示される

gluster vol heal vol01
　→再レプリケーション実行

gluster vol heal vol01 info
　→再レプリケーションが必要なノードとファイルが表示されなくなったらOK

ノード交換

特定のノードが壊れたため、別ハードで構築して再度ノードとして登録する方法
ホスト名、IPアドレスは以前と同一とする

gluster peer status
 Hostname: gluster02
 Uuid: xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx
 State: Peer in Cluster (Disconnected)
　→特定ノードがDisconnectedになっていることを確認

gluster vol info vol01
　→ボリューム構成に特定のノードも含まれていることを確認

gluster vol status vol01
　→ボリュームステータス内には特定ノードが含まれていないことを確認

新規ハードで特定ノードのホスト名、IPアドレスを設定してglusterをインストール
新規構築ノードで次を実施
mkdir /data/brick01
　→元のブリックディレクトリ
service glusterd start
gluster peer probe gluster01
service glusterd restart


gluster01ノードで次を実施
gluster peer status
　→新しいUUIDで特定ノードが接続されていることを確認

gluster vol status vol01
　→特定ノードが含まれていることを確認
　　OnlineがNになっている場合はglusterdを再起動させてOnlineをYにする

gluster vol heal vol01 full
　→再レプリケーション実行

ノードを再構築して交換した場合は、自動的に再レプリケーションは実行されないので
手動でfullオプション付きで実行する必要あり

glusterdを再起動させてもBrickがOnlineにならない場合
要件は色々とあるが、まずはログを確認する
確認するログは/var/log/glusterfs/brick/にあるファイルで
ブリックディレクトリ名毎のファイル

E [posix.c:4288:init] 0-vol01-posix: Extended attribute trusted.glusterfs.volume-id is absent
E [xlator.c:390:xlator_init] 0-vol01-posix: Initialization of volume 'vol01-posix' failed,
 review your volfile again
E [graph.c:292:glusterfs_graph_init] 0-vol01-posix: initializing translator failed
E [graph.c:479:glusterfs_graph_activate] 0-graph: init failed

こんなログの場合、該当するBrickに拡張属性のtrusted.glusterfs.volume-idが
ないから初期化に失敗したと言っていることになる
という事は、該当するBrickに拡張属性を付与すればよいって事

vol=vol01
brick=/data/brick01
setfattr -n trusted.glusterfs.volume-id \
  -v 0x$(grep volume-id /var/lib/glusterd/vols/$vol/info \
  | cut -d= -f2 | sed 's/-//g') $brick

そして、glusterdを再起動する
これはbugzillaで報告されているように
v3.4.0でのバグかもしれない

Quota

ボリュームとディレクトリに対してQuotaが設定できる

gluster vol quota [VOLNAME] enable
　→有効にする

gluster vol quota [VOLNAME] disable
　→無効にする


gluster vol quota [VOLNAME] limit-usage [path] 1GB
　→Quota値設定
　　pathは/がボリューム直下のこと
gluster vol quota [VOLNAME] remove [path]
　→Quota値を未設定にする

ブリックディレクトリの再利用

ブリックディレクトリを再度bリックディレクトリとして利用する場合は拡張属性等を全て削除しなければいけない。そのスクリプト

#!/bin/sh

if [[ ! -d $1 ]]; then
    echo "usage: $0 <brickdir>"
    exit 1
fi

getfattr -m . $1 2> /dev/null |
grep -E '^trusted\.(glusterfs|gfid|afr|dht|hsrepl)' |
while read xa; do
    echo "removing $xa on $1"
    setfattr -x $xa $1
done
echo "removing $1/.glusterfs"
rm -rf $1/.glusterfs

ログファイル

ログファイルは/var/log/glusterfsに出力される
logrotateファイルもRPMでインストールした場合はコピーされている

ログファイル内の時刻表示はUTCに固定されている
Bugzillaによると今後のバージョンで
設定可能なようにしたいとの事www
今はできないんやね。

パフォーマンス

パフォーマンスが気になる所

gluster vol set images performance.write-behind-window-size 512MB

書き込みwindows sizeを変更できる
ちょっと良くなるかも？

目次