Cloud Studio を使用して vllm で Qwen2.5-1.5B-Instruct 大モデルをデプロイする#
ps: 本来筆者は qwq:32b 大モデルをデプロイしようとしましたが、進化版の hai サーバーを使用しても成功しませんでした(VRAM とメモリが不足していたため、すべて失敗に終わりました)。最終的に、テストのために wen2.5-1.5B-Instruct モデルをデプロイすることにしました。
ここでは cloud studio の高性能スペース、ベーシックプランを選択します。
まず、vllm をインストールします。
python -m pip install --upgrade pip
待機時間が少し長くなるので、皆さんは辛抱強くお待ちください。
vllm をインストールします pip install vllm
インストールが成功したら、コマンド vllm
を入力して簡単なテストを行い、インストールが正常かどうか確認します。
次に pip install modelscope
をインストールします。
pip install openai
をインストールします。
pip install tqdm
と pip install transformers
をインストールします。
分割線部分は無視しても構いません、無視してください、実行する必要はありません。
----------------- 分割線開始 -----------------
1. 現在のディレクトリに tmp フォルダを新規作成します mkdir tmp
、または直接新規作成します。
新しい model_download_32b.py コードは以下の通りです:
from modelscope import snapshot_download
model_dir = snapshot_download('Qwen/QwQ-32B', cache_dir='./tmp', revision='master')
2. model_download_32b.py を実行すると、qwq32b モデルがダウンロードされます。私のマシンリソースはシンガポールにあるため、速度が遅いです。
python model_download_32b.py
少し待つ必要があります、U_U ~~
----------------- 分割線終了 -----------------
マシンのリソースがシンガポールのデータセンターにあるため、国内の魔塔コミュニティのモデルにアクセスする速度が遅いです。
皆さんは git lfs clone を使用して hf のモデルファイルを利用できます。これにより速度が速くなります。
curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | bash
apt-get install git-lfs
git lfs clone https://huggingface.co/Qwen/Qwen2.5-1.5B-Instruct
これが hf から Qwen2.5-1.5B-Instruct モデルを取得する方法です。
VRAM とメモリの関係で、筆者は複数のモデルをテストしましたが、すべて失敗しました。そのため、Qwen2.5-1.5B-Instruct 大モデルをテストすることにしました。このブログ記事は、hai を使用してデプロイしたマシンについてのものです。残念ながら、上記のモデルはすべてサポートされておらず、無駄になりました。
では、引き続き、ダウンロードが完了するのを待ちましょう。
OpenAI API インターフェースに対応したサーバーを作成します。
vllm の具体的な使い方は公式ドキュメントを参照してください
python -m vllm.entrypoints.openai.api_server \
--model ./Qwen2.5-1.5B-Instruct \
--served-model-name Qwen2.5-1.5B \
--max-model-len=2048 \
--dtype=half
この画面が表示されれば、デプロイは成功です。
https://ohaxxx.ap-singapore.cloudstudio.work/proxy/8000/version という URL を開いて、正常にアクセスできるか確認します。
次にクライアントの設定を行います。いつものことですが、
どう設定しても効果がないので、試行錯誤するしかありません。
古いコマンド ssh srv.us -R 1:localhost:8000
エラーが出た場合は、指示に従ってキーを作成してください。
ssh-keygen -t ed25519
すべてデフォルトで Enter を押すだけで大丈夫です。その後、再度 ssh srv.us -R 1:localhost:8000
コマンドを実行します。
クライアント chatx の設定
注意してください、URL の後にスラッシュを付けないでください。
ダイアログボックスでテストします。
ついに vllm で大モデルのデプロイが完了しました。基本的には汎用デプロイチュートリアルといえます。なぜなら、メモリと VRAM が十分であれば、理論的には hf 上のどんな大モデルでもデプロイをサポートするからです。チュートリアルはここで終了です。
約 6 時間かかり、hai を使用して約 3 時間かかりました。1 時間あたり約 3.5。。。最後に書き上げたのが重要で、最後には hai のカスタムマシンを使用せず、無数のトラブルに遭い、ようやく書き終えました。
U_U ~_~ D_D
最後の叫び、私の hai の費用を補填してもらえますか!!!
私の hai の費用を補填してもらえますか!!!
費用を補填してもらえます!!!