Cloud Studio を通じて vllm で Qwen2.5-1.5B-Instruct 大モデルをデプロイ

Cloud Studio を使用して vllm で Qwen2.5-1.5B-Instruct 大モデルをデプロイする#

ps: 本来筆者は qwq:32b 大モデルをデプロイしようとしましたが、進化版の hai サーバーを使用しても成功しませんでした（VRAM とメモリが不足していたため、すべて失敗に終わりました）。最終的に、テストのために wen2.5-1.5B-Instruct モデルをデプロイすることにしました。

ここでは cloud studio の高性能スペース、ベーシックプランを選択します。

まず、vllm をインストールします。

python -m pip install --upgrade pip

9bRvVs
待機時間が少し長くなるので、皆さんは辛抱強くお待ちください。
vllm をインストールします pip install vllm
by4zzx

インストールが成功したら、コマンド vllm を入力して簡単なテストを行い、インストールが正常かどうか確認します。
MEUVDL
~~次に pip install modelscope をインストールします。~~

r31sE0

pip install openai をインストールします。
3iF9rX

pip install tqdm と pip install transformers をインストールします。

分割線部分は無視しても構いません、無視してください、実行する必要はありません。
----------------- 分割線開始 -----------------

1. 現在のディレクトリに tmp フォルダを新規作成します mkdir tmp、または直接新規作成します。
新しい model_download_32b.py コードは以下の通りです：

from modelscope import snapshot_download

model_dir = snapshot_download('Qwen/QwQ-32B', cache_dir='./tmp', revision='master')

~~2. model_download_32b.py を実行すると、qwq32b モデルがダウンロードされます。私のマシンリソースはシンガポールにあるため、速度が遅いです。~~

python model_download_32b.py

9zc8Oi

少し待つ必要があります、U_U ~~
----------------- 分割線終了 -----------------

マシンのリソースがシンガポールのデータセンターにあるため、国内の魔塔コミュニティのモデルにアクセスする速度が遅いです。
皆さんは git lfs clone を使用して hf のモデルファイルを利用できます。これにより速度が速くなります。

lfs インストールガイド

curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | bash
apt-get install git-lfs

git lfs clone https://huggingface.co/Qwen/Qwen2.5-1.5B-Instruct

これが hf から Qwen2.5-1.5B-Instruct モデルを取得する方法です。
VRAM とメモリの関係で、筆者は複数のモデルをテストしましたが、すべて失敗しました。そのため、Qwen2.5-1.5B-Instruct 大モデルをテストすることにしました。このブログ記事は、hai を使用してデプロイしたマシンについてのものです。残念ながら、上記のモデルはすべてサポートされておらず、無駄になりました。
では、引き続き、ダウンロードが完了するのを待ちましょう。

OpenAI API インターフェースに対応したサーバーを作成します。
vllm の具体的な使い方は公式ドキュメントを参照してください

python -m vllm.entrypoints.openai.api_server \
  --model ./Qwen2.5-1.5B-Instruct \
  --served-model-name Qwen2.5-1.5B \
  --max-model-len=2048 \
  --dtype=half

by4zzx
この画面が表示されれば、デプロイは成功です。
bhAZ1f
https://ohaxxx.ap-singapore.cloudstudio.work/proxy/8000/version という URL を開いて、正常にアクセスできるか確認します。
aGMb7G
次にクライアントの設定を行います。いつものことですが、
どう設定しても効果がないので、試行錯誤するしかありません。
古いコマンド ssh srv.us -R 1:localhost:8000
エラーが出た場合は、指示に従ってキーを作成してください。
ssh-keygen -t ed25519
すべてデフォルトで Enter を押すだけで大丈夫です。その後、再度 ssh srv.us -R 1:localhost:8000 コマンドを実行します。
lkTLIn

クライアント chatx の設定

注意してください、URL の後にスラッシュを付けないでください。

ダイアログボックスでテストします。
9tH8RJ

ついに vllm で大モデルのデプロイが完了しました。基本的には汎用デプロイチュートリアルといえます。なぜなら、メモリと VRAM が十分であれば、理論的には hf 上のどんな大モデルでもデプロイをサポートするからです。チュートリアルはここで終了です。

約 6 時間かかり、hai を使用して約 3 時間かかりました。1 時間あたり約 3.5。。。最後に書き上げたのが重要で、最後には hai のカスタムマシンを使用せず、無数のトラブルに遭い、ようやく書き終えました。
U_U ~_~ D_D
最後の叫び、私の hai の費用を補填してもらえますか！！！

私の hai の費用を補填してもらえますか！！！

費用を補填してもらえます！！！