ele

ele

ele

Cloud Studio を通じて vllm で Qwen2.5-1.5B-Instruct 大モデルをデプロイ

Cloud Studio を使用して vllm で Qwen2.5-1.5B-Instruct 大モデルをデプロイする#

ps: 本来筆者は qwq:32b 大モデルをデプロイしようとしましたが、進化版の hai サーバーを使用しても成功しませんでした(VRAM とメモリが不足していたため、すべて失敗に終わりました)。最終的に、テストのために wen2.5-1.5B-Instruct モデルをデプロイすることにしました。

ここでは cloud studio の高性能スペース、ベーシックプランを選択します。

まず、vllm をインストールします。

python -m pip install --upgrade pip

9bRvVs
待機時間が少し長くなるので、皆さんは辛抱強くお待ちください。
vllm をインストールします pip install vllm
by4zzx

インストールが成功したら、コマンド vllm を入力して簡単なテストを行い、インストールが正常かどうか確認します。
MEUVDL
次に pip install modelscope をインストールします。

r31sE0

pip install openai をインストールします。
3iF9rX

pip install tqdmpip install transformers をインストールします。

分割線部分は無視しても構いません、無視してください、実行する必要はありません。
----------------- 分割線開始 -----------------

1. 現在のディレクトリに tmp フォルダを新規作成します mkdir tmp、または直接新規作成します。
新しい model_download_32b.py コードは以下の通りです:

from modelscope import snapshot_download

model_dir = snapshot_download('Qwen/QwQ-32B', cache_dir='./tmp', revision='master')

2. model_download_32b.py を実行すると、qwq32b モデルがダウンロードされます。私のマシンリソースはシンガポールにあるため、速度が遅いです。

python model_download_32b.py

9zc8Oi

少し待つ必要があります、U_U ~~
----------------- 分割線終了 -----------------

マシンのリソースがシンガポールのデータセンターにあるため、国内の魔塔コミュニティのモデルにアクセスする速度が遅いです。
皆さんは git lfs clone を使用して hf のモデルファイルを利用できます。これにより速度が速くなります。

lfs インストールガイド

curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | bash
apt-get install git-lfs
git lfs clone https://huggingface.co/Qwen/Qwen2.5-1.5B-Instruct

これが hf から Qwen2.5-1.5B-Instruct モデルを取得する方法です。
VRAM とメモリの関係で、筆者は複数のモデルをテストしましたが、すべて失敗しました。そのため、Qwen2.5-1.5B-Instruct 大モデルをテストすることにしました。このブログ記事は、hai を使用してデプロイしたマシンについてのものです。残念ながら、上記のモデルはすべてサポートされておらず、無駄になりました。
では、引き続き、ダウンロードが完了するのを待ちましょう。

OpenAI API インターフェースに対応したサーバーを作成します。
vllm の具体的な使い方は公式ドキュメントを参照してください

python -m vllm.entrypoints.openai.api_server \
  --model ./Qwen2.5-1.5B-Instruct \
  --served-model-name Qwen2.5-1.5B \
  --max-model-len=2048 \
  --dtype=half

by4zzx
この画面が表示されれば、デプロイは成功です。
bhAZ1f
https://ohaxxx.ap-singapore.cloudstudio.work/proxy/8000/version という URL を開いて、正常にアクセスできるか確認します。
aGMb7G
次にクライアントの設定を行います。いつものことですが、
どう設定しても効果がないので、試行錯誤するしかありません。
古いコマンド ssh srv.us -R 1:localhost:8000
エラーが出た場合は、指示に従ってキーを作成してください。
ssh-keygen -t ed25519
すべてデフォルトで Enter を押すだけで大丈夫です。その後、再度 ssh srv.us -R 1:localhost:8000 コマンドを実行します。
lkTLIn

クライアント chatx の設定

注意してください、URL の後にスラッシュを付けないでください。
6Otwbs

ダイアログボックスでテストします。
9tH8RJ

ついに vllm で大モデルのデプロイが完了しました。基本的には汎用デプロイチュートリアルといえます。なぜなら、メモリと VRAM が十分であれば、理論的には hf 上のどんな大モデルでもデプロイをサポートするからです。チュートリアルはここで終了です。

約 6 時間かかり、hai を使用して約 3 時間かかりました。1 時間あたり約 3.5。。。最後に書き上げたのが重要で、最後には hai のカスタムマシンを使用せず、無数のトラブルに遭い、ようやく書き終えました。
U_U ~_~ D_D
最後の叫び、私の hai の費用を補填してもらえますか!!!

私の hai の費用を補填してもらえますか!!!

費用を補填してもらえます!!!

読み込み中...
文章は、創作者によって署名され、ブロックチェーンに安全に保存されています。