> ## Documentation Index
> Fetch the complete documentation index at: https://wb-21fd5541-dependabot-github-actions-actions-cache-6.mintlify.site/llms.txt
> Use this file to discover all available pages before exploring further.

# Serverless LoRA Inference 사용

> Serverless Inference에서 파인튜닝된 모델을 서빙할 때 사용할 자체 커스텀 LoRA를 가져오세요.


이 페이지에서는 W\&B Serverless Inference에서 자체 커스텀 LoRA 어댑터를 서빙하는 방법을 설명합니다. 인프라를 직접 관리하지 않고 지원되는 기본 모델의 파인튜닝된 변형을 배포하려는 개발자와 ML 실무자를 위한 문서입니다.

LoRA(Low-Rank Adaptation)를 사용하면 완전히 새로운 모델 전체를 만드는 대신, 경량 어댑터만 트레이닝하고 저장하여 대규모 언어 모델을 사용자 지정할 수 있습니다. 이를 통해 사용자 지정에 드는 크기와 비용을 줄일 수 있습니다.

LoRA를 트레이닝하거나 업로드해 기본 모델에 새로운 기능을 추가할 수 있습니다. 예를 들어 고객 지원, 창의적 글쓰기, 또는 특정 기술 분야에 특화되도록 만들 수 있습니다. 이렇게 하면 모델 전체를 다시 트레이닝하거나 재배포하지 않고도 모델의 동작을 조정할 수 있습니다.

<div id="why-use-serverless-inference-for-loras">
  ## LoRAs에 Serverless Inference를 사용하는 이유
</div>

LoRAs용 Serverless Inference는 다음과 같은 이점을 제공합니다.

* 한 번 업로드하면 서버를 관리할 필요 없이 배포할 수 있습니다.
* 아티팩트 버전 관리를 통해 현재 서비스 중인 버전을 추적할 수 있습니다.
* 전체 모델 가중치 대신 작은 LoRA 파일을 교체해 모델을 업데이트할 수 있습니다.

<div id="workflow">
  ## 워크플로
</div>

커스텀 LoRA를 서빙하는 과정은 크게 세 단계로 이루어집니다:

1. LoRA 가중치를 W\&B 아티팩트로 업로드합니다.
2. API에서 아티팩트 URI를 모델 이름으로 레퍼런스합니다.
3. W\&B가 Inference를 위해 가중치를 동적으로 로드합니다.

다음 예시는 Serverless Inference를 사용해 커스텀 LoRA 모델을 호출하는 방법을 보여줍니다. 다음 섹션에서는 여기서 레퍼런스한 LoRA를 업로드하거나 학습하는 방법을 설명합니다.

```python theme={null}
from openai import OpenAI

model_name = f"wandb-artifact:///{WB_TEAM}/{WB_PROJECT}/qwen_lora:latest"

client = OpenAI(
    base_url="https://api.inference.wandb.ai/v1",
    api_key=API_KEY,
    project=f"{WB_TEAM}/{WB_PROJECT}",
)

resp = client.chat.completions.create(
    model=model_name,
    messages=[{"role": "user", "content": "Say 'Hello World!'"}],
)
print(resp.choices[0].message.content)
```

LoRA를 생성해 아티팩트로 W\&B에 업로드하는 방법을 대화형으로 보여주는 이 [시작하기 노트북](https://wandb.me/lora_nb)을 참조하세요.

<div id="prerequisites">
  ## 사전 요구 사항
</div>

다음이 필요합니다:

* [W\&B API 키](/ko/models/integrations/add-wandb-to-any-library#create-an-api-key).
* [W\&B 프로젝트](/ko/models/track/project-page).
* `openai` 및 `wandb` 패키지가 설치된 Python 3.8+: `pip install wandb openai`.

<div id="add-and-use-loras">
  ## LoRA를 추가하고 사용하기
</div>

두 가지 방법으로 W\&B 계정에 LoRA를 추가하고 사용을 시작할 수 있습니다. LoRA를 트레이닝한 위치에 맞는 탭을 선택하세요.

<Tabs>
  <Tab title="다른 곳에서 트레이닝한 LoRA 업로드">
    직접 만든 커스텀 LoRA 디렉터리를 W\&B 아티팩트로 업로드합니다. LoRA를 다른 환경(로컬 환경, cloud provider 또는 파트너 서비스)에서 트레이닝한 경우에 적합합니다.

    이 Python 코드는 로컬에 저장된 LoRA 가중치를 버전 관리되는 W\&B 아티팩트로 업로드합니다. 필수 메타데이터(기본 모델 및 storage region)가 포함된 `lora` 유형 아티팩트를 생성하고, 로컬 디렉터리의 LoRA 파일을 추가한 다음, Inference에 사용할 수 있도록 W\&B 프로젝트에 기록합니다.

    ```python theme={null}
    import wandb

    run = wandb.init(entity=WB_TEAM, project=WB_PROJECT)

    artifact = wandb.Artifact(
        "qwen_lora",
        type="lora",
        metadata={"wandb.base_model": "OpenPipe/Qwen3-14B-Instruct"},
        storage_region="coreweave-us",
    )

    artifact.add_dir("[PATH-TO-LORA-WEIGHTS]")
    run.log_artifact(artifact)
    ```

    ### 주요 요구 사항

    자체 LoRA를 Inference에서 사용하려면 다음을 확인하세요.

    * LoRA는 [지원되는 기본 모델](#supported-base-models) 섹션에 나열된 모델 중 하나로 트레이닝되어 있어야 합니다.
    * LoRA는 PEFT 형식으로 저장되어 있어야 하며, W\&B 계정에 `lora` 유형 아티팩트로 존재해야 합니다.
    * 지연 시간을 최소화하려면 LoRA가 `storage_region="coreweave-us"`에 저장되어 있어야 합니다.
    * 업로드할 때 트레이닝에 사용한 기본 모델 이름(예: `meta-llama/Llama-3.1-8B-Instruct`)을 포함하세요. 그래야 W\&B가 올바른 모델과 함께 LoRA를 로드할 수 있습니다.
  </Tab>

  <Tab title="W&B로 새 LoRA 트레이닝">
    [Serverless RL](/ko/serverless-training)로 새 LoRA를 트레이닝합니다. LoRA는 자동으로 W\&B 아티팩트가 되므로 바로 사용할 수 있습니다.

    자체 LoRA를 트레이닝하는 방법에 대한 자세한 내용은 [OpenPipe's ART quickstart](https://art.openpipe.ai/getting-started/quick-start)를 참조하세요.

    트레이닝이 완료되면 LoRA를 아티팩트로 바로 사용할 수 있습니다.
  </Tab>
</Tabs>

LoRA를 아티팩트로 프로젝트에 추가한 후에는 어떤 방법을 사용했는지와 관계없이, 모델 이름으로 해당 URI를 전달해 모든 Inference call에서 이를 참조할 수 있습니다:

```python theme={null}
# 트레이닝이 완료되면 아티팩트를 바로 사용하세요
model_name = f"wandb-artifact:///{WB_TEAM}/{WB_PROJECT}/your_trained_lora:latest"
```

<div id="supported-base-models">
  ## 지원되는 기본 모델
</div>

LoRA는 다음 기본 모델 중 하나를 기반으로 학습되어야 합니다. 추론 시 W\&B가 어댑터를 올바른 기본 모델과 연결할 수 있도록 `wandb.base_model`을 설정할 때는 정확한 모델 ID 문자열을 사용하세요.

| API 사용 시 모델 ID                      | 최대 LoRA 랭크 |
| ----------------------------------- | ---------- |
| `meta-llama/Llama-3.1-70B-Instruct` | 16         |
| `meta-llama/Llama-3.1-8B-Instruct`  | 16         |
| `openai/gpt-oss-120b`               | 64         |
| `OpenPipe/Qwen3-14B-Instruct`       | 16         |
| `Qwen/Qwen3.6-27B`                  | 16         |
| `Qwen/Qwen3-30B-A3B-Instruct-2507`  | 16         |

<div id="pricing">
  ## 가격
</div>

상시 실행 서버나 전용 GPU 인스턴스에 비용을 지불하는 대신, 저장소와 실행한 Inference에 대해서만 비용을 지불하면 됩니다. 가격은 두 가지 구성 요소로 이루어집니다:

* [**저장소**](https://wandb.ai/site/pricing/): LoRA 가중치를 보관하는 저장소에 대해 요금이 청구됩니다.
* **Inference 사용**: LoRA Artifacts를 사용하는 call에는 [표준 모델 Inference](/ko/inference/usage-limits#account-tiers-and-default-usage-caps)와 동일한 요금이 청구됩니다.