IT용어위키


Ollama (소프트웨어)

Ollama는 로컬에서 대형 언어 모델(LLM)을 쉽게 실행·관리할 수 있도록 설계된 오픈소스 커맨드라인 도구이자 실행 엔진이다. macOS, 리눅스, 윈도우 환경에서 CPU·GPU를 사용해 양자화된 LLM 모델을 다운로드하고 실행할 수 있다.

개요

Ollama는 모델 가중치(예: GGUF 형식)를 ollama pull <모델명> 명령으로 로컬에 가져온 후, ollama run <모델명> 명령으로 실행 가능한 환경을 제공한다. 백그라운드 서버가 자동으로 실행되며, REST API를 통해 제어할 수 있다.[1]

설치 방법

macOS

brew install ollama

Ubuntu/Linux

curl -fsSL https://ollama.com/install.sh | sh

Windows

공식 웹사이트에서 .exe 설치 파일 다운로드 후 실행

주요 기능

  • 간편한 모델 관리: pull, run, list, rm, cp, serve 등의 직관적인 명령어 지원
  • 양자화된 모델 지원: GGUF 형식 기반 모델 실행
  • REST API 제공: http://localhost:11434 에서 HTTP 요청으로 생성 및 채팅 가능
  • 멀티 모델 실행: LLaMA3, Mistral, Qwen, Gemma 등 다양한 오픈소스 모델 지원
  • 모델 맞춤 설정: Modelfile을 통해 프롬프트, 파라미터 설정 가능
  • 크로스 플랫폼: macOS, Linux, Windows, Docker 환경에서 실행 가능

사용 예시

모델 다운로드

ollama pull llama3

모델 실행

ollama run llama3 "Hello!"

REST API 호출

curl -X POST http://localhost:11434/api/generate \ -d '{"model":"llama3","prompt":"Why is the sky blue?"}'

Modelfile 예시

FROM llama3 PARAMETER temperature 1 SYSTEM """You are Mario from Super Mario Bros."""

ollama create mario -f Modelfileollama run mario

장단점

장점

  • 로컬 자율 실행: 인터넷 연결 없이 LLM 실행 가능
  • 양자화 모델 지원: 저장 공간 절약 및 추론 효율 향상
  • 간단한 CLI와 직관적 인터페이스
  • REST API 제공: 외부 연동 및 자동화에 유리

단점

  • 서버 항상 실행: 백그라운드 데몬 형태로 동작
  • 모델 크기 큼: 수 기가바이트 이상 다운로드 필요
  • 지원 도구 한정: llama.cpp 생태계 중심

통합 생태계

  • 프로그래밍 인터페이스: Python(ollama-python), JavaScript(ollama-js)
  • LangChain 등 에이전트 프레임워크와 연동 가능
  • GUI 도구 연계: SwiftChat, Enchanted, LibreChat, Chatbox 등

같이 보기

참고 문헌

  • Ollama 공식 문서. https://ollama.com
  • GitHub - ollama/ollama
  • LangChain 공식 통합 가이드

각주

  1. Ollama 공식 문서. https://ollama.com

  출처: IT위키 (IT위키에서 최신 문서 보기)

  * 본 페이지는 IT Wiki에서 미러링된 페이지입니다. 일부 오류나 표현의 누락이 있을 수 있습니다. 원본 문서는 IT Wiki에서 확인하세요!