m4 mac mini에서 GPT 구동하기 LM Studio

Dec 2, 2024 • 5 min read

안녕하세요 달소입니다.

앞서 로컬 LLM인 Ollama도 소개해드렸는데

expbox님께소 소개해주신 LM Studio도 궁금해서 설치해봤습니다.

선 후기는 Ollama보다 훨씬 간편하고 편하네요... 요걸로 정착하는것으로..

m4 mac mini 기본형 기준으로 14B까지는 어떻게 돌려볼만한것같습니다.

LM Studio란?

간단하게 Local에서 LLM을 실행시킬 수 있게 도와주는 툴입니다.

모델 다운로드부터 구동까지 간편 하게 실행시킬 수 있는게 가장 큰 장점입니다.

다운로드는 아래 링크에서 환경에 맞는 LM Studio 를 설치해주시면됩니다.

튜토리얼 부터 하면 가장 작은 모델인 LLAMA 3.2 3B 모델을 다운로드 받을 수 있게하는데

제일 처음하신다면 한번 해보시는걸 추천드립니다.

여기서 B는 billion 을 의미하고 3B는 30억개의파라미터 8B는 80억개의 파라미터 이렇게 숫자가 늘어납니다.

파라미터가 늘어날수록 VRAM와 RAM 사용량이 늘어나고 리소스를 많이먹기때문에 일반 환경에서는 큰 모델을 사용하기어렵습니다.

다운로드 다되면 Chat으로 넘어갑니다. 상단에 검색을 누르면 모델을 고를 수 있습니다.

좌측 Chats이 채팅창

상단이 모델

채팅입력창

우측 하단에 리소스 사용량입니다.

3B의 경우에는 램을 2.35G 정도 먹네요. 여기서 토큰수를 늘리면 램도 더 먹습니다.

당연히 파라미터가 작을수록 능력(?) 도 떨어지기 때문에 웬만하면 7~8B 이상은 무조건 추천드립니다.

모델 검색도 좌측의 돋보기를 누르면 되고 허깅페이스에있는 모델들이 다 나옵니다.

여기서 입맛에 맞는 모델을 선택해서 다운로드 받아주시면 됩니다.

다운로드 받기전에 다운로드 받을 수 있는 옵션이 많은데

14B 중에서도 양자화를 얼마나 했냐에 따라서 또 용량이 달라집니다.

여기서 초록색 로켓이 무난하게 돌린다는것이고 아예 불가능하면 아래처럼 빨간색으로 됩니다.

다운로드를 누르면 모델을 자동으로 받습니다.

다운로드 받은다음 로드 모델을 하면 모델이 채팅창에 로드됩니다.

그리고 점점 올라가는 램용량 ㅋㅋ

8G 정도 먹네요.

확실히 안정적으로 채팅이 가능합니다.

질문이 이상했네요 ㅋㅋ CPU도 질문하면 200% 정도 먹는다고ㅎ는데

좀 긴것도 넣어봤는데 역시 14b라 잘 대답해주네요.

근데 하고났더니 coder를 잘못 load 했습니다;;

일반 14B로 하니까 조금 더 낫네요.

Advanced Configuration 에서 System Prompt나 샘플링, 셋팅같은걸 추가로 설정할 수 있습니다.

그리고 Chat GPT 처럼 API도 지원하는데

Developer 메뉴에서 Server 형식으로 구동도 시켜줄 수 있습니다.

나중에는 요걸로 릴리즈봇 좀 자동화시켜봐야겠네요.

무튼 꽤 괜찮은 툴을 찾은것 같습니다.