상단

    LLM


    Large Language Model (거대 언어 모델)

    인간의 언어를 이해하고 생성하도록 훈련된 인공지능 모델

     

    Transfer 모델


    Transformer를 사용

    Transformer

    출처: Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, and Illia Polosukhin. 2017. Attention is all you need. In Advances in Neural Information Processing Systems, pages 6000–6010

     
     

    가계도

    출처: https://m.hanbit.co.kr/channel/category/category_view.html?cms_code=CMS5215583920

     

    Pathways


    • 대규모 task 처리시 문제점

      • Model Parallelism

        • Model 사이즈가 커서 하나의 GPU 메모리에 다 들어가지 않는 경우, 여러 GPU에 모델 파라미터를 나누어 연산

      • Data Parallelism

        • Weight parameter를 업데이트할 때마다 여러 GPU가 학습한 결과를 종합한 후 다시 나누는 연산

      • Tensor Parallelism

        • 대규모 행렬을 여러 GPU로 나누어 연산한 후 그 결과값을 concat

      • Pipeline Parallelism

        • 여러 GPU가 활성화되지 않는 bubble 존재

        • Higher memory bandwidth를 요구

    • Asynchronous distributed dataflow를 사용하여 여러개의 GPU에서 동시에 작업을 수행

      • 2019년 7월 공개

      • 높은 처리량과 낮은 대기 시간 제공

      • Client-Server Architecture 사용

        • System managed Islands of compute

        • 하나의 기계 학습 모델로 수백 ~ 100만 종류의 테스트 처리

    • Parameters의 수가 많을 수록 성능이 좋아짐

    • 참고 문헌

     

    Pathways

    약 46.2%의 학습 효율이 올라감

     

    Pathways

    출처: Pathways: Asynchronous Distributed Dataflow for ML 논문 정리

     

    RAG


    RAG(Retrieval-Augmented Generation, 검색 증강 생성)

    CoT(Chain of Thought) : 생각의 흐름을 중간에 삽입

    • 정보 검색 시스템 + LLM

     

    방법론

    • 지식 DB 구축

    • RAG Architecture 개발

      • Open Search

      • sLLM

    • 모델 평가

      • 처리량

      • 응답속도

      • 완결성

      • 정확도

     

    Transfer Learning


    Pre-trained Model : 언어를 학습한 모델

    Transfer Learning : 전이 학습. 용도에 맞도록 LLM을 재학습 시키는 과정

     

    PEFT

    Parameter Efficient Fine Tuning

     

    장점

    • 필요한 계산량의 감소: 모델 크기를 줄이고, 중복된 파라미터를 제거하며 정밀도를 낮춤으로써 연산량을 줄인다.

    • 추론 속도의 향상: 모델 크기가 작아지고 계산 복잡도가 줄어듬에 따라 추론 속도가 감소하여 실시간 애플리케이션에 적합해진다.

    • 리소스가 제한된 디바이스에서의 배포 개선: 모바일 디바이스나 엣지 디바이스와 같이 제한적인 시소스에의 배포가 용이해진다.

    • 비용 절감: fine-tuning 및 추론에 드는 모든 비용이 절감된다

    • 선응 유지 혹은 향상: 모델 크기가 줄어들면서도 다운스트림 태스크에의 성능을 유지하거나 향상하는 것이 가능하다.

     

    Knowledge distillation

    지식 증류

    • 지식을 크고 성과가 좋은 모델(teacher)에서 더 작은 모델(student)로 전달

     

    Pruning

    모델 가지치기

    • 사전 학습된 모델에서 불필요한 가중치나 연결을 제거

     

    Quantization

    양자화

    • 모델 매개변수(가중치)의 정밀도를 낮춰 메모리 및 계산 요구 사항을 낮추는 기술

      • 32bits 부동소수점 : 487MB

      • 8bits 정수 : 168MB

     

    Low Rank Factorization

    • 사전학습된 모델의 가중치 행렬을 row-rank 행렬로 근사화

     

    Knowledge Injection

    지식 주입

    • 원래 모델의 파라미터를 수정하지 않고, 태스크 별 정보를 주입함으로써 특정 태스크에 대한 사전 학습된 모델의 성능을 향상

     

    Adapter Modules

    • 원래의 파라미터를 수정하지 않고 특정 작업을 위해 사전 학습된 모델에 추가하는 경량 모듈

    • Trnasformer Layer 사이에 Adapter Layer만 추가하여 추가한 layer만 학습

     

    LoRA

    Low Rank Adaptation

    • Low-rank factorization 방법을 활용하여 LLM의 linear layer에 대한 업데이트를 근사화

    • 훈련 가능한 매개 변수의 수를 크게 줄임

    • 모델의 최종 성능에 거의 영향을 주지 않으면서 훈련 속도를 높임

    • 500만원

      • 5만건, 100MB

    LoRA

    • Low Rank 행렬 : A, B

     

    QLoRA

    • LoRA에 4bits (NormalFloat) Quantization(양자화) 기법 적용

    • Library / Tool

      • Prompt

      • PEFT : Parameter Efficient Fine Tuning

      • LoRA : Low Rank Adaptation

      • 4bit : Quantization

        • Linux만 지원

      • TRL : Transformer Reinforcement Learning

      • SFT Trainer : Supervised Find-tuning Script by HF

    • 참고 문헌

     

    Prompt Tuning

    • LLM이 특정 태스크를 수행하도록 하기 위해 해당 태스크를 자연어로 설명한 '프롬프트'를 입력한 후 입력 데이터를 붙여서 넣는 Prompt Engineering 방식

     

    Prefix Tuning

    • Prompt Tuning과 유사한 접근 방식

    • 입력 레이어에만 프롬프트 텐서를 추가하는 대신 모든 레이어의 hidden state에 학습 가능한 파라미터를 추가

     
    ModelMethodParameters
    GPT-3Fine Tuning175,255.8M
    GPT-3Prompt Tuning3.2M
    GPT-3Prefix Tuning20.2M
    GPT-3LoRA4.7M
     

    방법론

    • 학습 데이터 구축

    • 모델 학습/개발

    • 모델 평가

      • Loss

      • 처리량

      • 응답속도

      • 완결성

      • 정확도

     

    한계


    • 학습 데이터 부족과 저작권/개인정보보호 문제

      • 업스테이지, 1T 클럽 발족

        • 데이터를 생성, 개발하는 파트너사

        • API 사용료 할인과 수익 공유

    • 고비용

      • LLM 구축 비용 : 훈련 비용 + 유지 비용

        • GPT-3의 초기 훈련 비용 : 1,000만 달러 (약 132억)

        • sLLM (소형 언어 모델) : 매개 변수가 수십억에서 수백억

          • On-Device AI : 모바일과 노트북에서 활용 가능

          • MetaAI, LLaMA(Large Language Model Mode AI) : 최소 70억 매개 변수

            • GPT 3.5와 비슷한 성능

          • Databrocks, Dolly (sLLM) from GPT-J : 최소 60억 매개 변수

      • Fine-tuning 비용

      • LLM 운영 비용

        • GPT-4 : 1,000 프롬프크 토큰당 0.03달러(약 39.3원))

    • Halluciation (환각)

      • 인과 관계의 오류, 정보의 과장 등

      • 교육 데이터의 다양성 개선, 내재된 편향 제거, 더 나은 정규화 기술 사용, 적대적 교육 및 강화 학습 사용 등

    • 보안

      • On-Premise (B2B 모델)

    • NLP만을 위한 서비스

    전망


    • 언어 모델

      • Chat Bot

      • Search

      • 번역

    • Image

      • 이미지 생성/변환

    • Code

      • 코드 생성

    • 관리와 제어

      • 로봇에 적용

     

    LLM 구현과 서비스


     

    Platform

    • Kaggle

    • Hugging Face

    • NeMo

    • Vertex

     

    Open Source

     

    대한민국

    • 동향

      • 보안 강화, B2B 모델, On-Premise

        • 자체 사용

      • 중소형 모델 (sLLM)

      • 한국어 전용 모델

      • 선점 비즈니스 : 후발 주자는 ROI를 맞추기 어렵다

    • 2023.07 : LG, EXAONE 2.0 from Decoder

      • 상위 1% 전문가 AI

      • 한국어와 영어 지원

    • 2023.08 : Naver, HyperCLOVA X (Open API 제공) from Decoder

      • B2B용으로 자체 데이터센터에서 운영 가능

      • Naver, CLOVA X (챗봇, 유료)

      • Naver, Cue: (검색, 유료), 내부용으로 출시 직전

      • Naver, CLOVA Studio

        • LLM을 활용한 AI 개발 도구

        • 2023년 06월 기준 700여 기업이 유료로 사용 중

    • 2023.08 : 코난테크놀로지, 코난 LLM (B2B)

      • 지분 20.77%를 SKT가 보유

      • 온프라미스

    • 2023.08 : 엔씨소프트, VARCO(Via AI, Realize your Creativity and Orginality) LLM

      • Foundataion, Instruction, Dialogue, Generative models

      • 한국어 전용. 영어 지원 예정

      • 게임 개발에 특화된 sLLM

      • GCP(Google Cloud)가 지원

    • 업스테이지, 한국어 데이터 확보와 저작권 해결 추진

    • 2023.09 : 솔트룩스, LUXIA

      • 공공

      • 법률, 특허, 금융, 교육 등 전문 분야에 최적화

      • 저작권 이슈 최소화

    • 리벨리온

      • AI 반도체 팹리스(설계 전문) 스타트업

      • 삼성전자와 차세대 AI 반도체를 공동 개발 진행 (2023.10.05)

      • HBM3E와 연결

      • 미국 엔비디아 설계, TSMC 생산이 AI 반도체 시장의 90% 점유

    • 2023.10 예정 : KT, MI:DEUM(믿음) from Encoder, Decoder

      • 로봇, 헬스케어, 교육 등

      • 업스테이지(협업)와 콴다에 200억 규모의 지분 투자

    • 2023년 하반기 : 카카오브레인, KoGPT 2.0, 코챗 GPT

      • B2C 서비스 중심 (무료)

      • 카카오페이, 금융비서

    • SKT, A.(에이닷) (B2B)

      • 대화와 챗봇

      • 코난테크놀러지와 협업

      • 에이닷추진단을 'AI서비스사업부'로 확대 개편

      • '글로벌AI테크사업부' 신설

      • LLM 전문 올거나이즈(일본에 상장 추진)에 54억 투자

    • 삼성전자

      • Gauss : 생성 AI (2023.11.08)

      • 갤럭시 AI : 실시간 통역 통화 기능 탑제 추진 예정

    • 2023년 내 : SDS, 생성 AI

    • 쏘카, 모빌리티 사업에 특화된 모델 추진 중

    • 포티투마루, LLM42

    • JLK

    • 이스트소프트

    • 셀렉트스타

    • 스냅태그

    • PCN, AnswerNI(Answer, Not only Information앤서니)

      • 개발 마무리 단계 (2023.11.09)

     

    세계 시장

    • 동향

      • 자체 전문 AI 칩을 설계하고 사용

    • OpenAI, ChatGPT

      • 2022.11.30 : ChatGPT 출시

      • 2023년 초에 마이크로소프트가 100억 달러 투자

      • 2023.02 : 유료 구독 서비스

      • 2023.03.14 : ChatGPT-4 출시

        • 1조 7000억 매개 변수

      • 2023.08 : 기업용 ChatGPT 엔터프라이즈

      • 2023.11.18 : ChatGPT-4 터보, GPT Store, GPT Builder, Assistants API

        • 벡터 데이터베이스가 더이상 필요 없음

      • AGI(일반인공지능)을 위한 학습 데이터셋 구축 진행 중 (2023.11.09)

        • 다양한 외국어

        • 비디오

        • 산업별 전문 분야 등

        • 업스테이지의 1T 클럽 죽이기

      • 매출

        • 2022년 : 2,800만 달러(약 376억원)

        • 2023년 : 13억 달러(약 1조 7,485억원) 예상

    • Microsoft

      • 13억 매개변수인 오픈소스 LLM 준비 중

    • Google, 바드

      • 2023.05.10 : PaLM2

      • 과학연구를 위한 LLM 개발 추진

        • 하루 1만건씩 쏟아지는 전세계 논문 처리

        • "퓨처 하우스"라는 비영리 단체 설립

          • 5년간 2000만 달러(약 260억) 지원

          • 생물학이 첫 타겟

        • LG, EXAONE 2.0 죽이기

    • Amazon

      • 2조 매개 변수를 가진 LLM 훈련중. 빠르면 2023.12 발표

    • 앤트로픽, 클로드/신세시아

      • 아마존이 40억 달러 투자 약속

    • 알리바바

      • 오픈소스 LLM 공개 방침 (2023.11.10)

    • 바이촨

      • 알리바바, 텐세트로부터 3억 달러(약 4,000억원) 투자 유치

    국제표준

    • ITU-T (국제전기통신연합 전기통신표준화부문)

      • SG(연구반) 11에서 AI Full Stack 구조와 연동 규격을 국제 표준으로 승인 (2023.10.16 ~ 20)

        • SKT에서 제시

        • AI 반도체, AI 저장장치, AI 학습 및 모델 최적화, AI 응용

     

    시장 규모

    • 시장조사기관 스태디스타

      • 2022년 : 1,423억 달러

      • 2030년 : 18,500억 달러

    기타

     

    AI regulation


    • 대한민국 < 미국

      • 인공지능 관련 주요 법안 발의 현황 및 정책 동향, 2023.06.29

      • 2020.07.13 : 인공지능 기본법 (인공지능 산업 육성 및 신뢰 기반 조성에 관한 법률) 발의

      • 자율 규제 가이드라인 (2023.08) 예정

        • 정부 주도하에 업체들이 자율 규제안을 내놓는 방식

        • AI 산업 보호에 무게

      • 개인정보보호위원회

        • AI 프라이버시 전담팀 신설 (2023.10.06)

          • 10월부터 "사전적정성 검토제"를 시범 도입

          • 사업자가 초기 단계부터 개인정보 보호 방안을 함께 모색하고, 경우에 따라 복잡한 행정절차도 면제

      • 2023.11 : AI 분야별 가이드라인 마련 예정

      • 민간 자율 신뢰성 검/인증 추진 계획

        • 2023.12 시범 인증 추진

    AI Roadmap

    출처: 2020년 과학기술정보통신부에서 발표한 ''인공지능 시대를 준비하는 법/제도/규제 정비 로드맵"의 개요

    • EU

      • DMA(Digital Market Act, 디지털 시장법)

        • 목적: 빅테크 독점 방지

        • 2022.11.01 발효

        • 2023.05.02 시행

        • 2023.09.03 게이트키퍼 선정

          • 게이트키퍼 : 시장을 독점할 가능성이 있는 대기업

        • 2024.03.06 게이트키퍼 의무사항 준수 시한

        • 처벌 규정

          • 전 세계 매출의 10% 벌금

          • 반복적 위반시 최대 20% 벌금

      • DSA(Digital Service Act, 디지털 서비스법)

        • 목적: 소셜 미디어 플랫폼 규제

        • 2022.11.16 발효

        • 2023.08.25 시행

        • AI로 생성된 콘텐츠에 표시를 붙이고 악용되지 않도록 안전 장치를 마련

        • 처벌 규정

          • 최고 글로벌 매출의 6%에 해당하는 벌금

          • 서비스 정지

      • AIA(AI Act, Artificial Intelligence Act, 인공지능법)

        • 목적: 인공지능 규제

        • 2023.06.14 : 가결

        • 2023년내에 최종안을 만들 예정

        • 2026년 시행 예정

        • AI 시스템의 위험도에 따라 4등급으로 분류하고 허용할 수 없는 위험 AI는 원칙적으로 금지

        • 처벌 규정

          • 글로벌 매출의 6%에 해당하는 벌금 (최대 3,300만 달러 (약 446억원))

    • 중국

      • 추천 알고리즘에 대한 규정 (2021/2022)

      • 합성 콘텐츠에 대한 규제 (2022)

      • 생성형 AI서비스 잠정 괸리방법 (2023)

        • 목적: 콘텐트 관리를 중심으로 사회주의적 가치를 구현

        • 생성 AI 서비스는 당국의 허가를 받아야 한다 (라이선스 제도)

        • 2023.07.14 : 발표

        • 2023.08.15 : 시행

    • 미국

      • Algorithmic Accountability Act(알고리즘 책임법) 표류 중

      • AI 권리 장전 (2022) 발표

      • NIST(미국 국립표준기술원)의 AI위험 관리 프레임워크 (2023) 발표

      • AI 정책 및 거버넌스를 위한 프레임워크 (2023.06) 논의

      • 행정부의 행정 명령

      • 백악관의 보고서와 지침 : AI 권리 장전 등

      • 주별로 다른 regulation(규제) 주의 필요

    • 영국

      • 자유방임적 입장

      • 2022.03 : 인공지능 규제 백서 발간

      • 2023년 : AI 및 데이터 보호 가이드 개정

    • ASEAN(동남아시아국가연합)

      • AI 윤리 및 거버너스 가이드 초안 작성 중

    • 일본

    • 홍콩

    • UN

    • 표준

      • ISO(국제표준화기구)

        • AI 위험 관리, 영향 평가와 개발 관리 방법에 있어 기업이 수행해야 하는 방법에 대한 표준 개발 완료

     

    참고 문헌

     

    인공지능 운영 환경


     

    운영 환경


    NVIDIA Jetson

    • NVIDIA Jetson AGX Orin series

      • NVIDIA Jetson AGX Orin developer kit

    • NVIDIA Jetson Orin NX series

    • NVIDIA Jetson Orin Nano 8GB

      • NVIDIA Jetson Orin developer kit

      • NVIDIA Jetson SDK

    • NVIDIA Isaac 로봇 플랫폼

      • NVIDIA Isaac ROS DP3

     

    NVIDIA Jetson Orin developer kit

    구분상세
    SOC
    CPU6 cores Arm Cortex-A78AE v8.2, 64bits
    GPUNVIDIA Ampere architecture GPU
    6 arm cpu, 32 Tensor cores, 1024 CUDA cores
    Memory8GB 128bits LPDDR5 (초당 60GB)
    StorageMicro SD 슬롯 : 최대 SDR104 모드 UHS-1 카드
    M.2 Key M : NVMe
    M.2 Key M : 3세대 PCIe 4개
    M.2 Key M : 3세대 PCIe 2개
    M.2 Key E : PCIe 1개, USB 2.0, UART, I2S, I2C
    NetworkGbE 커넥터 1개
    Display디스플레이포트 1.2 (+MST)
    USBA 타입: 4 개 USB 3.2 2세대
    C타입: 디버그 및 디바이스 모드용 1개
    Camera2 * MIPI CSI-2 22핀 카메라 커넥
    전력7~15W
    기타40핀 확장 헤더(UART, SPI, I2S, I2C, GPIO)
    12핀 버튼 헤더
    4핀 팬 헤더 DC 전원 잭
    크기100 mm x 79 mm x 21 mm
    (피트, 캐리어 보드, 모듈 및 열 솔루션 포함 높이)
     

    LLaMA 2


     

    MetaAI, LLaMA(Large Language Model Mode AI) 2 사이트에서 이용 신청과 라이선스 동의

    • 모델 접근 신청

    • 접근 허가 메일 확인

    • 받은 모델 다운로드 URL을 사용하여 다운로드

     

    다운로드

    #--- In MacBook
    brew  install  wget
    brew  install  zip
    
    #--- In Windows
    #--- wget 설치 : https://uhhyunjoo.tistory.com/65
    #---     https://eternallybored.org/misc/wget/
    #---     wget -V
    #--- md4sum 설치
    #---     https://gnuwin32.sourceforge.net/packages/coreutils.htm
    
    cd  /work
    git  clone  https://github.com/facebookresearch/llama.git
    git  clone  https://github.com/facebookresearch/codellama.git
    git  clone  https://github.com/facebookresearch/llama-recipes.git
    
    cd  /work/llama
    ./download.sh
    
    cd  /work/codellama
    ./download.sh
     

    작업 환경 구성

    cd  llama
    pip  install  -e  .                     #--- setup.py 실행
    
    # pip  freeze  >  requirements.txt
    pip  install  -r  requirements.txt
    
    
    
    pip  install  -q  transformers  accelerate  sentencepiece
    huggingface-cli  login
    # Hugging Face Access Token이 필요함
    #     https://yunwoong.tistory.com/225
     

    Sample 프로그램

    from transformers import AutoTokenizer, AutoModelForCausalLM, TextGenerationPipeline
    import torch
    
    MODEL_NAME = "meta-llama/Llama-2-7b-chat-hf"
    
    tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, use_auth_token=True)
    language_model = AutoModelForCausalLM.from_pretrained(MODEL_NAME)
    
    text_generation_pipeline = TextGenerationPipeline(
        model=language_model,
        tokenizer=tokenizer,
        torch_dtype=torch.float16,
        device=0,
    )
    
    def generate_text(prompt, max_length=200):
        generated_sequences = text_generation_pipeline(
            prompt,
            do_sample=True,
            top_k=10,
            num_return_sequences=1,
            eos_token_id=tokenizer.eos_token_id,
            max_length=max_length,
        )
    
        return generated_sequences[0]["generated_text"].replace(prompt, "")
    
    input_prompt = 'Do you know Mark Zuckerberg?'
    recommendations = generate_text(input_prompt)
    
    print("User Input:", input_prompt)
    print("Model Recommendations:", recommendations)
     

    LLaMA2 with Lllama


    MaxBook 환경에서 동작

    ollama  pull  llama2                    #--- 7B model
    ollama  pull  llama2:13B                #--- 13B model
    
    ollama  run  llama2
     

    Data 현황


     

    AI 반도체


    • 삼성전자

      • HBM (고대역폭 메모리)

      • AGI 컴퓨팅 랩 조직 신설 in 실리콘 벨리

      • AI-RAN 얼라이언스 참여

        • AI 기반 6G 기술 주도를 위해

    • Open AI

      • 7조 달러 규모의 투자 유치 중

    • Microsoft

    • 소프트뱅크

      • Lzanagi project : 1000억 달러 규모의 반도체 펀드 조성 중

      • 반도체 설계회사인 ARM 지원

    • 화웨이

      • 어센드 시리즈 칩 개발

     

    AI 응용과 적용


     

    AI 응용


     

    AI 적용


    • 콜센터

    • 신문사

      • 기사 작성

    • 제조 기업

      • 데이터를 수집/저장, 분석/활용하는 사업을 진행 중

    • 병원

    최종 수정일: 2025-01-24 15:51:37

    이전글 :
    다음글 :