Transformers documentation
CPU에서 효율적인 추론하기
시작하기
Base classes
추론(Inference)
학습(Training)
양자화(Quantization)
배포환경에 내보내기
(번역중) 개발자 가이드
(번역중) 경량화 메소드
(번역중) Getting startedbitsandbytesGPTQAWQ(번역중) AQLM(번역중) VPTQQuantoQuarkEETQ(번역중) HQQ(번역중) Optimum(번역중) Contribute new quantization method
(번역중) 성능 및 확장성
(번역중) QuantizationLLM 추론 최적화어텐션 행렬 캐싱 디버깅(번역중) Optimize inference using `torch.compile()`
(번역중) 효율적인 학습 기술들
(번역중) Methods and tools for efficient training on a single GPU다중 GPU에서 훈련 진행하기DeepSpeed완전 분할 데이터 병렬 처리CPU에서 훈련다중 CPU에서 훈련하기Apple 실리콘에서 PyTorch 학습훈련용 사용자 맞춤형 하드웨어Trainer API를 사용한 하이퍼파라미터 탐색
추론 최적화하기
리소스
🤗 Transformers에 기여하는 방법🤗 Transformers에 새로운 모델을 추가하는 방법어떻게 🤗 Transformers에 파이프라인을 추가하나요?테스트Pull Request에 대한 검사
기여하기
API
You are viewing v5.5.2 version. A newer version v5.8.1 is available.
CPU에서 효율적인 추론하기
이 가이드는 CPU에서 대규모 모델을 효율적으로 추론하는 방법에 중점을 두고 있습니다.
JIT 모드와 함께하는 IPEX 그래프 최적화
Intel® Extension for PyTorch(IPEX)는 Transformers 계열 모델의 jit 모드에서 추가적인 최적화를 제공합니다. jit 모드와 더불어 Intel® Extension for PyTorch(IPEX)를 활용하시길 강력히 권장드립니다. Transformers 모델에서 자주 사용되는 일부 연산자 패턴은 이미 jit 모드 연산자 결합(operator fusion)의 형태로 Intel® Extension for PyTorch(IPEX)에서 지원되고 있습니다. Multi-head-attention, Concat Linear, Linear+Add, Linear+Gelu, Add+LayerNorm 결합 패턴 등이 이용 가능하며 활용했을 때 성능이 우수합니다. 연산자 결합의 이점은 사용자에게 고스란히 전달됩니다. 분석에 따르면, 질의 응답, 텍스트 분류 및 토큰 분류와 같은 가장 인기 있는 NLP 태스크 중 약 70%가 이러한 결합 패턴을 사용하여 Float32 정밀도와 BFloat16 혼합 정밀도 모두에서 성능상의 이점을 얻을 수 있습니다.
IPEX 그래프 최적화에 대한 자세한 정보를 확인하세요.
IPEX 설치:
IPEX 배포 주기는 PyTorch를 따라서 이루어집니다. 자세한 정보는 IPEX 설치 방법을 확인하세요.
Update on GitHub