기술의 기하급수적인 성장에 있어 참여는 항상 중요한 요소였습니다. 기술이 느리면 우리는 필요할 때 기술을 사용하긴 하지만 참여는 하지 않습니다. 연구에 따르면 웹사이트 페이지가 300~500밀리초(ms) 지연되면 참여도가 약 20% 감소하는 것으로 나타났습니다. 반대로 기술이 매우 빠르면, 즉 놀라울 정도로 빠르면 우리는 그것을 반복해서 사용하게 됩니다. 속도는 참여도를 높이고, 참여도는 생산성, 협업, 창의성, 혁신을 촉진합니다.
이는 인공 지능(AI)과 대규모 언어 모델(LLM)에도 동일하게 적용됩니다. LLM은 AI가 다양한 분야의 사람들이 자신의 능력을 향상시키는 데 도움을 줄 수 있는 가능성의 세계를 열어주었습니다. 모든 산업에서 어떤 역할을 선택하든, 가치 루프에 있는 인간이 자신의 스마트함, 경험, 훈련, 판단력을 적용하여 일을 처리하는 것을 볼 수 있습니다. 이러한 '가치 루프에 있는 인간'은 이미 컴퓨터를 업무의 도구로 사용하고 있지만, 이제 LLM은 성과를 몇 배로 높일 수 있는 기회를 제공합니다. 분야에 관계없이 우리 모두는 인간과 같은 속도로 초인적인 지성과 통찰력을 활용할 수 있습니다. 소프트웨어 개발, 콘텐츠 제작, 고객 서비스, 분석, 사기 및 범죄 예방, 의료 서비스-AI는 이 모든 분야에서 인간의 10배에 달하는 영향력을 발휘할 수 있습니다.
하지만 속도가 느리면 안 됩니다. 세계 최고의 LLM 시스템을 갖췄다고 해도 너무 느리면 사람들은 사용하지 않을 것입니다. 그렇기 때문에 대부분의 AI 애플리케이션에서 속도가 최우선 순위입니다.
문제는 AI 개발자가 LLM 학습을 마치고 이를 배포하고 확장(일명 추론)할 때 사용할 수 있는 유일한 하드웨어 옵션이 오래된 그래픽 프로세서 장치(GPU)라는 점입니다. GPU는 모델 훈련에는 유용하지만 추론에는 느리기 때문에 아무도 사용하지 않는 훌륭한 모델이라는 문제가 바로 발생합니다.
속도는 품질 및 규모와 같은 다른 요소의 영향을 받습니다. 비즈니스 및 기술 리더는 특정 애플리케이션에 대한 추론 전략을 결정할 때 필요한 품질과 규모를 달성하면서도 충분히 빠른 속도를 유지할 수 있는지 확인해야 합니다. 이 백서에서는 이러한 각 요소에 대해 자세히 살펴보고 리더가 팀과 파트너에게 제기할 수 있는 명확한 질문을 제시하여 최적의 전략으로 안내합니다.
LLM과 기타 생성형 AI 애플리케이션은 시장을 변화시키고 큰 문제를 해결할 수 있는 잠재력을 가지고 있지만, 추론 속도를 제대로 확보하는 데 달려 있는 만큼 충분히 빠를 때만 가능합니다. 이 백서가 이를 도와드립니다.
The Need for Speed
AI 워크로드의 속도를 측정할 때 고려해야 할 두 가지 지표가 있습니다:
앱의 응답성은 앱이 입력 쿼리를 처리하고 첫 번째 토큰을 생성하는 속도입니다. 이 지표는 첫 토큰 생성 시간(TTFT, time to first token)입니다.
앱의 지연 시간은 앱이 완전한 답변을 제공하는 전반적인 속도입니다. 측정 기준은 초당 토큰 수(토큰/초)입니다.
디지털 컴퓨팅이 등장한 이래로 인간이 복잡한 문제를 해결하려면 응답 속도가 약 200ms 미만이어야 한다는 연구 결과가 많이 있습니다. 이 수준의 성능은 창의력과 문제 해결 프로세스에 원활하게 통합되는 자연스러운 전후 전환을 만들어냅니다. 컴퓨터 반응 속도가 200ms를 넘어서면 뇌의 여러 부분이 활성화되어 느린 속도에 적응하는 데 도움을 줍니다. 말 그대로 뇌의 흐름이 중단되는 것입니다. 이 발견은 대부분의 사람들이 Google과 같은 저지연 서비스를 사용하는 경험과 일치합니다. 우리는 200ms 이내에 응답을 기대하며, 응답을 받지 못하면 사고 과정에 혼란을 겪습니다.
TTFT와 초당 토큰 수는 모두 사용자 단위로 측정해야 합니다. 예를 들어 추론 엔진이 초당 최대 12,000토큰의 속도를 지원한다고 하면 대단하게 들릴 수 있지만, 1,024명의 사용자를 대상으로 하는 지표라면 그렇지 않습니다. 사용자당 기준으로 보면 초당 약 12토큰에 해당하며, 이는 그다지 빠른 속도가 아닙니다.
이 정도의 성능이 필요하지 않은 AI 애플리케이션도 있습니다. 오프라인 문서나 데이터 분석과 같은 비실시간 솔루션은 원활한 대화가 필요하지 않습니다. 이 모든 데이터와 텍스트를 읽고 숨겨진 패턴을 찾으려면 내일 아침 9시까지 완료해도 괜찮습니다.
이 차트는 생성형 AI의 다양한 응용 분야를 반응성(응답 시간)과 경제적 영향(단위: 10억 달러)을 기준으로 시각화한 것입니다.
차트의 주요 특징은 다음과 같습니다: 1. X축은 반응성을 나타내며, 밀리초부터 배치 처리까지 범위가 있습니다. 2. Y축은 경제적 영향을 나타내며, 0에서 100억 달러까지의 범위를 보여줍니다. 3. 각 원은 특정 AI 응용 분야를 나타내며, 원의 크기는 해당 분야의 상대적 중요성이나 규모를 의미할 수 있습니다.
주요 응용 분야별 특징: 1. 가장 빠른 반응 시간(밀리초 단위)을 요구하는 분야: - 소프트웨어 개발 - 사기 방지 - 몰입형 게임 - 음성 비서 - SQL 생성 - 응급 대응 - 제품 R&D (예: 제약) 2. 중간 정도의 반응 시간(10분의 1초 단위)이 필요한 분야: - 챗봇, 가상 비서 - 고객 서비스 - 콘텐츠 생성 3. 좀 더 긴 반응 시간(초 단위)이 허용되는 분야: 4. 가장 긴 처리 시간(배치 처리)이 가능한 분야: - 코드 분석, 문서 생성 - 일괄 마케팅 - 텍스트 분류 - 문서 분석 - 일괄 번역 5. 경제적 영향 측면에서는 소프트웨어 개발, 챗봇/가상 비서, 코드 분석/문서 생성 등이 가장 큰 영향을 미치는 것으로 보입니다.
이 차트는 McKinsey가 2023년에 발표한 "The Economic potential of Generative AI: The next productivity frontier" 보고서를 참조하고 있습니다.
이러한 애플리케이션은 많은 가치를 더할 수 있지만, 제너레이티브 AI의 잠재력에는 거의 미치지 못합니다. 한편, 이러한 수준의 성능을 필요로 하는 훨씬 더 많은 AI 애플리케이션이 있습니다. 예를 들어, 고객 서비스 담당자가 고객의 문제를 해결하거나 제품을 추천할 때 AI 앱과 함께 사용하면 훨씬 더 효과적일 수 있지만, AI 봇이 응답할 때까지 몇 초씩 기다릴 필요는 없습니다. 이는 고객을 짜증나게 할 뿐입니다.
마찬가지로 소프트웨어 개발, 실시간 분석, 음성 비서, 게임도 가치 루프에 있는 사람이 AI를 사용하여 게임을 향상시킬 수 있는 분야이지만, 컴퓨팅 성능이 뒷받침되어야만 가능합니다. 이러한 분야의 사람들에게 손끝으로 AI의 힘을 제공하면 그 영향력은 엄청날 것입니다(Groq에서는 이 개념을 휴먼플러스라고 부릅니다).
The Need for Speed & Quality
LLM의 속도도 중요하지만 품질도 중요합니다. 품질을 측정하는 방법에는 여러 가지가 있습니다. 표준화된 테스트(예: MCAT 또는 주 바 시험)에서 모델의 성능을 확인하거나, 모델을 배포하고 사람이 답을 평가하도록 할 수 있습니다.
추론에서 품질을 측정하는 방법과 관계없이, 모델의 품질에 영향을 미치는 가장 큰 두 가지 요소는 모델 크기(매개변수 수)와 시퀀스 길이(입력 쿼리의 최대 크기)입니다. 모델 크기는 검색 공간으로 생각할 수 있으며, 공간이 클수록 더 좋은 결과를 얻을 수 있습니다. 예를 들어, 70B 매개변수 모델은 일반적으로 7B 매개변수 모델보다 더 나은 답변을 생성합니다. 시퀀스 길이는 컨텍스트와 유사합니다. 시퀀스 길이가 길수록 더 많은 정보, 즉 더 많은 컨텍스트를 모델에 입력할 수 있으므로 더 관련성 있고 적절한 응답을 얻을 수 있습니다. 반대로 시퀀스 길이가 짧으면 모델이 무슨 말을 했는지 잊어버리는 사람처럼 될 수 있습니다. 생각의 흐름을 잃게 됩니다.
이러한 매개변수는 속도에도 영향을 미칩니다. 모델과 시퀀스 길이가 클수록 더 많은 컴퓨팅 파워가 필요하고 속도가 느려질 수 있습니다. 추론 엔진의 속도를 평가하려면 애플리케이션이 품질 목표를 달성하는 데 필요한 모델과 시퀀스 길이 크기부터 시작하세요.
다양한 알고리즘 기법을 통해 품질을 향상시킬 수도 있습니다. 누군가 질문을 받았는데 가장 먼저 떠오르는 것을 얼버무린다고 가정해 보세요. 특정 종류의 심리 테스트에는 좋지만 복잡한 문제를 해결하는 데는 좋지 않습니다. 불행히도 이것이 바로 LLM 봇이 하는 일입니다. 가장 먼저 떠오르는 것을 대충 말하는 것입니다. 다행히도 개발자가 이러한 의식의 흐름을 개선하기 위해 사용할 수 있는 다양한 기술이 있습니다.
예를 들어 빔 검색은 가능한 결과 집합을 미리 살펴본 다음 점수 함수를 기반으로 가장 좋은 결과를 선택함으로써 더 나은 결과를 생성하는 일종의 '미리 검색' 기법입니다. 체스를 두는 봇이 다음 수를 예측하는 대신 10개의 서로 다른 다음 수 옵션을 제시하고 각각에 대해 대국을 펼친다고 생각해 보세요. 봇이 최선의 다음 수라고 생각한 것이 실제로는 다른 옵션보다 열등하다는 것을 발견할 수도 있습니다. 단순히 의식의 흐름에만 의존한다면 바둑의 질은 떨어질 수밖에 없습니다.
자기 반영은 특히 훈련이 향상되고 빔 검색과 같은 검색 선행 기술의 효율성이 떨어지면서 품질을 향상시키는 또 다른 방법입니다. 이는 작가가 초고를 작성한 후 수정하고 또 수정하여 개선하는 것처럼, 모델이 자신의 결과물을 스스로 반영하고 개선하는 능력을 말합니다. 자기 반영을 통해 모델은 수동 개입 없이도 품질을 개선할 수 있습니다.
모델 품질에 영향을 미치는 가장 큰 두 가지 요소는 모델 크기(매개변수 수)와 시퀀스 길이(입력 쿼리의 최대 크기)입니다. The two biggest factors contributing to a model’s quality are model size (number of parameters) and sequence length (maximum size of the input query).
이러한 알고리즘은 애플리케이션의 초기 의식 반응 스트림을 개선하여 품질을 향상시키지만 추가 컴퓨팅 리소스가 필요하므로 추론 솔루션에는 이를 수용할 수 있는 충분한 컴퓨팅 성능 '예산'이 포함되어야 합니다. AI 비즈니스 리더는 추론 엔진을 결정할 때 이러한 모든 품질 요소(모델 크기, 시퀀스 길이, 품질 향상 알고리즘)를 고려해야 합니다.
The Need for Speed & Scale
시속 200마일로 달리는 경주용 자동차는 재미있지만, 수백, 수천 명의 사람들이 꽉 찬 트레일러에 연결하면 어떻게 될까요? 더 이상 시속 200마일로 달리지 않을 것입니다. AI 솔루션인 경주용 자동차는 사용자가 적을 때와 마찬가지로 완전히 가동되었을 때에도 빠른 성능을 발휘해야 합니다.
AI 앱의 규모를 측정하는 가장 일반적인 방법은 동시 사용자 수로, 얼마나 많은 사람이 동시에 시스템을 사용할 수 있는지 측정하는 것입니다. 언뜻 보기에는 이 지표가 의미가 있어 보이지만, 조금 더 자세히 들여다보면 이 지표가 상황을 지나치게 단순화한다는 것을 알 수 있습니다. 사람들이 AI 봇을 '사용'할 때 추론 컴퓨팅 리소스를 사용하는 시간은 극히 일부분에 불과하며, 애플리케이션에 따라 컴퓨팅 리소스 사용률은 크게 달라집니다. 따라서 동시 사용자 지표는 큰 의미가 없습니다.
시스템 전체에서 분당 애플리케이션에 얼마나 많은 쿼리가 발생하고 있는지가 더 미묘한 차이가 있는 더 나은 지표입니다. 이는 컴퓨팅 리소스에 가해지는 실제 부하를 측정하는 데 훨씬 더 가깝습니다. 추론 전략을 결정할 때는 엔진이 예상 쿼리/분에서 속도 요구 사항을 초과할 수 있는 성능 기능을 갖추고 있는지 확인하세요.
Cost (Almost) Doesn’t Matter
지금까지 논의하지 않은 한 가지는 비용입니다. 비용($/토큰)은 중요하며, 제한된 비실시간 AI 솔루션의 경우 비용이 주요 결정 요소가 될 수 있습니다. 그러나 비용에만 집중하는 것은 조직이 진정으로 혁신적인 솔루션에 AI를 활용하지 못하게 하기 때문에 실패의 지름길입니다. AI의 방대한 잠재력을 활용하려면 비용은 (거의) 중요하지 않습니다. 중요한 것은 속도입니다.
AI 솔루션은 사용자가 많지 않을 때와 마찬가지로 완전히 확장되었을 때에도 빠른 성능을 발휘해야 합니다. An AI solution has to perform as fast when it is fully ramped up as when it has just a few users.
What to Ask Your Team & Partners
AI 추론 전략을 개발할 때 비즈니스 및 기술 리더가 팀에 물어볼 수 있는 질문은 다음과 같습니다.
내 비즈니스 또는 조직을 위한 혁신적인 AI 기회는 무엇인가요?
-조직에서 AI를 도입하여 직원의 생산성과 창의성을 높이고 휴먼플러스를 극대화하려면 어떻게 해야 할까요? 비즈니스의 이러한 구성 요소를 혁신하기 위해 오늘날의 AI LLM을 어떻게 적용할 수 있을까요? -엔지니어링을 통해 어떻게 제품, 서비스 또는 운영을 개선하거나 혁신할 수 있을까요? 슈퍼컴퓨터와의 실시간 대화를 통해 어떤 역할이 혜택을 받을 수 있을까요? 어떤 새로운 일을 할 수 있을까요?
AI 추론 플랫폼에 대한 요구 사항은 무엇인가요?
1. 이러한 솔루션이 성공하려면 사용자당 TTFT 및 사용자당 토큰/초로 측정한 요구 속도는 어느 정도여야 하나요? 사용자가 흐름을 유지하려면 얼마나 빨라야 하나요? 2. 이러한 솔루션이 성공하려면 어떤 크기의 모델과 시퀀스 길이가 필요한가요? 품질 매개변수는 무엇인가요? 3. 필요한 규모(시스템 전체 쿼리/분)에서 이 속도를 유지할 수 있는가?
사용 가능한 추론 솔루션이 내 요구 사항에 어떻게 부합하나요?
- 필요한 모델 크기와 시퀀스 길이에서 필요한 지연 시간과 속도를 지원할 수 있는 인프라 플랫폼은 무엇인가요? - 최소 지연 시간과 속도를 유지하면서 빔 검색 및 자체 반영과 같은 추가적인 품질 향상 알고리즘을 지원할 수 있는 플랫폼은 무엇인가요? - 적격 플랫폼의 컴퓨팅 비용($/토큰)은 얼마인가요?
The Promise of Prompt Engineering
전화 접속을 통해 인터넷에 접속하던 인터넷(또는 가스-AOL) 초창기 시절을 떠올려 보세요(어린 독자라면 위키백과에서 찾아보고 충격을 받을 준비를 하세요). 좋은 식당을 찾는 것과 같은 유용한 용도로 인터넷을 사용한다는 것은 사실상 불가능했습니다. 한 가지 답을 얻으면 포기하고 대신 신문을 집어 들었습니다.
몇 년 후 광대역이 등장하면서 모든 것이 바뀌었습니다. 속도는 게임의 판도를 바꾼 것이 아니라 완전히 새로운 게임을 만들었습니다. 원하는 답을 얻기 위해 한 번이 아니라 필요한 답을 얻을 때까지 수십 번을 구글에 질문했습니다.
번개처럼 빠른 LLM 성능과 고품질 출력은 거의 모든 분야에서 일하는 사람들의 판도를 바꿀 것입니다. 빠르고 스마트한 LLM은 새로운 인간 기술인 프롬프트 엔지니어링을 만들어낼 것이며, 이는 많은 역할과 분야에서 빠르게 중요해질 것입니다. 프롬프트 엔지니어링은 AI 시스템에서 원하는 응답을 이끌어내고 LLM 봇을 최대한 활용하는 프롬프트를 최적으로 설계하고 구현하는 것입니다. 인간과 봇이 실시간으로 주고받으며 봇의(그리고 궁극적으로는 인간의) 결과물을 개선하고 다듬는 이 소크라테스적인 방법은 AI 분야에서 가장 중요한 역할 중 하나로 발전하고 있습니다. 거의 모든 분야에서 신속한 엔지니어링에 숙련된 사람은 봇과 협력하여 봇이나 사람이 혼자서 작업하는 것보다 훨씬 더 나은 결과를 만들어낼 수 있습니다.
이것이 바로 속도가 가능하게 하는 것입니다. 이는 인간과 봇 간의 즉각적인 협업을 통해 모든 사람의 게임을 향상시킬 수 있습니다. 매버릭과 구스뿐만 아니라 우리 모두는 속도에 대한 필요성을 느끼고 있습니다.
추론 성능 결과에 대한 최신 소식을 놓치지 마세요!
Groq LPU™ 추론 엔진, 최초의 공개 LLM 벤치마크 달성
Groq, 최고 클라우드 기반 제공업체 대비 최대 18배 빠른 LLM 추론 성능을 제공하는 Anyscale의 LLMPerf 리더보드 발표
Groq 프롬프터 여러분! 개발자 혁신가이자 LLM 추론 벤치마크 분야의 우호적인 경쟁자인 Anyscale의 LLMPerf 리더보드에 Groq이 선정되었음을 발표하게 되어 기쁘게 생각합니다.이 벤치마크에는 다양한 대규모 언어 모델(LLM) 추론 제공업체가 포함되어 있으며, 분석은 다음을 통해 측정된 성능, 안정성 및 효율성을 평가하는 데 중점을 둡니다:
출력 토큰 처리량(토큰/초): 초당 반환되는 평균 출력 토큰 수입니다. 이 메트릭은 요약 및 번역과 같이 높은 처리량이 필요한 애플리케이션에 중요하며, 여러 모델과 제공업체 간에 쉽게 비교할 수 있습니다.
첫 번째 토큰까지 걸리는 시간(TTFT): LLM이 첫 번째 토큰을 반환하는 데 걸리는 시간입니다. TTFT는 챗봇과 같이 짧은 지연 시간이 필요한 스트리밍 애플리케이션에 특히 중요합니다.
이 테스트는 첫 번째 공개 벤치마크일 뿐만 아니라 큰 성공을 거두었습니다. Groq LPU™ 추론 엔진에서 실행되는 Meta AI의 Llama 2 70B는 다른 클라우드 기반 추론 제공업체보다 3~18배 빠른 출력 토큰 처리량으로 다른 모든 참가자들보다 뛰어난 성능을 보였습니다.
애니스케일 방법론을 좀 더 자세히 살펴보겠습니다. 이 벤치마크는 다음을 활용합니다:
550개의 입력 토큰 수와 150개의 출력 토큰 수
첫 번째 지표인 출력 토큰 처리량(일명 출력 속도)은 출력 토큰 수를 입력 토큰 처리 시간과 전체 네트워크 지연 시간을 포함한 전체 엔드투엔드 시간으로 나누어 결정됩니다.
저희 측에서는 다음 사항에 주목하고 싶습니다:
LPU에서 모든 라마 2 계산은 FP16에서 이루어지지만, 일부 가중치는 FP8에 저장합니다.
희소성이 없음(즉, 모든 라마 2 행렬 계산을 수행하므로 메타 AI에서 제공하는 대로 전체 모델을 처리합니다).
일반적으로 FP16은 더 높은 품질의 추론 결과를 제공해야 하므로 이는 주목할 만한 점입니다.
이제 각 메트릭의 결과를 좀 더 자세히 살펴보겠습니다. 출력 토큰 처리량의 경우, Groq은 평균 185 토큰/초를 달성했으며, 이는 순위표에 포함된 다른 어떤 추론 제공업체보다 3~18배 빠른 결과입니다.
출력 토큰 처리량(토큰/초)
출력 토큰 처리량은 초당 반환되는 평균 출력 토큰 수로 측정됩니다. 각 LLM 추론 제공자에게 150개의 요청을 전송하여 결과를 수집하고 각 LLM 추론 제공자에게 150개의 요청을 기준으로 평균 출력 토큰 처리량을 계산한 후 150개의 요청을 기준으로 평균 출력 토큰 처리량을 계산합니다. 전체적으로 출력 토큰이 높을수록 LLM 추론 공급자의 처리량이 높음을 나타냅니다. 이 차트는 다양한 70B 규모의 AI 모델들의 성능을 비교하고 있습니다. 각 행은 서로 다른 회사나 프로젝트의 모델을 나타내며, 가로 축은 0부터 230까지의 척도를 보여줍니다. 주요 특징들: 1. Anyscale의 모델은 66의 GPU 성능을 보이고 있습니다. 2. Bedrock (AWS)의 모델은 21의 GPU 성능을 나타냅니다. 3. Fireworks.ai는 40의 GPU 성능을 기록했습니다. 4. Groq의 모델이 가장 두드러집니다. 185의 LPU™ ("Language Processing Unit") 성능을 보여주며, 다른 모델들보다 훨씬 높은 수치입니다. 5. Lepton.ai는 33의 GPU 성능을 보입니다. 6. Perplexity.ai는 30의 GPU 성능을 나타냅니다. 7. Replicate는 가장 낮은 10의 GPU 성능을 보여줍니다. 8. Together.ai는 65의 GPU 성능을 기록했습니다.
대부분의 모델이 GPU를 사용하는 반면, Groq만이 LPU™를 사용하고 있어 특이점을 보입니다. 또한 Groq의 성능이 다른 모델들보다 현저히 높다는 점이 눈에 띕니다. 각 모델의 성능 범위는 수평선으로 표시되어 있어 변동 폭을 보여주고 있습니다.
첫 번째 토큰에 도달하는 시간은 0.22초를 기록했습니다. LPU의 결정론적 설계로 인해 응답 시간이 일정하게 유지되어 변동성이 가장 적은 API를 제공합니다. 이는 잠재적인 지연 시간 문제나 느린 응답에 대한 설계에 더 많은 노력을 기울이지 않고도 반복성을 높일 수 있음을 의미합니다.
첫 번째 토큰까지의 시간(초) 스트리밍 애플리케이션의 경우 TTFT는 LLM이 첫 번째 토큰을 반환하기까지 걸리는 시간입니다. 이 이미지는 다양한 AI 회사 및 연구소의 다양한 700억 개(700억 개의 파라미터) 언어 모델에 대한 성능 메트릭을 비교한 것입니다. 이 차트는 각 모델의 추론 시간을 초 단위로 표시하며 가로 막대로 표시됩니다.
비교 대상 모델은 다음과 같습니다: 1. 애니스케일 2. 베드락(AWS 기준) 3. Fireworks.ai 4. Lepton.ai 5. Groq 6. Perplexity.ai 7. Replicate 8. Together.ai
막대 끝에 "GPU" 라벨이 표시된 것처럼 대부분의 모델은 GPU에서 실행됩니다. 그러나 Groq은 LPU™(독점 프로세서일 가능성이 높음)를 사용한다는 점에서 눈에 띕니다.
추론 시간도 크게 다릅니다: - 애니스케일이 약 0.21초로 가장 빠릅니다. - Bedrock과 Perplexity.ai도 각각 약 0.39초와 0.37초로 비교적 빠릅니다. - LPU를 사용하는 Groq은 약 0.22초를 달성합니다. - Replicate가 약 1.19초로 가장 느립니다.
이 차트를 통해 다양한 대규모 언어 모델 구현의 속도를 빠르게 비교할 수 있으므로 개발자나 연구자가 애플리케이션에 사용할 모델을 선택하는 데 유용할 수 있습니다.
성능 향상을 위한 지속적인 로드맵의 초기 단계에서 이 순위표를 주도하게 되어 자랑스럽고 기쁘게 생각합니다.
"Groq는 사용자당 초당 270개 이상의 토큰을 라마-2 70B로 받는다고 하는데요. 그 차이는 무엇일까요?"
앞서 언급했듯이 이 벤치마크는 150개의 출력 토큰 수를 활용하며, 출력 토큰 처리량만 계산하는 것이 아니라 입력 처리 시간도 계산의 일부로 포함합니다. 예를 들어, 1000개의 출력 토큰으로 테스트한다면 결과는 chat.groq.com에서 볼 수 있는 사용자당 270개 이상의 토큰에 더 가까워질 것입니다.
전체적으로, 애니스케일의 훌륭한 팀의 도움으로 전 세계와 함께 첫 번째 공개 벤치마크 결과를 공유할 수 있게 되어 매우 기쁩니다. 앞으로 다양한 전문가들과 함께 라마 2 7B에 대한 벤치마킹을 제공할 수 있기를 기대하며, 그 외에도 여러 가지를 섞어볼 수 있을지도 모르죠. 앞으로 (훨씬) 많은 일이 있을 것입니다.