LLM– tax –

LLM(大規模言語モデル、Large Language Model)は、大量のテキストデータで事前学習された、数十億から数千億のパラメータを持つニューラルネットワークモデルの総称です。2017年にGoogleが発表したTransformerアーキテクチャを基盤とし、文章の生成・要約・翻訳・質問応答・推論など、多様な言語タスクを単一のモデルで処理できる点が特徴です。

2020年にOpenAIがGPT-3を公開したことで汎用的な言語タスクへの対応力が広く認知され、2022年末のChatGPT登場を境に一般への普及が一気に進みました。現在はOpenAIのGPT系列、AnthropicのClaude系列、GoogleのGemini、MetaのLLaMA、Mistral、Cohereなど、商用・オープンソースを含む多数のモデルファミリーが並立しています。日本語の文脈に特化したPLaMo(Preferred Networks)、Sarashina(ソフトバンク)、ELYZAといった国産モデルの開発も進んでいます。

企業での活用は、APIを介したアプリケーション組み込みにとどまらず、自社固有のデータで追加学習を行うファインチューニング、外部知識ベースを参照させるRAG(検索拡張生成)、複数のツールや処理を自律的に連鎖させるAIエージェントなど、目的に応じた実装パターンが確立されつつあります。

12345...10