[2023-06-27]CyberAgentが開発した国産LLM(大規模言語モデル) について
様々な番組を提供するサービスABEMAやウマ娘 プリティダービーなどの大ヒットゲームを多くリリースしているCyberAgent が2023/5/17にLLM*、「OpenCALM」を一般公開しました。
*LLM(Large Language Model、大規模言語モデル)とは、膨大な量のテキストデータを学習させることで機械翻訳、質問応答、文章生成、要約、感情分析などを可能にした深層学習アルゴリズムのことです。
有名なLLMとしてOpen AIのGPT-3.5、GPT-4やGoogleが開発したPaLM 2があります。LLMを比較する指標としてパラメータ数があります。現状、このパラメータが大きいほどより複雑なタスクをこなすことができます。GPT-3.5は1750億パラメータと言われていますが、CyberAgentが開発したOpenCALMは最大68億パラメータです。GPT-3.5と比べると少ないように思えますが、日本国内ではかなり注目されています。
OpenAIのGPT-3.5やGPT-4、GoogleのPaLM 2などの既存のLLMは英語のテキストデータを中心に学習しているため、英語圏の視点、価値観、事実認識などに偏る出力をする可能性があります。また、GPT-4 Technical Report によると、入力する文章が英語である場合に比べて日本語の場合は正確さに欠けてしまうという結果が出ています。こうした背景から、日本語、日本文化に強いLLMの開発が期待されてきました。
OpenCALMはWikipediaやCommon Crawl*といったオープンな日本語データを学習しています。これにより、日本語、日本文化に特化したLLMが出来上がりました。商用利用も可能になっています。今後よりOpenCALMが進歩し、普及していくことで、学術とビジネスの両面で日本の自然言語処理技術*が発展していくことが期待されています。今後の国産LLMの発展に目が離せません。
* Common Crawlとはデータセットを提供する非営利団体
*自然言語処理技術とは、人間が日常的に使用する言語(自然言語)をコンピュータが理解、解析、生成するための技術です。
参考
https://www.cyberagent.co.jp/news/detail/id=28817
GPT-4 Technical Report(OpenAI) https://cdn.openai.com/papers/gpt-4.pdf
(著:藤本)