バージニア大学のKorinek教授は、以下の論文で、現段階の大規模言語モデル(LLM)が、どれくらい研究活動の効率化に役立つか評価し、LLMを研究活動に最大限に利用するコツをまとめています。この論文は、経済学者向けに書かれていますが、他の分野の研究者にも役立つのではないかと思います。
Korinek, Anton. “Generative AI for Economic Research: Use Cases and Implications for Economists.” Sept. 2023, accepted, Journal of Economic Literature [Link]
この論文のアドバイスを参考に、表1に挙げられた主要な大規模言語モデルを使って、表2の6つのカテゴリーの作業を試してみました。今後、6つのブログに分けて、それぞれ説明していきたいと思います。
表1 主要な大規模言語モデルの一覧表(論文の最終原稿の2023年9月時点)
プロダクト | モデル | 企業 | Token数 | データカットオフ | URL |
ChatGPT | GPT-3.5 | OpenAI | 4k | 2021年9月まで | Link |
New Bing | GPT-4 | Microsoft | 4k | web access | Link |
ChatGPT+ | GPT-4 | OpenAI | 4k | 2021年9月まで | Link |
Bard | PaLM-2 | 2k | web access | Link | |
Claude | Claude 2 | Anthropic | 100k | 2023年初まで | Link |
LlaMA | LlaMA 2 | Meta | 4k | 2023年初まで | open source |
表1の説明
表1は、論文から引用した主要な大規模言語モデルをまとめた表です。
この論文が最後に更新されたのは2023年9月だそうですが、その時にはまだChatGPTは2021年9月以降の情報を持っていなかったので、2021年9月以降の情報を使って回答できないと記されています。しかしながら、この記事に書かれているように、2023年9月27日、マイクロソフトの検索エンジンBingを使用して、ChatGPT Plusのユーザーの質問に対しては最新の検索結果をベースに回答できるようになったことが発表されました。2021年9月以降の情報を持っていなかったことがChatGPTに対する一番の不満だったので、このアップデートは個人的にとても嬉しかったです。
Claude 2は、Token数が100kもあり、約75,000の単語を処理できるため、論文を丸ごと一本pdfとしてアップロードしても処理できる優れものですが、アメリカとイギリスでしかサービスが提供されていませんでした。しかし、2023年10月16日に、日本でも利用できるようになりました。日本での使い方はこの記事がよく解説しています。この記事にも取り上げられていますが、poe.comは、Claude 2やChatGPT、LlaMAが一箇所で使えるとても便利なサービスです。plug inが必要ではない一般的な生成AIの利用には、とってもお勧め!
表2 大規模言語モデルの研究活動での有用性
カテゴリー | 作業 | 有用性 |
研究のアイデア | ブレインストーミング フィードバック 反論・反対意見 | 🌕 🌓 🌓 |
ライティング | 文章を書く 文章の編集 文章の評価 論文のタイトル 論文を宣伝するTweetを書く | 🌕 🌕 🌕 🌕 🌕 |
バックグラウンドリサーチ | 参考文献のサマリー作成 参考文献の検索 参考文献リストのフォーマット 参考文献の翻訳 概念の説明 | 🌕 🌑 🌕 🌕 🌓 |
コーディング | コードを書く コードを説明する 別のプログラミング言語に変換する デバッグする | 🌓 🌓 🌕 🌓 |
データ分析 | 図を作る テキストからデータを抽出する データをフォーマットする テキストの分類とスコアリング 感情を抽出する 人間の被験者をシミュレートする | 🌓 🌕 🌕 🌓 🌓 🌓 |
数学 | モデルを作る 数式を解く モデルを説明する | 🌓 🌑 🌓 |
注)
🌕:極めて有用性が高い。
🌓:有用性が高い。
🌑:有用性が低い。
表2の説明
表2はKorinek教授の、現段階での大規模言語モデルの研究活動への活用の有用性の評価をまとめた表です。🌕は「極めて有用性が高い」、🌓は「有用性が高い」、🌑はまだまだ有用性が低いという評価です。大規模言語モデルの有用性が一番高いのは、ライティング、一方で、まだまだ発展途上なのは、数学、特に数式を解く能力だと指摘されています。
コードを書くが「極めて有用性が高い」ではなく「有用性が高い」と評価されていたのは意外でした。私はPythonのコードを書く時は、ChatGPTに頼っていて、個人的に極めて有用性が高いと感じています。
次のブログからは、表2のそれぞれのカテゴリーの研究作業を大規模言語モデルでやってみた感想をまとめていきます。お楽しみに!!
間違いがあったらぜひ指摘してください!