日本語大規模言語モデル (by SHS)

日本語大規模言語モデル (by SHS)

このページでは，Suzuki, Hirano, and Sakaji (SHS)および関係者による日本語大規模言語モデルの更新情報を公開しています．

Masahiro SUZUKI (日興AM，東大): https://msuzuki.me/
Masanori HIRANO (PFN，ex. 東大): https://mhirano.jp/
Hiroki SAKAJI (東大): https://tetsuwaka.net/

共同研究，データ提供，各種支援，その他問い合わせは，[email protected] へ．

最新情報

IEEE BigData2023に採択されました

2023/10/24

"From Base to Conversational: Japanese Instruction Dataset and Tuning Large Language Models" がIEEE BigData 2023に採択されました．

NLCにて発表しました

2023/9/6

第20回テキストアナリティクス・シンポジウム(NLC) にて"日本語インストラクションデータを用いた対話可能な日本語大規模言語モデルのLoRAチューニング"というタイトルで発表しました．

講演論文詳細(電子情報通信学会)

NL研にて発表し若手奨励賞を受賞しました

2023/9/1

情報処理学会自然言語処理研究会(NL研) にて"llm-japanese-dataset v0: 大規模言語モデルのための日本語チャットデータセット構築"というタイトルで発表しました．若手奨励賞を受賞しました．

若手奨励賞(NL研)

YANSにて発表し奨励賞等を受賞しました

2023/8/31

NLP若手の会(YANS)にて"日本語インストラクションデータセットの構築とその適用による大規模言語モデルのチューニング"というタイトルで発表しました．奨励賞とELYZA賞(スポンサー賞)を受賞しました．

受賞者一覧(YANS)

情報一覧

データセット関連

izumi-lab/llm-japanese-dataset-vanilla (izumi-lab/llm-japanese-dataset から，日英翻訳のデータセット等を抜いたもの．約252万件収録). 2023/6/23公開．
- Hugging Face Dataset
- GitHub
- 論文 (詳細情報):
  - 鈴木雅弘, 平野正徳, 坂地泰紀, "日本語インストラクションデータを用いた対話可能な日本語大規模言語モデルのLoRAチューニング ,"
    jxiv:422
  - Masahiro SUZUKI, Masanori HIRANO, and Hiroki SAKAJI,
    "From Base to Conversational: Japanese Instruction Dataset and Tuning Large Language Models,"
    arXiv:2309.03412, ssrn.com/abstract=4564308
izumi-lab/llm-japanese-dataset v0 (日本語向けLoRAチューニング用のチャットデータセット．約905万件収録). 2023/5/23公開．
- Hugging Face Dataset
- GitHub
- 論文 (詳細情報):
  - 平野正徳, 鈴木雅弘, 坂地泰紀, "llm-japanese-dataset v0: 大規模言語モデルのための日本語チャットデータセット構築,"
    jxiv:383
  - Masanori HIRANO, Masahiro SUZUKI, and Hiroki SAKAJI,
    "llm-japanese-dataset v0: Construction of Japanese Chat Dataset for Large Language Models and its Methodology,"
    arXiv:2305.12720, ssrn.com/abstract=4454626

モデル関連

izumi-lab/llama-7b-japanese-lora-v0-5ep (LLaMA 7Bをizumi-lab/llm-japanese-datasetでチューニング). 2023/6/23公開．
- Hugging Face Model
- 関連論文 (izumi-lab/llm-japanese-dataset-vanillaと同一):
  - 鈴木雅弘, 平野正徳, 坂地泰紀, "日本語インストラクションデータを用いた対話可能な日本語大規模言語モデルのLoRAチューニング ,"
    jxiv:422
  - Masahiro SUZUKI, Masanori HIRANO, and Hiroki SAKAJI,
    "From Base to Conversational: Japanese Instruction Dataset and Tuning Large Language Models,"
    arXiv:2309.03412, ssrn.com/abstract=4564308
izumi-lab/stormy-7b-10ep (cyberagent/open-calm-7bをizumi-lab/llm-japanese-datasetから特別に抽出したモデルでチューニング). 2023/6/1公開．
- Hugging Face Model
- 関連論文 (izumi-lab/llm-japanese-dataset-vanillaと同一):
  - 鈴木雅弘, 平野正徳, 坂地泰紀, "日本語インストラクションデータを用いた対話可能な日本語大規模言語モデルのLoRAチューニング ,"
    jxiv:422
  - Masahiro SUZUKI, Masanori HIRANO, and Hiroki SAKAJI,
    "From Base to Conversational: Japanese Instruction Dataset and Tuning Large Language Models,"
    arXiv:2309.03412, ssrn.com/abstract=4564308
izumi-lab/llama-13b-japanese-lora-v0-1ep (LLaMA 13Bをizumi-lab/llm-japanese-datasetでチューニング). 2023/5/23公開．
- Hugging Face Model
- 関連論文 (izumi-lab/llm-japanese-dataset v0と同一):
  - 平野正徳, 鈴木雅弘, 坂地泰紀, "llm-japanese-dataset v0: 大規模言語モデルのための日本語チャットデータセット構築,"
    jxiv:383
  - Masanori HIRANO, Masahiro SUZUKI, and Hiroki SAKAJI,
    "llm-japanese-dataset v0: Construction of Japanese Chat Dataset for Large Language Models and its Methodology,"
    arXiv:2305.12720, ssrn.com/abstract=4454626

実装関連

retarfi/jallm (モデルのチューニング・評価の実装). 2023/6/23公開．
- GitHub
- 関連論文 (izumi-lab/llm-japanese-dataset-vanillaと同一):
  - 鈴木雅弘, 平野正徳, 坂地泰紀, "日本語インストラクションデータを用いた対話可能な日本語大規模言語モデルのLoRAチューニング ,"
    jxiv:422
  - Masahiro SUZUKI, Masanori HIRANO, and Hiroki SAKAJI,
    "From Base to Conversational: Japanese Instruction Dataset and Tuning Large Language Models,"
    arXiv:2309.03412, ssrn.com/abstract=4564308