大規模言語モデル関連 論文まとめ

ここでは大規模言語モデル関連の論文で気になったものをまとめます。

GPT-4レベルの質問応答タスク性能をLlama 2で実現

論文タイトル:ChatQA: Building GPT-4 Level Conversational QA Models

発表日:Jan 18. 2024

Llama2ベースで作ったモデルが、いくつかのタスクでChatGPTに匹敵する精度を達成したとのこと。

論文より抜粋
ChatQA: Building GPT-4 Level Conversational QA Models
In this work, we introduce ChatQA, a family of conversational question answering (QA) models that obtain GPT-4 level accuracies. Specifically, we propose a two-...

RAGのサーベイ論文

論文タイトル:Retrieval-Augmented Generation for Large Language Models: A Survey

発表日:Dec 18. 2023

RAGのサーベイ論文。研究の変遷やFine-Tuningとの比較について言及しており、参考になります。

Retrieval-Augmented Generation for Large Language Models: A Survey
Large language models (LLMs) demonstrate powerful capabilities, but they still face challenges in practical applications, such as hallucinations, slow knowledge...

ハルシネーションは避けられない

論文タイトル:Calibrated Language Models Must Hallucinate

発表日:Dec 18. 2023

データの品質に関係なく、ハルシネーションは発生するとのこと

Calibrated Language Models Must Hallucinate
Recent language models generate false but plausible-sounding text with surprising frequency. Such "hallucinations" are an obstacle to the usability of language-...

最もよく利用さているOSS大規模言語モデル : Llama2

論文タイトル:Llama 2: Open Foundation and Fine-Tuned Chat Models

発表日 July 18. 2023

最もよく利用されているOSSの大規模言語モデルであるLama2の原著論文。

Llama 2: Open Foundation and Fine-Tuned Chat Models | Research - AI at Meta
In this work, we develop and release Llama 2, a collection of pretrained and fine-tuned large language models (LLMs) ranging in scale from 7 billion to...

トランスフォーマーを超える効率的なアーキテクチャ:RetNet

論文タイトル:Retentive Network: A Successor to Transformer for Large Language Models

発表日:July 19. 2023

大規模言語モデルの基礎アーキテクチャとして、Retentive Network(RetNet)を提案。トレーニングの並列性、低コストな推論、優れたパフォーマンスを同時に実現します。

Microsoft research

論文より抜粋
Retentive Network: A Successor to Transformer for Large Language Models
In this work, we propose Retentive Network (RetNet) as a foundation architecture for large language models, simultaneously achieving training parallelism, low-c...
unilm/retnet at master · microsoft/unilm
Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalities - microsoft/unilm

10億トークンに耐えるLLM

論文タイトル:LONGNET: Scaling Transformers to 1,000,000,000 Tokens

発表日:5 July. 2023

Microsoft researchが開発したLONGNETの論文。10億のTokenを処理できるとのこと。

内容はTransformerの課題であるToken数が増えると、極端に処理が重たくなるattentionの計算処理を工夫することにより高速化を実現している。

しかし論文では、言語処理に対する評価をきちっと記載していないため、精度がどの程度になるか不明である。

LongNet: Scaling Transformers to 1,000,000,000 Tokens
Scaling sequence length has become a critical demand in the era of large language models. However, existing methods struggle with either computational complexit...

タイトルとURLをコピーしました