大規模言語モデル関連　論文まとめ

AI

2024.01.282023.12.24

ここでは大規模言語モデル関連の論文で気になったものをまとめます。

目次

GPT-4レベルの質問応答タスク性能をLlama 2で実現
RAGのサーベイ論文
ハルシネーションは避けられない
最もよく利用さているOSS大規模言語モデル : Llama2
トランスフォーマーを超える効率的なアーキテクチャ：RetNet
10億トークンに耐えるLLM

GPT-4レベルの質問応答タスク性能をLlama 2で実現

論文タイトル：ChatQA: Building GPT-4 Level Conversational QA Models

発表日：Jan 18. 2024

Llama2ベースで作ったモデルが、いくつかのタスクでChatGPTに匹敵する精度を達成したとのこと。

論文より抜粋

ChatQA: Surpassing GPT-4 on Conversational QA and RAG

In this work, we introduce ChatQA, a suite of models that outperform GPT-4 on retrieval-augmented generation (RAG) and conversational question answering (QA). T...

RAGのサーベイ論文

論文タイトル：Retrieval-Augmented Generation for Large Language Models: A Survey

発表日：Dec 18. 2023

RAGのサーベイ論文。研究の変遷やFine-Tuningとの比較について言及しており、参考になります。

Retrieval-Augmented Generation for Large Language Models: A Survey

Large language models (LLMs) demonstrate powerful capabilities, but they still face challenges in practical applications, such as hallucinations, slow knowledge...

ハルシネーションは避けられない

論文タイトル：Calibrated Language Models Must Hallucinate

発表日：Dec 18. 2023

データの品質に関係なく、ハルシネーションは発生するとのこと

Calibrated Language Models Must Hallucinate

Recent language models generate false but plausible-sounding text with surprising frequency. Such "hallucinations" are an obstacle to the usability of language-...

最もよく利用さているOSS大規模言語モデル : Llama2

論文タイトル：Llama 2: Open Foundation and Fine-Tuned Chat Models

発表日　July 18. 2023

最もよく利用されているOSSの大規模言語モデルであるLama2の原著論文。

Llama 2: Open Foundation and Fine-Tuned Chat Models | Research - AI at Meta

In this work, we develop and release Llama 2, a collection of pretrained and fine-tuned large language models (LLMs) ranging in scale from 7 billion to...

トランスフォーマーを超える効率的なアーキテクチャ：RetNet

論文タイトル：Retentive Network: A Successor to Transformer for Large Language Models

発表日：July 19. 2023

大規模言語モデルの基礎アーキテクチャとして、Retentive Network（RetNet）を提案。トレーニングの並列性、低コストな推論、優れたパフォーマンスを同時に実現します。

Microsoft research

論文より抜粋

Retentive Network: A Successor to Transformer for Large Language Models

In this work, we propose Retentive Network (RetNet) as a foundation architecture for large language models, simultaneously achieving training parallelism, low-c...

unilm/retnet at master · microsoft/unilm

Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalities - microsoft/unilm

10億トークンに耐えるLLM

論文タイトル：LONGNET: Scaling Transformers to 1,000,000,000 Tokens

発表日：5 July. 2023

Microsoft researchが開発したLONGNETの論文。10億のTokenを処理できるとのこと。

内容はTransformerの課題であるToken数が増えると、極端に処理が重たくなるattentionの計算処理を工夫することにより高速化を実現している。

しかし論文では、言語処理に対する評価をきちっと記載していないため、精度がどの程度になるか不明である。

LongNet: Scaling Transformers to 1,000,000,000 Tokens

Scaling sequence length has become a critical demand in the era of large language models. However, existing methods struggle with either computational complexit...

タイトルとURLをコピーしました