ログイン
Language:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. カンファレンス等
  2. NTCIR
  3. 17th (2022-2023)

Heaps’ Law in GPT-Neo Large Language Model Emulated Corpora

https://doi.org/10.20736/0002001352
https://doi.org/10.20736/0002001352
d7cce4e7-d64e-49fa-8ff1-be5e1b85a24f
名前 / ファイル ライセンス アクション
03-EVIA2023-EVIA-LaiU.pdf 03-EVIA2023-EVIA-LaiU.pdf (997 KB)
アイテムタイプ デフォルトアイテムタイプ(フル)(1)
公開日 2023-12-12
タイトル
タイトル Heaps’ Law in GPT-Neo Large Language Model Emulated Corpora
言語 en
作成者 Uyen Lai

× Uyen Lai

en Uyen Lai

Search repository
Gurjit Randhawa

× Gurjit Randhawa

en Gurjit Randhawa

Search repository
Paul Sheridan

× Paul Sheridan

en Paul Sheridan

Search repository
主題
言語 en
主題Scheme Other
主題 corpus profiling
主題
言語 en
主題Scheme Other
主題 generative large language models
主題
言語 en
主題Scheme Other
主題 word statistics
内容記述
内容記述タイプ Abstract
内容記述 Heaps’ law is an empirical relation in text analysis that predicts vocabulary growth as a function of corpus size. While this law has been validated in diverse human-authored text corpora, its applicability to large language model generated text remains unexplored. This study addresses this gap, focusing on the emulation of corpora using the suite of GPT-Neo large language models. To conduct our investigation, we emulated corpora of PubMed abstracts using three different parameter sizes of the GPT-Neo model. Our emulation strategy involved using the initial five words of each PubMed abstract as a prompt and instructing the model to expand the con- tent up to the original abstract’s length. Our findings indicate that the generated corpora adhere to Heaps’ law. Interestingly, as the GPT-Neo model size grows, its generated vocabulary increasingly adheres to Heaps’ law as as observed in human-authored text. To further improve the richness and authenticity of GPT-Neo outputs, future iterations could emphasize enhancing model size or refining the model architecture to curtail vocabulary repetition.
言語 en
出版者
出版者 NII Institutional Repository
言語 en
日付
日付 2023-12-12
日付タイプ Issued
言語
言語 eng
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_5794
資源タイプ conference paper
ID登録
ID登録 10.20736/0002001352
ID登録タイプ JaLC
関連情報
関連タイプ isReferencedBy
識別子タイプ URI
関連識別子 https://research.nii.ac.jp/ntcir/ntcir-17/index.html
言語 en
関連名称 NTCIR-17 Conference
開始ページ
開始ページ none
会議記述
会議名 NTCIR-17 Conference
言語 en
回次 17
主催機関 National Institute of Informatics
言語 en
開始年 2023
開始月 12
開始日 12
終了年 2023
終了月 12
終了日 15
開催期間 December 12-15, 2023
言語 en
開催会場 National Institute of Informatics
言語 en
開催国 JPN
戻る
0
views
See details
Views

Versions

Ver.1 2023-10-26 13:03:27.440207
Show All versions

Share

Share
tweet

Cite as

Other

print

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR 2.0
  • OAI-PMH JPCOAR 1.0
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX
  • ZIP

コミュニティ

確認

確認

確認


Powered by WEKO3


Powered by WEKO3