日本語ってだけでAIに出遅れる | おっちゃんねる

おっちゃんねる

ここはおっちゃんの憩いの場 (´・ω・`)

Top / 詳細

日本語ってだけでAIに出遅れる

2023年08月23日
6

1. 名無しのおっちゃん

2023年08月23日 12時58分 ID:5eab1a2b3d (1/1) ID抽出 返信

①文書量が英語と比べて少なすぎる
学習データは質問と回答を1対1にした文章を大量に作成する必要がある
例えばGPT3.5は5000億くらいの文章で学習してるそうだ
それに対して日本語言語モデルは多くて10億くらい
普通なら7億とか1億ちょいとか
AIは学習量が多ければ多いほどいいので
日本人しか使ってない言語を学習元にすると
それだけで出遅れる

②文章の分解が面倒
単語を繋げて書くので単語辞書を用意して形態素解析をして品詞単位で分けないといけない
英語なら半角スペースで区切ってるので形態素解析が不要になる

③為替
学習元データの作成は何千何万人という大人数の単純労働者を雇って最低賃金で作らせるのが普通
MSとかFBとかだけでなくGoogle以外のAI企業は皆そうしてる
しかし日本人を雇うと高いし外国に発注するにしても円安で高い
予算が足りていないのでバカの一つ覚えでWikipediaを学習させる
どいつもこいつもWikipediaを学習させるので質が上がらない

コメントを投稿する


カテゴリー一覧

おっちゃんねる