У нас вы можете посмотреть бесплатно AIの学習データは全部同じ場所から来ている ― Common Crawl【機械学習】 или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
ChatGPT、Claude、Gemini、LLaMA…世界中のAIが持つ膨大な知識。 その知識の「素材」は、実はほぼすべて同じ場所から来ています。 Common Crawl ― たった3人のスタッフで毎月インターネット全体をクロールし、 そのデータを無料で公開している非営利団体。 数兆ドル規模のAI産業が、この小さなNPOの上に成り立っているという驚くべき構造を、 基礎の基礎から丁寧に解説します。 ▼ 目次 2:00 AIが賢くなるにはデータが必要 3:12 データを集めるのは大変 5:22 Common Crawlの登場 7:07 生データから学習データへ ― フィルタリング 9:02 すべてのAIが同じ食材を食べている 10:28 データの偏りと課題 11:56 データの民主化と未来 ▼ 登場する概念 ・LLM(大規模言語モデル)― ChatGPTのような、大量の文章を読んで言葉を操れるようになったAI ・ウェブクローリング ― インターネット上のページを自動で巡回してダウンロードすること ・Common Crawl ― 毎月インターネット全体をクロールし、データを無料公開する非営利団体(2007年設立) ・コーパス / トークン ― AIの学習に使う大量のテキストデータとその処理単位 ・C4 ― GoogleがCommon Crawlを厳密にフィルタリングして作ったデータセット ・FineWeb ― HuggingFaceが96回分のクロールから15兆トークンを抽出したデータセット ▼ 登場する人物 ・Gil Elbaz ― Common Crawlの創設者。Applied SemanticsをGoogleに売却した起業家 ▼ 参考文献 ・Mozilla Foundation (2024) "Training Data for the Price of a Sandwich: Common Crawl's Impact on Generative AI" ・Brown et al. (2020) "Language Models are Few-Shot Learners" (GPT-3論文) ・Raffel et al. (2020) "Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer" (C4) ・HuggingFace (2024) "The FineWeb Datasets" (15兆トークン) ・Common Crawl公式サイト: https://commoncrawl.org/ ▼ キャラクター ずんだもん・四国めたん(VOICEVOX) https://voicevox.hiroshiba.jp/ ▼ 立ち絵素材 坂本アヒル 様 ▼ 画像素材 いらすとや https://www.irasutoya.com/ ▼ 使用BGM 「なんということはない日常」by こおろぎ 様 https://dova-s.jp/bgm/play353.html #CommonCrawl #AI #機械学習 #LLM #データサイエンス #ChatGPT #ウェブクローリング #ずんだもん #VOICEVOX #解説動画