У нас вы можете посмотреть бесплатно 特斯拉公开自动驾驶算法结构,一一拆解看看机器如何实现人眼的功能 или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
常回基地看看 欢迎加入我的电报群 https://t.me/jidi2020 这位 站在世界自动驾驶最前沿的男人 特斯拉的自动驾驶技术总监 是不是得研究研究 先别急 俗人的问题先问 这么牛的人 他老师是谁呢? 这位 大家务必务必务必要认识一下 这里我必须要多用几个务必 李飞飞 站在世界人工智能领域顶端的华人 行业内 神一般的存在 特别是机器视觉 那经历是相当传奇啊 来体会一下 普林斯顿大学物理系高材生 毕业不去大科技公司 华尔街投行 去西藏研究了一年 然后回去读到博士 当老师 一路教教教成了斯坦福大学的终身教授 “关门弟子” 高徒 就是特斯拉的AI技术总监 安德烈·卡帕西 卡帕西作为李飞飞的助教 在斯坦福有一堂公开课 机器视觉的入门课程 相当的火 大家有空可以去看看 教书只是开始 在技术领域一身荣誉 然后去谷歌 现在又去推特当董事了 传奇吧 这还哪里到哪里 这些都是我们看到的世界 李飞飞的传奇 未来要是拍成电影 绝对比邦德精彩 扯的有点太远了 还是要回归今天的主题 安德烈·卡帕西 给大家上课啦 详解特斯拉是如何做自动驾驶的 太干了 实在太干了 我们一起来嚼一嚼 看看能不能嚼点汁水出来 我们人类的眼睛只能看都 400nm到700nm的这个极窄波段的光 我们自己看到的并不是真实的世界 这影响我们生存吗?并没有 为了让我们的大脑不至于崩溃 信息量太大 光怪陆离的 不得疯了 个个成梵高 所以我们的眼睛 和大脑 打了个配合 做了减法 看那么多干啥 同样的道理 这是行驶过程中 特斯拉周身8个摄像头拍摄到的不同的画面 看那么多干啥 特斯拉的“大脑” 现在的芯片实时处理不过来 那就先做减法 所以第一步 看那么多干啥 压缩数据 只留下开车这是 需要的数据 路标 车 人 各种线等等 专业说法就是 把摄像头数据压缩进一个更小的矢量空间 具体怎么做呢? 首先面临的问题就是 我们平时开车就会注意到 摄像头看到的世界跟真实的世界它不一样 要是广角的那就更不一样了 在汽车不同位置的摄像头拍到的同一物体 也不一样 比如 你看旁边有辆suv经过 这个摄像头拍到了车头 这个拍到了车尾 那要还原汽车所处的这个三维环境 是不是要先把这8个摄像头的画面信息(1280x96012位(HDR)@36Hz) • How Tesla Autopilot Feature works 拼图 是不是没办法拼 都“变形”了 所以第一步需要校正 特斯拉给出了完整的原理图 图像被送入一个校正模块(Rectify) 实景中有很多标品 不同汽车不同长宽高 线与线之间距离等等 这些现实世界的交通数据模型 是现成的 把摄像头看到的虚拟化 换成实际的代表图像 第二步就是 该看的看 不该看的不看 我们上路开车 需要叮住路上一切蛛丝马迹 风吹草动吗 显然不用 那不得累死 开趟车跟下一盘围棋一样烧脑 那谁还开车 于是要信息提取 矫正后的画面被送入自分类网络【RegNet】 提取特征 图片是由一个个像素点组成的 那是不是就有个维度问题了 几个像素点组成一个特征呢 8个 100个 1000个? 啥意思? 就是如果我们把每个特征看成一个神经元 不同的神经元 组成一张网 把单个神经元放大 又组成一张网 这样根据需要 输入的一张图像是不是可以对应n张网 叠成一个金字塔 这也是模仿的我们人类的认知过程 先看局部 再看整体 如果瞅一眼就知道那是一只猫 为什么要睁大眼睛仔细瞅呢 这就是我们经常听到的卷积神经网络CNN 形象的表示 具体很复杂 我们大题了解下是个什么东西 不断的训练 可以提高识别准确率和降低计算量 特斯拉 根据需要 得到这个4层金字塔 这些信息被送入一个叫 BiFPN 的模型 干啥? 先看一层 这是一只猫吗? 看不出来 上一层看看 好像是 不太确定 那就在上一层确认下 确实是一只猫 多层提取信息 合并重要特征 以上是8个摄像头 每个摄像头实时要做的前期功课 接下来就是完成拼图 信息进入Transformer模块 将8个摄像头的资料融合成一个图像 这里真是世界的影像就抽象化成了一个抽象化的矢量空间 实时绘制出了一个汽车周边的三维地图 从左边 数据化到了右边 此时特斯拉就准确看到了什么东西 在哪里 现在我们还怕特斯拉的那满地跑的8个摄像头吗? 特斯拉不会存储录像 更不可能上传了 要实现实时看见 反而是第一件事情就是要丢掉这海量的数据 要实现自动驾驶必须要提取需要的关键数据 抽象化以后 为己所用 特斯拉需要的数据是那是不是个人 这对它很重要 而不是那是谁 她今天去了老王家这种信息 个体的数据对自动驾驶没有任何驾驶 但是 理论上 大量特斯拉在路上 加上背后的dojo超级计算机 能获得该区域的宏观出行数据 这种数据能读出该地区的真实经济状况 人群生活习性等等宏观数据 这些大数据倒是很重要 需要保护 我们个体 某个单位实在没必要大惊小怪 自己吓自己 惊奇和恐惧都是源自于不了解 现在实时三维地图有了 接下来就是要解决时间戳和空间运动问题了 特斯拉怎么解决的呢? 这馒头实在是太干了 嚼的腮帮子痛 得歇歇 我们下期继续 常回基地看看 谢谢