transformer_第20页

GPT模型如何在自然语言处理任务中利用Transformer取得卓越效果？,ai_vv_ai

AI⋅ 12-26 ⋅ 1214 阅读

本文详细探讨了GPT模型在自然语言处理（NLP）任务中，如何通过运用Transformer架构，实现了对多种任务的高效处理，尤其是在语言理解、文本生成和翻译等领域，取得了显著的成果。

技术⋅ 11-15 ⋅ 297 阅读

现在，随便丢给机械手一个陌生物体，它都可以像人类一样轻松拿捏了——除了苹果，罐头、乐高积木、大象玩偶、骰子，都不在话下：这就是来自MetaFAIR团队最新的NeuralFeels技术，通过融合触觉和视觉，机械手可以更精确地操作未知物体，精度最高提升了94%！这项研究还登上了ScienceRoboti...

Meta 版 Sora 无预警来袭！抛弃扩散模型，音视频生成 / 画面编辑全包，92 页论文无保留公开

技术⋅ 10-06 ⋅ 396 阅读

刚刚，Meta抢在OpenAI之前推出自己的Sora——MetaMovieGenSora有的它都有，可创建不同宽高比的高清长视频，支持1080p、16秒、每秒16帧。Sora没有的它还有，能生成配套的背景音乐和音效、根据文本指令编辑视频，以及根据用户上传的图像生成个性化视频。Meta表示，这是&qu...

谷歌揭秘大模型不会数 r 原因：嵌入维度是关键，不止分词器问题

技术⋅ 09-05 ⋅ 1713 阅读

大模型做奥赛题游刃有余，简单的数数却屡屡翻车的原因找到了。谷歌的一项新研究，发现大模型不会数数的原因，并不是简单的tokenizer所致，而是没有足够的空间来存储用于计数的向量。数出一段话中某个单词出现的次数，这样简单的任务可以难倒许多大模型，GPT-4o、Claude3.5也无法幸免。如果再进一步...

4 秒看完 2 小时电影！阿里发布通用多模态大模型 mPLUG-Owl3

技术⋅ 08-20 ⋅ 589 阅读

4秒看完2小时电影，阿里团队新成果正式亮相——推出通用多模态大模型mPLUG-Owl3，专门用来理解多图、长视频。具体来说，以LLaVA-Next-Interleave为基准，mPLUG-Owl3将模型的FirstTokenLatency缩小了6倍，且单张A100能建模的图像数目提升了8倍，达到了4...

大模型对语言有自己的理解！MIT 论文揭示大模型“思维过程”

技术⋅ 08-17 ⋅ 687 阅读

大模型对现实世界，可以形成自己的理解！MIT的一项研究发现，随着模型能力越强，它对现实的理解可能不仅是简单模仿。比如大模型没有闻过气味，是否就意味着它不能理解气味？研究发现，它可以自发模拟一些概念，方便理解。这项研究意味着，大模型未来有希望更深入理解语言和世界，论文已被顶会ICML24接收。这篇论文...

AI21 Lab 推出了一种新的 LLM 架构 Mamba

技术⋅ 05-11 ⋅ 1448 阅读

AI21Lab推出了一种新的LLM架构MambaAI21Lab推出了一种新的LLM架构Mamba，同时发布的还有基于这个架构的模型Jamba。模型将会开源。Mamba是一款创新的结构化状态空间（SSM）模型，其设计目的是为了克服传统Transformer架构的限制，但它本身也存在一些不足。而Jamb...

iOS 17带来了哪些令人直观的升级体验？

技术⋅ 01-17 ⋅ 1889 阅读

一、熄屏待机（Standby），让iPhone更个性了从iOS14的桌面小组件，到iOS16的个性化锁屏，再到如今iOS17的熄屏待机（Standby），苹果在个性化方面的进步，可谓一步一个脚印。当iPhone处于横置并充电的状态时，就会自动进入待机界面。iOS17提供了三种待机形式：小组件、照片以...

与“transformer”相关的TAG标签