继任命栾剑担任技术委员会AI实验室大模型团队负责人后,雷军于4月14日晚间在微博发文,首度谈及小米对大模型和AIGC的看法。
除了定下发展基调,雷军还透露,对于大模型,小米“正在研发一些有趣的技术和产品,等我们打磨好了,再给大家展示。”
事实上自3月份以来,各路互联网大佬和技术大牛,以及BAT华为360商汤等大厂密集发声,雷军此番表态,可谓“虽迟但到”。
值得注意的是,雷军在微博提及小米,在AI领域有AI实验室、小爱同学、自动驾驶等团队。
4月14日,据澎湃新闻报道,小米集团发布内部邮件,任命栾剑担任技术委员会AI实验室大模型团队负责人,向技术委员会副主席、AI实验室主任王斌汇报。
公开资料显示,栾剑现任小米技术委员会AI实验室语音生成团队负责人,曾任东芝研究院研究员、微软工程院高级语音科学家、微软小冰首席语音科学家及语音团队负责人等职位。
目前,网络上关于栾剑的报道并不多。在知乎上,他的个人标签为“小米NlP技术高级总监”。
2018年5月,知乎官方发布《我们和微软小冰发了一首单曲 为「新知青年」而唱》一文后,栾剑本人还赞同了该文章。
据SegmentFault报道,2019年11月,在微软小冰的一场内部WorkShop上,时任微软小冰首席语音科学家栾剑与另外两位“首席科学家”共同分享了微软小冰当年在自然语言处理、语音学研究、多模态生成等领域研究进展。
彼时,栾剑以《小冰唱歌技术进展》为题演讲。他提到,微软小冰团队“在语音合成领域大方面的东西可能已经解决,但语义理解方面,可能还需要通过长时间的积累和技术的发酵。”最终,团队找到了一个更有挑战性的课题——唱歌。做唱歌主要有三个原因:第一个原因,唱歌的门槛比说话高;第二唱歌的情感表达更加丰富激烈;第三它是一个很重要的娱乐形式。
值得一提的是,栾剑还在现场分享中提到,深度学习其实在上世纪90年代就火过一阵,但那个时候却没有取得像今天这么大的成果。他认为主要有两个主要的原因:
1. 因为硬件技术的方法,当时的算力还不够,现在有GPU,而且GPU还在不断地升级,所以它的计算能力在提高;2. 另外一个很重要的支撑就是数据,现在有大数据的支持,所以才能够把深度学习做得这么好。
北京大学现代信号与数据处理实验室于2021年5月发布的文章显示,2020年5月,小米人工智能部语音技术总监王育军及其团队应邀来校举行北大&;小米技术交流会。当天,栾剑博士的汇报题目是《语音生成技术》,介绍了语音合成的基本概念,并就该领域的关键问题展开讨论。
今年以来,ChatGPT爆火后,栾剑也在4月份接连在知乎发布两篇文章,分享自己的感悟。
作为“一个AI领域近20年的从业者”,栾剑在4月5日发布的《一个关于ChatGPT能力涌现成因的猜想》一文中认为,产生“涌现”能力的三要素可总结为:
大数据:如果数据不够丰富,就可能也没必要挖掘出“概念”与“常识”;大模型:如果参数量不够多,模型没有足够的空间去完成“层级结构”;多任务:如果任务比较单一,模型没有动力去做结构调整,“平行结构”成为模型的“偷懒”选择。
随后在4月8日发布的《hatGPT的训练过程对“鸡娃”的启示》一文中,栾剑“通过类比,尝试定性地探讨儿童教育可以从ChatGPT的训练过程中得到哪些启示”。
出身微软,拥有丰富的AI语音技术储备和工作经历,如今担任小米大模型团队负责人后,栾剑如何发挥自身优势,又能与“小爱同学”碰撞出怎样的火花,我们也只能拭目以待。
当地时间4月14日,英国《金融时报》援引知情人士消息报道,特斯拉CEO埃隆?马斯克(Elon Musk)正在组建人工智能初创公司,为了与ChatGPT的研发公司OpenAI展开竞争。
作为中美互联网圈,最受瞩目的“网红创始人”。马斯克都来了,雷军还会远吗?
从内部人才储备来看,小米目前已拥有超过1200人的AI团队。如今,雷军也终于为大模型团队选定了栾剑为“舵手”。
从服务能力协同来看,雷军手中亦有金山云这张底牌。金山云是金山软件的附属公司,在公司掌舵人雷军超前布局下,是与阿里巴巴最早在中国全力进军云计算的企业。
一方面,生成式AI应用背后的大模型需要更强的算力。OpenAI此前公布过一组数据,目前大模型训练所需算力的增速保持在3-4个月/倍速度增长,远超摩尔定律18-24个月/倍。
另一方面,区别于传统云计算平台提供的算力、存储等资源,拥有大模型的云厂商未来可以提供基于大模型开发应用。李彦宏不久前在接受采访时就抛出过类似的观点,未来企业在购买云计算的时候不看底层算力,而是看大模型的优劣。
在4月11日举办的阿里云峰会上,张勇表示,智能化时代带来算力的爆发,同时也提出了更高的要求,阿里云将为AI时代提供好算力基础和大模型能力,全面服务智能化进程。为此,阿里云要做好核心两件事:第一,让算力更普惠,推动自研技术和规模化经营的正循环,持续释放技术红利;第二,让AI更普及,让每家企业的产品都能接入大模型升级改造,并有能力打造自己的专属大模型。
随后在4月14日,腾讯面向大模型训练,发布“超强算力集群”,要助力企业云上训练AI大模型,解决中小企业和创业公司的算力压力。
天眼查App显示,近日,北京金山办公软件股份有限公司申请注册多个“chat 会议”“chat 演示”“chat 表单”“chat Office”“chat everything”等商标,国际分类为网站服务,当前商标状态均为申请中。
早在今年2月的小米投资者日上,对于小米在ChatGPT上的布局,小米手机部总裁曾学忠就表示,ChatGPT基于AI大模型、千亿级参数量、数据量、还有人工标注支撑,AI大模型方面小米一直都有投入。手机和汽车业务有很多AI大模型落地的场景。
随后,在今年3月的2022年财报电话会议上,小米集团总裁卢伟冰谈到ChatGPT相关问题时表示,小米很早就在AI大模型方面进行了许多部署,同时采用了多技术路线并行的策略,小爱同学就是小米大模型落地的代表。
据卢伟冰介绍,小爱同学已经做了6年,在与用户的交互体验中积累了长期可复用的经验,同时,小米有丰富的场景落地经验,小爱同学支持手机、音箱、车等多场景的智能融合。未来小米将继续大模型研究,引入更加先进的大模型能力,包括探索多模态能力、智能座舱交互体验提升等。
然而,需要注意的是,小爱同学的产品能力,与基于GPT-3.5训练而来的ChatGPT仍有不小差距。何况,OpenAI也已发布了更为先进的GPT-4大模型,就连GPT-5也已身处“传说”中。
此前,微软CEO萨蒂亚·纳德拉最近在接受英国《金融时报》采访时表示,苹果的Siri、亚马逊的Alexa,微软自家的Cortana(中文名:小娜)以及公认拔尖的Google Assistant,这些语音助手有一个算一个:都笨得跟石头一样。
随后,微软在2021年就正式宣布停止支持iOS和上的Cortana应用,仅保留对Windows平台的支持。
直到OpenAI带来了ChatGPT,微软直接“满血复活”,战斗力爆表。
Siri联合创始人Adam Cheyer也在近期表示,ChatGPT理解复杂信息的能力让现有的语音助手看起来很蠢。
在全球最大的代码托管平台Github上,有开发者尝试将ChatGPT接入小爱同学,Star数已经达到了1.3k。据项目介绍,只要有ChatGPT的账号、小爱音箱、正常连接ChatGPT的网络以及python 3.8+,人人都可以在小爱音箱上使用“ChatGPT版小爱同学”。
具体原理为,唤起小爱同学后,以“帮我”开头询问的问题会自动以文本形式发送一份给ChatGPT,同时会屏蔽小爱同学原本的回答,替换成“正在问GPT,请耐心等待”,而ChatGPT生成的文本则会被小爱同学通过TTS(语音合成技术)进行语音回答。
从开发者的演示显示,整个过程足够流畅,实际回答也远超小爱同学原本的“智力”。
然而,小米官方显然不能直接与OpenAI合作,推出“ChatGPT版小爱同学”。
作为对比,早在今年2月,百度旗下人工智能助手“小度”就宣布,小度将融合“文心一言”的全面能力,打造针对智能设备场景的人工智能模型“小度灵机”,并应用到小度全系产品。
随后在3月份的文心一言发布会上,百度创始人李彦宏曾表示,文心一言差不多是今年1月份ChatGPT的水平,但差距不大,可能只是一两个月的时间。
由此可见,小爱同学距离ChatGPT,至少还差一个文心一言,然后再加“一两个月的时间”。