这是过去 100 天里,科大讯飞办的第三场大模型发布会,现场 1200 多个位置座无虚席,两侧过道和会场后排也站满了人。“科大讯飞 20 多个高管给大学生开发者让出了座位。” 科大讯飞创始人、董事长刘庆峰说。

8 月 15 日,科大讯飞发布星火认知大模型 2.0 版本,重点展示了编程能力和多模态能力,即根据文字或语音要求,自动生成和理解代码、图片的能力。科大讯飞宣布将这些功能同步到其多个产品和业务中,包括讯飞 AI 学习机,以及教育、汽车、金融和办公等场景的解决方案。

长达 140 分钟的发布会中,50 岁的刘庆峰难抑振奋,从头到尾保持高昂情绪,不停挥舞手臂,用嘶哑而洪亮的声音介绍科大讯飞的大模型进展。在科大讯飞研究院院长刘聪负责的现场展示环节,原本在一旁观看的刘庆峰自信也略带紧张,他会不时开口解说,向现场观众进一步展示技术细节和产品能力。

科大讯飞上一次这么受关注还是大约六年前,趁着当时的人工智能浪潮,其市值逼近千亿元人民币。这给科大讯飞带来了知名度和中国人工智能第一股的地位,也带来争议。

科大讯飞是中国少有的、直接靠人工智能技术产品盈利的公司。人工智能实力同样很强的一些互联网公司,更多情况下并不是让用户为技术直接付费,而是用推荐算法、搜索等人工智能能力汇聚流量,再通过广告赚钱。科大讯飞则在过去数年里,陆续推出了翻译机、学习机、办公本等人工智能硬件产品,还把人工智能技术做成解决方案出售给教育、医疗和金融等领域的客户。

但这种通过人工智能直接赚钱的商业模式,过往并未给科大讯飞带来巨大的营收与利润,它进入的多个市场也不在快车道上。且当时人工智能浪潮的技术热点是计算机视觉,并不是科大讯飞擅长的语音与自然语言领域。当时市场的一种声音是:科大讯飞的基本盘难以支撑千亿市值。

去年底开始的大模型热潮确实一个技术供给上的新变量:它带给科大讯飞的或许是一个不一样的机遇,这是它有可能靠长期的技术积累真正抓住的大机会。

资本市场的态度,部分反映了这种可能性:今年以来,科大讯飞市值增长超 90%,来到了 1360 亿元人民币。投资人有一个朴素的假设:当一场比赛开始,最有优势的可能是那批早已出发的人。

在大模型机遇出现之前,1999 年成立的科大讯飞,过去 20 多年一直在开发人工智能技术,尤以语音和语言技术见长。“NLP(自然语言处理技术)积累了 20 多年,做文本和语音的跨模态工作较多,而且语料质量很高。” 一位科大讯飞人士总结科大讯飞的优势。科大讯飞在大模型热潮之后行动迅速:

在 ChatGPT 推出后半个月启动大模型专项研究;半年后发布星火大模型 1.0 版本,并公开了带具体时间表的目标——今年 10 月 24 日,要开发出中文水平超越 ChatGPT,英文水平与之相当的大模型应用。

增强了代码和多模态能力的星火大模型 2.0 版本是上述计划中的重要节点。“代码能力是连接数字世界关键的支撑;而多模态能力能让通用人工智能赋能工业中的各种具体场景,并在未来进入每个家庭。” 刘庆峰在发布会上说。

科大讯飞召开发布会的同一天,国家网信办等多部门出台的《生成式人工智能服务管理暂行办法》正式实施,中国大模型竞争进入了新阶段——大模型落地将不再只是小范围的测试,而是具备了大规模推广的可能性,竞争将变得更加激烈和复杂。在这场竞争中,模型技术本身依旧重要,但让大模型不再 “胡说八道”,怎样让大模型变成更高效解决特定场景问题的产品,都成为了推广大模型的前提条件。

三个月两次大升级,逐步逼近 ChatGPT

今年 5 月 6 日,科大讯飞发布星火认知大模型 1.0 版本,现场展示了它生成文本(生成发言稿、邮件、新闻稿等),理解文本(检查语法、分析情感、翻译),以及在不同场景中做常识推理和科学推理的能力。这前后,不少中国发布大模型的公司多采用录屏方式演示,而讯飞是实机演示。

昨天的星火模型 2.0 发布现场,科大讯飞依然选择实机联网演示。科大讯飞研究院院长刘聪先展示了大模型基础能力的进步——长文本生成,不再只是泛泛介绍,而是会对已经发生的事实做总结;数学题解答,已经能处理高中较复杂的几何题。

在介绍最新的代码生成能力时,刘聪利用星火大模型做出来的编程助手,只靠不到 10 段语音和文字输入——比如 “我打算用 Python 开发这个功能,请提供具体分步实现的步骤,同时告诉我需要导入哪些包”,就生成了上百行 Python 代码。运转这些代码,能生成一个“凌空手写”的应用:它能调用笔记本电脑摄像头,识别人通过手势隔空划过的轨迹。

5 月发布星火大模型 1.0 版本时,刘庆峰坦言编程能力 “刚起步,只是有了初步的数据”。而现在他说,经过过去 2~3 周内部 2000 名员工的测试,他们发现使用星火大模型辅助编程,能将效率提高 30%。



科大讯飞现场演示生成代码。图片来自科大讯飞。

联网实时演示中有一个小插曲,也显出演示的真实。在展示大模型的多模态能力时,刘聪用手机现场拍了一张发布会照片,试图让大模型理解。第一次上传图片没成功,刘聪换了个手机测试,大模型随后描述了它 “看到” 的画面:“这张图片展示了一个大型活动,有一大群人坐在长桌旁……在场景中,我们可以看到一个大屏幕,上面显示着一些信息。整个场景给人一种热闹而正式的感觉。”

这次发布会兑现了科大讯飞 5 月发布首版星火大模型时的时间表承诺。当时刘庆峰称 “要向 OpenAI 致敬和学习,同时也要快速追赶并努力超越”,并公布了具体的升级节点:

-6 月 9 日:突破开放式问答、多轮对话能力再升级、数学能力再升级。

-8 月 15 日:突破代码能力、多模态交互再升级。

-10 月 24 日:通用模型对标 ChatGPT(中文超越,英文相当)。

一般公司不会对外公布精确到日期的时间表,科大讯飞是一众中国大模型玩家里唯一这么做的公司。这可能来自它对任务的清楚定义,和对路径的步步拆解。

去年底启动大模型研发时,科大讯飞的大模型研究团队就开始和认知智能国家重点实验室合作,针对 ChatGPT 展现出来的 48 个主要任务能力,设计出了通用人工智能的 7 个重要方向(文本生成、语言理解,知识问答、逻辑推理、数学能力、代码能力、多模态能力)的细化测试方法,用来评估大模型的能力和差距。

今年 5 月,刘聪谈到科大讯飞如何在半年时间研发出星火大模型时说:“有了全面对标 ChatGPT 的明确目标,在清晰的技术路径指引下,实现从 0 到 1 的突破。”

星火认知大模型 2.0 发布前,新华社研究院中国企业发展研究中心 8 月 12 日发布的《人工智能大模型体验报告 2.0》显示,科大讯飞的星火大模型在基础能力、智商能力、情商能力、工具提效四个方面的测评中,总分达到 1013 分。在参加测评的 8 个中国企业研发的大模型中,它最接近人类表现(1014 分)。

刘庆峰说,科大讯飞能做到这个程度,得益于过去 24 年的持续投入,有 “充分的技术积累和人才”。语音技术是科大讯飞创业起点,语言理解和处理是更进一步发展语音技术、做出更完整产品必须要攻克的难题。刘庆峰介绍,自 2011 年起,科大讯飞就承建了语音及语言信息处理国家工程实验室,2017 年承建认知智能国家重点实验室,并在 2022 年提出 “超脑 2030 计划” 研发通用人工智能技术;多年来,科大讯飞持续在全球相关技术竞赛,比如语音合成、机器阅读理解、科学知识推理等,拿下冠军。

推动大模型广泛落地,只有技术不够

目前大模型有四种主流的变现模式:

-开发大模型对话应用,按月 / 年向用户收费,比如 OpenAI 发布的 ChatGPT Plus。

-出售大模型 API 接口,向公司或开发者按照调用次数收费,比如 OpenAI、Claude、Google 等。

-直接卖大模型和定制开发服务,向传统企业输出大模型行业解决方案挣钱。比如一些创业公司和云计算公司。

-用大模型改造公司现有的业务,提高产品和解决方案的竞争力获得商业回报,比如微软、Google 等。

其中第一种和第二种商业模式侧重大模型技术能力;第三种侧重服务客户的能力,最后一种需要大模型公司此前已有适合应用大模型技术的产品或业务场景。科大讯飞过往的业务布局,使它在探索上述主要大模型变现方式上都有空间。

在提高现有产品与服务的竞争力上,科大讯飞在昨天的发布会中宣布把大模型新增的代码能力和多模态生成等能力,部署到学习机等现有产品和教育等行业场景中,比如帮老师生成课件;还发布了基于代码处理和多模态能力的商业化产品——iFlyCode1.0(编程助手)、讯飞智作 2.0(视频创作平台)、星火语伴 2.0(练习口语),并开启试用申请。

在输出大模型行业解决方案上,科大讯飞和华为一起推出了使用华为鲲鹏 CPU 和昇腾 GPU 的大模型算力硬件 “星火一体机”。一体机的特点是可以私有化部署大模型,适合有数据安全需求的大型客户。“一体机能让所有企业都可以在国产自主创新的平台上,更方便、更自主、更安全可控地私有化部署大模型。” 刘庆峰说。

科大讯飞会在研发新技术初期,就开始思考应用与商业化。与多数公司单独发布大模型不同,科大讯飞举办的三次大模型发布会,除了当场测试大模型能力,还会同步推出落地应用。

刘聪今年曾在一场活动中说,科大讯飞开始大模型技术攻关时就确立了 “1+N” 的大模型体系——“不仅要做基础通用大模型,还要同步做落地教育、医疗、办公场景的产品应用。‘N’ 的数据和场景可以更新到 ‘1’ 里、促进通用大模型能力迭代;‘1’ 的能力也能融入到 ‘N’ 的产品应用中,实现更快地落地。” 他称这是 “一个以终为始的系统性工程”。

前沿技术研发与商业化并行,是科大讯飞创业历程中逐渐形成的业务策略。1999 年成立时,科大讯飞就已经有了全国领先的语音技术。但创业前几年,科大讯飞亏掉数千万投资,最困难时账上只有 7 万元,濒临破产。

这些年,靠着已经成型的技术,科大讯飞尝试过各种现在看起来匪夷所思的变现方式,比如 “有声 Email”,让用户通过电话听互联网上的信息,但结果并不理想。

“讯飞的成长中,我们犯了无数的错误。” 科大讯飞高级副总裁江涛在 2013 年把这段探索经历称为 “弯曲的直线”,“做这些产品的过程中,我们也慢慢知道了该如何做产品,如何做工程,如何研究用户需求。”

技术是根本,但不是全部。如果一项前沿技术无法在实际应用中发挥价值,很难说它有意义。科大讯飞后来靠着承接安徽省农村中小学远程教育工程、安徽省中小学多媒体网络电脑教室等项目获得收入,并在 2008 年成为第一个上市的中国大学生创业项目。

这一年,科大讯飞成立研究院继续研发前沿技术,并同步推进如何把技术变现。之后十多年,科大讯飞围绕着持续进步的语音和人工智能技术,建立了一个同时 ToB/G 和 ToC 的业务版图:

-ToB/G 的业务是为教育、医疗、汽车、办公、金融、智慧城市领域的客户提供数字化、智能化转型方案,2022 年获得 141.8 亿元收入,占总营收 75%。

-ToC 是开发录音笔、智能办公本、翻译机等硬件产品和讯飞输入法、讯飞听见 APP、虚拟人等软件产品,2022 年收入 46.4 亿元,占比 25%。

与许多创业公司甚至是大型互联网公司相比,科大讯飞的优势是,有现成的大模型应用载体和服务政府、企业客户的多年经验。

在 5 月 6 日发布星火大模型 1.0 版本时,科大讯飞将其同步应用到学习机等硬件产品和医疗场景中。现在效果得到初步验证——据刘庆峰介绍,讯飞 AI 学习机的 GMV 5 月份比去年同期增长超 100% 多,6 月份增长超 200%。

更明朗的发展路径,更复杂的竞争格局

在昨天的发布会上,刘庆峰公布了更具挑战的新目标——明年上半年发布对标 GPT-4 的产品。

科大讯飞会继续在大模型上保持自己的投入节奏,并同时扩大开发者生态。

科大讯飞以往的研发投入策略是:70% 的力量投入到能支撑公司战略业务的技术上;20% 投入到技术全链路的整合中;10% 投入前瞻技术上。而在大模型上,刘聪说,科大讯飞会在 “721” 三个方向同时发力:训练出来通用大模型、持续迭代是 70% 的部分,是战略业务;用通用大模型覆盖细分行业是 20% 的部分,是技术整合,在整个过程中做神经网络层面的创新是 10% 的部分,是前瞻技术。”

科大讯飞也在努力扩展大模型生态,除开放算法能力或者输出 API 接口这些大模型公司常规操作外,刘庆峰称,科大讯飞还会给一些企业客户提供行业解决方案的设计参考,与 “行业龙头来共建行业大模型”。

没有技术基础的个人用户也可以是星火大模型生态的建设者。6 月 9 日,科大讯飞发布星火大模型 1.5 版本时,推出 “讯飞星火小助手” 功能,让用户能根据自己的意图,设定星火大模型回答问题的模式,比如回答每个问题时,都从正反两面分析和举例。6 月时,由普通个人建立的这样小助手有 1000 多个。到昨天的发布会上,刘庆峰宣布,两个月间,用户创造的小助手已经新增了 7800 个:“这些助手集中到讯飞平台上,能够让更多人用好大模型。”

刘庆峰说,《生成式人工智能服务管理暂行办法》正式实施后,科大讯飞会更多推广星火大模型,助手生态也会变得更丰富。

政策正式实施一定程度上也让大模型竞争变得更复杂。“既要兼顾发展,又要兼顾安全”,刘庆峰在发布会上谈到政策实施时说,大模型在各个行业深度应用,首要关键问题就是 “内容安全可控”,不仅要符合价值观,还不能有误导。

他认为科大讯飞有 “得天独厚” 的优势,其承建的语音及语言国家工程技术中心有语种判别器、质量判别器、隐私判别器和安全判别器等多种清洗文本数据的工具,能得到高质量的训练数据;科大讯飞同时会结合大模型与 “行业知识库”,回答特定行业问题时,大模型会抽取知识库的内容,让答案更加可靠。科大讯飞还跟《人民日报》等机构合作,训练大模型生成更安全、更注重价值观导向的内容等等。

“在这些(安全和防止幻觉)方面我们都有了非常显著的进展,我觉得认知大模型赋能千行百业的战略性的机遇正在开始到来。” 刘庆峰说。

去年底 ChatGPT 发布至今已经 9 个多月,中国大模型行业的发展已经从原本的追赶补齐大模型能力,来到了同时推进商业化、尝试规模落地的阶段。大模型竞争不再仅是一个技术和产品的竞争,而是一个混合着服务能力和生态能力的竞争。

题图来源:科大讯飞