虽然语音识别系统最近已经有了很大的进步,但是目前还没有哪一个AI系统在理解会话语言方面做的足够好。语音识别依赖于听懂你的话并预测你将要说什么,因此相比非结构化语言,结构化的语言要容易理解的多。
语音识别系统,或者更广泛的机器学习系统,都有其限制,它们往往更适用于特定的问题。比如理解人和机器的对话与理解人和人之间对话是不同的。当你用来自谷歌的人机对话数据来训练机器学习系统,那么这个机器学习系统在理解Facebook上人与人之间对话的表现将会相对较差。训练一个能够只需要近距离对话的AI,和训练一个在更大的空间范围内使用的AI(比如Echo),也有很大的不同。这些系统的限制很多,这意味着我们离更通用的AI系统还有很大的距离。
从心理学层面上来说,一旦你对着一个AI说话,那么就会比你使用文本或者图形界面与计算机交互要投入更多感情。我观察到的很有意思的一点是,当我为Jarvis 植入声音之后,我会希望它能更幽默一些。其中一部分原因是因为它现在可以与Max对话,我希望对话有趣一些,能够逗Max开心。另一部分原因感觉它一直在我们身边。我教了他一些有趣的小游戏,比如我和Priscilla可以问它我们应该挠谁的痒痒,他会随机告诉我们一个名字:Max或者Beast。我还会增加一些经典台词,比如“对不起,Priscilla。恐怕我做不到”。
在语音这一领域还有很多需要探索。AI技术刚刚变得能够成为一款伟大产品的基础,在未来的几年它会变得越来越好。同时,我认为最好的产品应该可以随身携带而且可以进行私密性对话的。
Facebook的工程环境
作为Facebook的CEO,我并没有多少时间写代码,但我从未停止过编程。不过这些日子以来我主要是在创建我的个人项目Jarvis。我本来只希望今年能够了解一些AI的现状和进展,但是我发现学到的远远超出了我的预期,感觉自己就像是Facebook的一个工程师。
我在Facebook的代码库中升级的经验可能和大多数新的工程师类似。我们的代码结构组织非常好,不管是脸部识别、语音识别、Messenger Bot框架(messenger.com/platform)还是iOS开发。你很容易找到你想要的。为了能够在GitHub的Atom文本编辑器上使用,我们创建了开源包——基于Atom的Nuclide(github.com/facebook/nuclide),这让开发工作变得更容易。我们也创建了Buck系统(buckbuild.com)来开发大型项目,这节省了我很多时间。我们开源的文本分类工具FastText(github.com/facebookresearch/fastText) 也值得一看。如果你对开发AI也有兴趣的话,也可以看看Facebook Research(github.con/facebookresearch)在Github上的所有开源项目。
”快速行动“是我们的价值观之一。这意味着到Facebook来的人创建App的速度必须比在其他任何地方都快,包括自主开发。到我们这来的员工可以使用我们的基础设施和AI工具来创建那些依靠自己需要很长时间的东西。创建让工程更高效的内部工具对任何的科技公司来说都是非常重要的,而Facebook在对待这一问题上更加重视。在这里,我要给我们的团队一个大大的赞!
接下来的工作
尽管这个挑战已经结束了,但我仍将继续优化Jarvis,因为我每天都在使用它,而且常常发现我想添加的新功能。
近期,下一步工作应该是创建安卓App,在更多的房间里放置Jarvis语音终端,连接更多的家电。希望未来能够用Jarvis来控制我的Big Green Egg碳炉。
未来,我还会探索如何教会Jarvis如何自主学习的技能,而不是让我去教它执行特定的任务。如果我要花费一年的时间来应对这个挑战,那么我会专注于理解学习本身这个过程是如何运作的。
最后,随着时间的推移,如果能够找到方法让Jarvis可以让全世界的人都使用将会更有趣。我考虑过开源我的代码,但是目前Jarvis跟我自己的家、家里的电器以及网络设置的联系太紧密了。如果我能创建一个能够将更多通用的智能家庭功能集合起来的layer,或许那时候我会开源。当然,那可能会是创建新产品的好的基础。