人工智能长出了鼻子？！

Give me a chemical structure, I can predict its smell....

（Image from： http://www.sciencemag.org/news/2017/02/artificial-intelligence-grows-nose）

Science二月的一篇新闻，以“人工智能长出了鼻子（Artificial intelligence grows a nose）”为题报道了计算机科学家设计了一系列算法以通过不同分子的化学结构预测其气味。接着，Science以report的形式，以“从气味分子的化学特征中预测人类的嗅觉感知（Predicting human olfactory perception from chemical features of odor molecules）”为题较详细地介绍了该工作。

IBM的Pablo Meyer及其同事在2015年建立了梦想嗅觉预测挑战赛。（DREAM Olfaction Prediction Challenge），通过主办方提供的气味分子的感知性质数据集，参赛队伍开发出机器学习算法，以基于气味分子的化学特征来预测感知性质。感知性质，如大蒜味、鱼腥味、甜味、水果味、酸味等，这些数据是由洛克菲勒大学Andreas Keller及其同事通过志愿者来闻各种气味分子，判断是否有某种气味并对其打分而收集得到。通过上述各种气味分子感知性质数据和化学特征数据，研究者们就可以设计算法让计算机来学习化学特征和感知性质之间的对应关系。那么对于一个新的分子，看到它的化学结构，就能知道它的气味。

感知性质数据集是由49个志愿者对476种不同的气味分子的21种性质打分得到，每种分子有两种稀释浓度，并且其中的20种分子设置了两种稀释浓度的重复（总测试次数992=476*2+20*2）。所以，可以看成是992*21*49的三维矩阵（见图A）。化学特征数据集，即476*4884的矩阵，由476种分子每种对应的4884个化学特征组成，通过Dragon software package得到（见图B）。

主办方将476个不同的分子分成三组（见图C），即训练集、验证集和测试集。其中训练集和验证集是选手用于训练优化模型的, 测试集是由主办方用来测试选手提交的模型性能的。训练集包含338个分子，验证集包含69个分子，测试集包含剩下的69个分子。模型需要预测出测试集中，49个个体分别对每个分子21种性质的打分（个体感知）；以及相应地，每个分子每种性质的均值以及标准差（群体感知，见图D）。

最后有18支队伍提交了模型，文章对这18个模型进行了分析评价。文章利用不发布的测试集，以各个模型对感知性质的预测值和志愿者嗅觉实验的实际值之间的相关性作为评价指标。总的来说，模型能预测出气味分子的浓烈程度和好闻程度，并且对其他19个语义描述的性质成功预测出其中的8个（“大蒜味”、“鱼腥味”、“甜味”、“水果味”、“烧焦味”、“香料味”、“花香味”以及“酸味”）。个体感知预测最佳模型由密歇根大学的Yuanfang Guan团队获得，群体感知预测最佳模型由亚利桑那州立大学的Richard C. Gerkin获得，他们所使用的模型皆基于随机森林（见图A）。文章评价说正则化的线性模型（见图B）可以取得和基于随机森林的模型一样好的效果。