对于意识的生物学基础,我非常同意Filestorm的观点/结论,即
意识的生物学基础是大量神经元集群的协同活动
我在Neuroanatomy领域从是过数年的研究,实际切过人脑组织,并系统研究过从微观(神经元)到宏观(脑区、大脑)的各种尺度的人脑结构和功能。实际的经验加上大量的论文给我的直观感受就是如此简单——意识无非是大量神经元的协同活动。但是这里的“大量”和“协同”才是根本性的关键问题,也是普通人很难使用实际形态的事物或者概念去理解的——这么物理/数学模型简单的神经元,如何大量地协同起来去达成复杂的功能的呢。理解这个问题,我主观性的认为,其工具不在于神经科学/心理学领域,而在于数学/计算机科学,这也是我转行的主要动机。幸运的是,计算机科学最近数年的发展,已经能过为我们理解这个问题提供初步的工具了。
- 意识的最基本单元:神经元和突触
神经元之间最直接的连接在于从一个神经元的轴突到另一个神经元的树突通过突触的连接。一个神经元的树突可以接收多个神经元轴突的连,同样地,一个神经元的轴突也可以连接到多个神经元的树突。姑且认为,这种连接是单向地,也就是,信号以放电的形式,只能从上一个神经元的轴突传导到下一个神经元的树突。实际上,即使这种连接是双向的,如果转换成网络,两个神经元组成的无向图在拓扑上等价于由它们组成的两个有向图。所以,我们考虑神经网络的问题,可以把这个生理结构最为简单化,也就是使用最为简单的数学/物理模型表示:
一个神经元j接收由上一个神经元传来的信号(强度) ,并给出反应(放电) . 这个神经元对于来组不同轴突的信号敏感性不同,对于 信号所来的轴突,其敏感性为 ,同时该神经元对信号的响应函数(激活函数)为f, 那么对于这个信号的输出 . 如果考虑来自于n个轴突的信号,则有:
. 实际上,神经元总是有一个额外的输入,称为bias, 并有对应的敏感性(权重),这里暂不考虑。
2. 神经元到神经元网络
从几个神经元到神经元网络,事情就突然变得复杂起来,因为这个事情的复杂度至少是指数增长的。不过我们仍然可以使用类似如下一类的多个基本神经元网络来等价生物神经元网络的拓扑结构:
这就是我们经常听说或者接触的神经网络。可以这样简单理解:多个数据从各自对应的树突传入,经过几个神经元的处理(加权、响应、bias等),在某个神经元的轴突传出放电信号。这个过程在生物大脑中无时不在进行。
在生物体中,神经元网络里的权重和响应函数可以通过多种方式得到改变。对于底层功能,比如基础视觉、听觉,最为常见的权重改变方式为“用进废退”(Use it or lose it) [1]. 也就是,使用越多(在适度的方位内,放电越频繁)的神经元连接会得到增强,而长期不使用的神经元连接会被削弱甚至断开。对于高级功能对应的神经元/神经元网络,其权重改变方式则要多变和复杂的多,除了用进废退,还有反馈,协同等等已知和未知的方式。
在现有的常见神经元系统中,神经元连接权重的改变的主流方法在于反向传输(Back
Propagation)[2, 3],这是一种反馈方式. 简单来说,就是将输出信号跟目标信号以一定方式进行比对(loss
function),然后将误差反向传导,以一定的速度(量)来改变对应神经元连接的权重(微分)。通过如下简单的python代码可以很容易的理解这个过程:
import numpy as npN, D_in, H, D_out = 64, 1000, 100, 10x = np.random.randn(N, D_in)y = np.random.randn(N, D_out)w1 = np.random.randn(D_in, H)w2 = np.random.randn(H, D_out)learning_rate = 1e-6for t in range(500):
# Forward pass: compute predicted y
h = x.dot(w1)
h_relu = np.maximum(h, 0)
y_pred = h_relu.dot(w2)
loss = np.square(y_pred - y).sum()
print(t, loss)
# Backprop to compute gradients of w1 and w2 with respect to loss
grad_y_pred = 2.0 * (y_pred - y)
grad_w2 = h_relu.T.dot(grad_y_pred)
grad_h_relu = grad_y_pred.dot(w2.T)
grad_h = grad_h_relu.copy()
grad_h[h < 0] = 0
grad_w1 = x.T.dot(grad_h)
# Update weights
w1 -= learning_rate * grad_w1
w2 -= learning_rate * grad_w2
3. 意念对象与Autoencoder
这里,我将意念对象定义为我们在意识中想象事物或者概念。举例来说,我们想到树,会在意识中绘制其形状、色泽、动态特征等(编码过程)。如果问我们怎么知道我们想的东西是树呢,因为我们想象的形状、色泽、动态特征符合树的特征。当然,对于一个没见过树的可怜人来说,TA是不可能一下就能获得这个正确的意念的,而是需要多次的看、触摸以及想象。那么为什么我们人总是能通过这样的方式获得正确的意念对象呢?
换用到计算神经网络,这就变得容易解释起来。在神经网络语境下,Autoencoder(自编码器)是一种应用反向传输算法的非监督学习神经网络,其训练的方法在于让网络的输出等于其输入,也就是 .
一般地,Autoencoder被认为是一种数压缩算法,其数据的压缩和解压缩(decoder)是数据相关(数据驱动)、有损的。考虑到生物大脑神经网络的复杂性,我们有理由相信,在高等生物大脑中,存在大量的Autoencoder-decoder网络结构。而越来越多的神经科学研究也支持这一显然性的假设——我们因此能使用一些简单的算法,从大脑的信号中解码出视觉信息[4], 解码出的信息跟视觉信号输入高度类似,但也反映出一定的“压缩”特征:
Autoencoder的训练方式非常简单,就是让输出等于输入。这对于一个空白的、没有事物概念的人脑(刚出生的婴儿)来说,训练是可行的。Autoencoder的存在可能是我们意识中生成意念事物结构基础。我们想象人脸,在意识中生成的图像不是某一个具体的人的人脸,而是人脸的很多特征的组合——形状、肤色、结构和结构关系等,这些具体的特征就是Autoencoder的feature
map.
由于Autoencoder的数据驱动性,我们意想同一个事物所生成的图像不是一成不变的,随着年龄的增长,我们意想的人脸可能更年长;出国生活一段时间之后,意想的人脸可能更具有一些外国人的特征。
4. 意识的噪声/潜意识、梦与 GAN
GAN(Generative
Adversarial Network, 生成对抗网络)
[5]是目前在机器学习领域最为火热的话题之一(可能没有之一)。GAN的提出受启发与二人零和博弈,GAN中有两个这样的博弈者,一个生成模型(G,
Generator),另一个是判别模型(D,
Discriminator)。以图像生成模型举例。假设我们有一个图片生成模型,它的目标是生成一张真实的图片,同时我们有一个图像判别模型它的目标是能够正确判别一张图片是生成出来的还是真实存在的。其训练过程如下:
生成模型生成一些图片->判别模型学习区分生成的图片和真实图片->生成模型根据判别模型改进自己,生成新的图片->····
这个训练过程直到判别模型无法通过训练提高自己的判别精度,也就是无法区分生成模型产生的图片是虚构的(网络生成的)还是真实存在的。典型地,假设生成模型是 , 其输入 是一个随机噪声,而 则是将这个随机噪声转化为一张图片(尽量跟真实图片接近,从而愚弄D)[6]:
GAN的训练过程由于涉及到两个网络的优化,其训练过程较一般神经网络要更复杂——两个网络相互对抗、不断调整参数,从而生成以假乱真的效果:
对于我们人脑来说,这个联合训练过程是一直存在的,我们在大脑中生成意向,同时还用意识(逻辑)判断这个意向是否准确; 同时,对于我们越了解的事物,生成的意向的细节就越丰富。另外还有一个有趣的因素在于,我们大脑中生成网络所依赖的神经结构和判别网络所依赖的神经结构在空间区域上有所不同——生成图像、声音等网络的结构涉及级视觉、听觉等皮层,它们位于枕叶、颞叶等区域;而判别网络设计的逻辑推理等相关结构则大量位于前额叶及附近区域[7-9]。这一异位造成了非常有趣的结果——我们人类在意识放空、睡眠时候,前额叶区域的活跃水平会明显下降,而视觉、听觉皮层在这个时候可能保持高的活跃水平[10,
11],也就是生成网络所依赖的结构活跃的同时,判别网络的结构功能受到抑制——这大大抑制了判别网络的性能表现,而生成网络的性能较少受到影响。这个时候、我们的潜意识信号(来自神经系统广泛存在的噪声)则会作为输入,以生成网络的输出的形式浮现出来,而我们的判别网络误以为真,从而意识跟着这些生成的假意向移动,造成梦里的图像和剧情。我们大脑中没有受到抑制的记忆相关区域则不分真假、公正无私地把这些过程存储下来,形成我们醒来之后的梦的记忆——光怪陆离、时真时假,通常逻辑混乱。这就是我们的“梦”的神经网络解释。
在我们的神经系统生病、受到压力时候,生成网络和判别网络所依存的神经结构可能已经受损,这会使我们产生幻觉,以及更为怪诞的梦境。
5. 意识与 Hidden Markov Model(隐马尔可夫模型)
光有意念对象还不够,这些意念对象要相互联系起来,流动起来,加入逻辑,构成“剧情化”的形象,才叫做意识。
意念对象,可以认为是马尔可夫过程中的状态,一种状态以一定概率跃迁到另一种状态(可见状态链),就将各个意识对象联系起来,同时我们不用了解这些状态之后的具体影响因素(隐含状态)。由于隐马尔可夫链[12]的这一特性,我们经常地将前后出现的事物之间的关系误解为因果关系。我们在成长的过程中,不断地改变这些状态之间跃迁的概率,使它更符合外界事物的情况,同时使我们自己越来越reasonable,
越来越理性(理想状态下)。
由于人脑神经网络的复杂性,这里列举的网络结构只是九牛之一毛。个人认为这些网络结构的原理和特性对于我们理解意识的机制是最为重要,所以加以来说明。此外还有一些网络也是非常常见的,同时不可或缺,比如我们常见的CNN(Owl of Minerva:卷积神经网络工作原理直观的解释?), RNN, LSTM,Restricted Boltzmann Machine等。
通过上面的说明,我们可以发现,“意识”并不是一个纯生物学的机制,我们不能把它放在生物学/神经科学/心理学的范畴下求解。至于判断一种生物存在是否是具有意识的,这很大程度上取决于意识的定义,如果将能形成意念对象作为意识的标准,那我们可以认为所有能听|能看|能感受外界环境的生物都是有意识的。
[1]
Lim, J. H. A., Stafford, B. K., Nguyen, P. L., Lien, B. V., Wang, C.,
Zukor, K., ... & Huberman, A. D. (2016). Neural activity promotes
long-distance, target-specific regeneration of adult retinal axons. Nature neuroscience, 19 (8), 1073-1084.
[2] Hecht-Nielsen, R. (1988). Theory of the backpropagation neural network. Neural Networks, 1 (Supplement-1), 445-448.
[3] Le Cun, Y., Touresky, D., Hinton, G., & Sejnowski, T. (1988, June). A theoretical framework for back-propagation. In Proceedings of the 1988 Connectionist Models Summer School (pp. 21-28). CMU, Pittsburgh, Pa: Morgan Kaufmann.
[4]
Miyawaki, Y., Uchida, H., Yamashita, O., Sato, M. A., Morito, Y.,
Tanabe, H. C., ... & Kamitani, Y. (2008). Visual image
reconstruction from human brain activity using a combination of
multiscale local image decoders. Neuron, 60 (5), 915-929.
[5]
Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D.,
Ozair, S., ... & Bengio, Y. (2014). Generative adversarial nets. In Advances in neural information processing systems (pp. 2672-2680).
[6]
Radford, A., Metz, L., & Chintala, S. (2015). Unsupervised
representation learning with deep convolutional generative adversarial
networks. arXiv preprint arXiv:1511.06434.
[7] Heit, E. (2015). Brain imaging, forward inference, and theories of reasoning. Frontiers in human neuroscience, 8, 1056.
[8]
Fangmeier, T., Knauff, M., Ruff, C. C., & Sloutsky, V. (2006). fMRI
evidence for a three-stage model of deductive reasoning. Journal of Cognitive Neuroscience, 18(3), 320-334.
[9]
Christoff, K., Prabhakaran, V., Dorfman, J., Zhao, Z., Kroger, J. K.,
Holyoak, K. J., & Gabrieli, J. D. (2001). Rostrolateral prefrontal
cortex involvement in relational integration during reasoning. Neuroimage, 14 (5), 1136-1149.
[10] Kosslyn, S. M., & Thompson, W. L. (2003). When is early visual cortex activated during visual mental imagery?. Psychological bulletin, 129 (5), 723.
[11] Horikawa, T., Tamaki, M., Miyawaki, Y., & Kamitani, Y. (2013). Neural decoding of visual imagery during sleep. Science, 340 (6132), 639-642.
[12] Blunsom, P. (2004). Hidden markov models. Lecture notes, August, 15, 18-19.