Python成为AI的主流开发语言,是一个很复杂的问题。包括编程语言特性、AI开发特点、社区环境支持等因素都对这一结果有影响。我这里主要结合个人经历来谈谈我觉得的原因。
作为一个脚本语言,python非常轻量级,很适合做数据处理。比如调整、合并文件内容等。很多操作,甚至可以直接在命令行中做。
如果需要交互、需要留存代码,也可以用ipython,jupiter lab等“类似命令行”的开发工具来完成。结合了轻量级、即时交互、代码留存的优势。
【----帮助Python学习,以下所有学习资料文末免费领!----】
而我们知道,AI开发里很多时候在处理数据,常见的比如清洗数据、数据集分割、分词并根据word2vector词表转成词ID向量、计算评价指标等。用Python,可以很好的完成这些步骤。
而一个人一般同一时间只能写一种代码,不然语法容易弄混,毕竟很多时候都是肌肉记忆,不会过脑子的。记得我刚写python时就喜欢每行后面打个分号。。。所以,预处理后处理都用python解决的花,中间模型的代码也用python解决会更顺一点。
python的pickle包,以及更高级的,tensorflow和huggingface中的dataset对象,也给数据保存和传输带来了很大的便利。
这里说得还不只是那些耳熟能详的神经网络工具。
我们先来看看历史,看看神经网络刚开始火起来的那几年(2012年左右)python环境支撑。这有助于帮助我们了解为什么tensorflow等工具在python中出现。
numpy,1995年,提供了大量矩阵运算工具。
NLTK,2001年,提供了大量自然语言处理工具。
Scikit-learn,2010年,提供了大量传统机器学习的算法与评价指标。
这些工具为基于Python的神经网络工具,如Theano(2008年)、Tensorflow(2015年)等奠定了基础。
当然,同期也有很多竞品。比如C/C++的caffe、OpenCV、word2vector,Java的Stanford CoreNLP,HanLP等。所以,一度有一个说法,是做CV的用C/C++,做NLP的用Python/Java。我在2015年左右刚接触NLP时,还纠结过应该用哪种语言来着。
TensorFlow和Keras都是2015年发布的。早期Keras只支持Theano的backend,后来也支持了TensorFlow。
2015年那会儿,神经网络并不好写。反正我写作业,简单的前馈神经网络,用过java、C#等。而复杂的神经网络,用啥写的都有。因为Theano等库实在太难用,我也见过直接用numpy写CNN的。但这些玩意儿对初学者实在不友好。
而keras简直是神器,居然支持layer对象,居然直接有fit和evaluate方法,极大地方便了初学者学习神经网络,从而提高了Python在AI 开发中的地位。
后来的Tensorflow和Pytorch吸收了很多keras中优秀的特性。并且基于这些,有了很多更高级的工具,如DGL和transformers等,让python的环境生态得以蓬勃发展。同时,由于python的用户群体很大,很多其它工具也都开始提供python接口。比如Stanford CoreNLP(2016年)。
而我觉得,这些的根源,主要是Tensorflow和Keras的成功所吸引的用户群体和业界的关注。
刚开始学习python,如果你连完整的学习步骤都没有规划好,基本不可能学会python。他把Python所有方向路线做了整理,形成各个领域的知识点汇总。(图片太太太太太大了,这里放不了没完整版可以文末免费领取)
从事数据分析需要用到的一些硬技能,如python、SQL等工具如何使用!
我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。
学python就与学数学一样,是不能只看书不做题的,直接看步骤和答案会让人误以为自己全都掌握了,但是碰到生题的时候还是会一筹莫展。
因此在学习python的过程中一定要记得多动手写代码,教程只需要看一两遍即可。
我们学习Python必然是为了找到高薪的工作或者高报酬的兼职,下面是一些公司所能用到的实战项目,学完这些相信大家一定可以找到满意的工作。
11 Django框架
18 通用爬虫模块使用
…
21 数据分析
还有其他的一些东西,比如说我自己出的Python入门图文类教程,没有电脑的时候用手机也可以学习知识,学会了理论之后再去敲代码实践验证,还有Python中文版的库资料、MySQL和HTML标签大全等等,这些都是可以送给粉丝们的东西。