《中华大字库》CBF2018:比GAN快一万倍的AI工程案例

《中华大字库》CBF2018:比GAN快一万倍的AI工程案例

基于LAN的超高速神经网络算法模型

作者:何海群   QQ:357811718(字王)

LAN,是Log-AI-NET的缩写,中文名称是:基于逻辑的神经网络算法模型,比目前GAN生成式对抗网络、CNN卷积神经网络等各种AI模型,在速度上快一万倍。

有关的工程案例:《中华大字库2018》(简称CBF2018),已经发布在Github项目网站:

https://github.com/ziwang-com/CBF2018

或参见字王网站:http://ziwang.com/

对标项目,是Github项目网站基于GAN的神经网络算法案例:

https://github.com/kaonashi-tyc/Rewrite

 


【zw-ps#2】

最近,“徐匡迪之问”,直击中国人工智能产业软肋_算法 http://www.sohu.com/a/311862344_671272

中国有多少数学家投入到人工智能的基础算法研究中?” 在日前上海召开的院士沙龙活动上,中国工程院院士徐匡迪等多位院士的发问引发业界共鸣,被称为“徐匡迪之问”。

zw不知道具体答案是什么?

不过,zw知道,做基础研究,是一项很辛苦,很枯燥,甚至很寂寞的事情,而且很耗精力时间。

20年前,zw的《中文字型设计新思路–人工智能与中文字型设计》 http://ziwang.com/?p=248

是全球字库领域,第一篇基于AI的原创论文,如今,也是中文字模设计的的三大基础模式之一。
暴雪、宝洁和方正的字体案件当中,多次引用zw以上资料,作为行业技术文献。
GITHUB上面各种智能字体项目,以及最新的ps内置智能字体设计模块,都已经证明了zw提出的AI模式,在产业战略方面的正确性。
2018,zw的CBF2018,超过4000套中文个性化字体,从工程角度证明了:LAN网络模型的可操作性。
参见:字王《中华大字库》CBF2018版·发布说明  http://ziwang.com/?p=258

LAN,是Log-AI-NET的缩写,中文名称是:基于逻辑的神经网络算法模型
老实说 :这个LAN模型,属于AI基础理论 ,如果有资源,报个工程院的院士项目,还是马马虎虎的。
毕竟相关的工程案例摆在GITHUB上面:《中华大字库》CBF2018:比GAN快一万倍的AI工程案例 。
不服气,各位专家可以做个案例,超越CBF2018看看。
zw允许大家使用GPU,使用集群,使用TF、Torch等各种优化手段。

至于LAN算法模型的推广,以及在其他领域的应用,留待广大同仁一起努力吧。
至于LAN的未来,也许不是AI产业唯一的正确模式,但绝对是正确的产业模式之一。

本文与其说是论文,不如说是科普blog。
毕竟LAN的工程作品已经完成,无需再故弄玄虚,引用一些深奥的专业术语。
所以,可以尽量用简单化,大白话,来介绍LAN的基本思路。

【zw-ps#1】

他山之石可以攻玉。

目前所有AI智能投顾项目,特别是基于神经网络的,授之于算力,都自黑暗中摸索。

关于算力陷阱,我这里有个具体测试案例:
基于dash-usdt交易对的45天15分钟分时数据(20190301–20190414),才4306条简化数据,就两个字段:tim+close

一个最简单的Prophet自动拟合模型,建模需要11个小时,i7-cpu平台

CBF2018不管如何,是个已经实现的工程案例,希望CBF2018这个案例,能够给AI智能投顾的应用带来一些启发。

全文参见:《AI算力陷阱,Prophet工程案例实测》  http://www.topquant.vip/?p=1127


CBF2018,在纯CPU(i7-4980HQ)环境下,无需任何GPU加速,每小时可生成全套国标二级中文字库,约7000个字符,512×512像素,其中,50%时间是用于truetype格式编译,字符图像计算时间,大约20-30分钟。

对标案例Rewrite,采用GTX 1080加速:小模型大约需要20分钟,而中型模型需要80分钟,大型模型需要2小时。每组数据只有3000个字符,输入数据为128×128像素,输出数据才64*64像素。

仅从单个汉字的像素尺寸,CBF2018的运行速度,比对标案例Rewrite快100倍。

  • CBF2018单字是:512×512=262144
  • Rewrite单字是:64*64=4096

从单字角度对比,CBF2018的计算量,是Rewrite的64倍;CBF2018约7000个字符,Rewrite只有3000个字符。

单组数据,运行时间都是20分钟左右,由此推断,CBF2018的运行速度,比基于Rewrite的快150倍。

考虑到Rewrite有GTX 1080加速,而CBF2018,是纯CPU(i7-4980HQ)运算,两者硬件的计算速度,大约也有50-100倍左右的差距。

因此,单从算法模型而言,基于LAN的CBF2018,比基于GAN的Rewrite案例,速度快1万倍是可以接受的。

之所以出现如此大的差距,这是因为神经网络算法模型的先天缺陷:黑箱模型。

以TensorFlow,pyTorch为代表的新一代深度学习、神经网络算法模型,其底层核心是:BP反向传播函数,以及更上层的CNN 卷积神经网络。

目前,整个神经网络模型,仍然没有一个完整的理论基础,所有的案例,全部是基于:黑箱模型,或者说是基于:暴力运算。例如,AlphaGo的简化版本,输入参数就超过一亿个。

因此,各种深度学习、神经网络算法模型,都需要借助大量的GPU,进行饱和式“暴力运算”,才能获得一定的结果。

Geoffrey Hinton(杰弗里·辛顿),被誉为 “神经网络之父”,“人工智能教父”,是BP反向传播算法的主要开发者,近年也表示:

他现在对BP反向传播算法“深感怀疑”,“我的观点是把它全部抛掉,重头再来。”

对标案例Rewrite,其实本质上,还是源自pyTorch的经典案例:pix2pix梵高画风,这方面Github案例很多,以下是两个相关的模型结构图:

图1,GAN模型结构图1 

图2,DC-GAN模型结构图2

 

由图1、图2的GAN模型结构图当中可以看出:模型本身并没有相关的逻辑,而是基于两个子模型:G模型、D模型的反复迭代,不断修正误差值,来获取最终数据。

图3,地毯式饱和轰炸

 

这个类似二战的地毯式饱和轰炸,所以需要大量的GPU加速卡,来进行超饱和的“暴力运算”,破解最终结果。

图4,精确制导

 

而基于LAN的CBF2018,则类似现代的高科技智能制导武器,精确打击,有的放矢,甚至可以千里之外,执行针对敌方领导人的斩首行动。

图5是简化版本的基于CBF2018项目的LAN算法模型图:

图5 简化版基于CBF2018项目的LAN算法模型图

 

由图5可以看出,LAN算法模型,更多接近古典AI人工智能,需要预先建立相关的各种知识库。

通过两个案例的对比,我们可以发现,由于专业知识库的建立,计算时可以根据项目逻辑,淘汰了99.9%的无效计算,从而大幅度提高算法模型的计算效率。

不过,LAN算法模型,还是初级阶段,存在各种各样的缺点:

  • 需要先建立相关的各种知识库,这方面可以借助新一代的深度学习算法,比传统手工标注模式,领先很多。
  • 通用性差,各种项目,需要根据其内在逻辑,建立不同的算法模型。

 

不过,相比传统算法模型一万倍效率的提升,LAN模型的这些缺点,都是可以逐渐克服的。

 

附录:

《中华大字库》CBF2018,可以说是目前电脑AI中文字库的巅峰之作。

《中华大字库》是个性化中文字库的开创者,也是全球收录字体最多的中文电脑字库。 94版《中华大字库》CBF1994,收录个性化中文整体180款,是全球首套中文字库突破百套大关的中文电脑字库。

2018版《中华大字库》CBF2018,收录个性化中文整体4435款,是全球首套中文字库突破千套,4k两大关口的中文电脑字库。

预计,2020版《中华大字库》CBF2020,会推出一万套中文字体,成为全球首套中文字库突破“万套”大关的中文电脑字库。

更多资料,请参见:

字王网站:http://ziwang.com/

https://github.com/ziwang-com/CBF2018

 

科研成果,AI人工智能是不是有效,一个最大的特点就是可以大规模投入应用,以及第三方验证:

CBF2018,采用的Log-AI-NET(基于逻辑的神经网络算法模型),是目前国内唯一工业级的人工智能项目,无需人工干预,能够批量化、全自动生成“专家级”最终作品。

从创意、设计、到ttf字库设计,所有环节全部数字化,可完美仿真人工手写书法,以及泼墨、飞白等传统书法的特殊效果。

2018版CBF《中华大字库》升级工程,是国庆节后启动的,短短一个月,就完成了开发平台由Delphi到Python的移植,以及4500余款AI中文字库的全部设计工作。


CBF《中华大字库》部分作品浏览:

以下作品全部由电脑AI自动生成,没有任何人工后期ps修正。