zwPython.com研习社

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 432|回复: 1

《中华大字库》CBF2018:比GAN快一万倍的AI工程案例

[复制链接]

189

主题

196

帖子

3471

积分

超级版主

Rank: 8Rank: 8

积分
3471
发表于 2020-8-6 08:32:28 | 显示全部楼层 |阅读模式
《中华大字库》CBF2018:比GAN快一万倍的AI工程案例 2019年4月19日  zw










《中华大字库》CBF2018:比GAN快一万倍的AI工程案例
【zw-ps】
他山之石可以攻玉。

目前所有AI智能投顾项目,特别是基于神经网络的,授之于算力,都自黑暗中摸索。
关于算力陷阱,我这里有个具体测试案例:
基于dash-usdt交易对的45天15分钟分时数据(20190301–20190414),才4306条简化数据,就两个字段:tim+close
一个最简单的Prophet自动拟合模型,建模需要11个小时,i7-cpu平台
CBF2018不管如何,是个已经实现的工程案例,希望CBF2018这个案例,能够给AI智能投顾的应用带来一些启发。
全文参见:《AI算力陷阱,Prophet工程案例实测》  http://www.topquant.vip/?p=1127

基于LAN的超高速神经网络算法模型
作者:何海群   QQ:357811718(字王)
LAN,是Log-AI-NET的缩写,中文名称是:基于逻辑的神经网络算法模型,比目前GAN生成式对抗网络、CNN卷积神经网络等各种AI模型,在速度上快一万倍。
有关的工程案例:《中华大字库2018》(简称CBF2018),已经发布在Github项目网站:
或参见字王网站:http://ziwang.com/
对标项目,是Github项目网站基于GAN的神经网络算法案例:
CBF2018,在纯CPU(i7-4980HQ)环境下,无需任何GPU加速,每小时可生成全套国标二级中文字库,约7000个字符,512×512像素,其中,50%时间是用于truetype格式编译,字符图像计算时间,大约20-30分钟。
对标案例Rewrite,采用GTX 1080加速:小模型大约需要20分钟,而中型模型需要80分钟,大型模型需要2小时。每组数据只有3000个字符,输入数据为128×128像素,输出数据才64*64像素。
仅从单个汉字的像素尺寸,CBF2018的运行速度,比对标案例Rewrite快100倍。
  • CBF2018单字是:512×512=262144
  • Rewrite单字是:64*64=4096
从单字角度对比,CBF2018的计算量,是Rewrite的64倍;CBF2018约7000个字符,Rewrite只有3000个字符。
单组数据,运行时间都是20分钟左右,由此腿短,CBF2018的运行速度,比基于Rewrite的快150倍。
考虑到Rewrite有GTX 1080加速,而CBF2018,是纯CPU(i7-4980HQ)运算,两者硬件的计算速度,大约也有50-100倍左右的差距。
因此,单从算法模型而言,基于LAN的CBF2018,比基于GAN的Rewrite案例,速度快1万倍是可以接受的。
之所以出现如此大的差距,这是因为神经网络算法模型的先天缺陷:黑箱模型。
以TensorFlow,pyTorch为代表的新一代深度学习、神经网络算法模型,其底层核心是:BP反向传播函数,以及更上层的CNN 卷积神经网络。
目前,整个神经网络模型,仍然没有一个完整的理论基础,所有的案例,全部是基于:黑箱模型,或者说是基于:暴力运算。例如,AlphaGo的简化版本,输入参数就超过一亿个。
因此,各种深度学习、神经网络算法模型,都需要借助大量的GPU,进行饱和式“暴力运算”,才能获得一定的结果。
Geoffrey Hinton(杰弗里·辛顿),被誉为 “神经网络之父”,“人工智能教父”,是BP反向传播算法的主要开发者,近年也表示:
他现在对BP反向传播算法“深感怀疑”,“我的观点是把它全部抛掉,重头再来。”
对标案例Rewrite,其实本质上,还是源自pyTorch的经典案例:pix2pix梵高画风,这方面Github案例很多,以下是两个相关的模型结构图:
图1,GAN模型结构图1
图2,DC-GAN模型结构图2

由图1、图2的GAN模型结构图当中可以看出:模型本身并没有相关的逻辑,而是基于两个子模型:G模型、D模型的反复迭代,不断修正误差值,来获取最终数据。
图3,地毯式饱和轰炸

这个类似二战的地毯式饱和轰炸,所以需要大量的GPU加速卡,来进行超饱和的“暴力运算”,破解最终结果。
图4,精确制导

而基于LAN的CBF2018,则类似现代的高科技智能制导武器,精确打击,有的放矢,甚至可以千里之外,执行针对敌方领导人的斩首行动。
图5是简化版本的基于CBF2018项目的LAN算法模型图:
图5 简化版基于CBF2018项目的LAN算法模型图

由图5可以看出,LAN算法模型,更多接近古典AI人工智能,需要预先建立相关的各种知识库。
通过两个案例的对比,我们可以发现,由于专业知识库的建立,计算时可以根据项目逻辑,淘汰了99.9%的无效计算,从而大幅度提高算法模型的计算效率。
不过,LAN算法模型,还是初级阶段,存在各种各样的缺点:
  • 需要先建立相关的各种知识库,这方面可以借助新一代的深度学习算法,比传统手工标注模式,领先很多。
  • 通用性差,各种项目,需要根据其内在逻辑,建立不同的算法模型。

不过,相比传统算法模型一万倍效率的提升,LAN模型的这些缺点,都是可以逐渐克服的。

附录:
《中华大字库》CBF2018,可以说是目前电脑AI中文字库的巅峰之作。
《中华大字库》是个性化中文字库的开创者,也是全球收录字体最多的中文电脑字库。 94版《中华大字库》CBF1994,收录个性化中文整体180款,是全球首套中文字库突破百套大关的中文电脑字库。
2018版《中华大字库》CBF2018,收录个性化中文整体4435款,是全球首套中文字库突破千套,4k两大关口的中文电脑字库。
预计,2020版《中华大字库》CBF2020,会推出一万套中文字体,成为全球首套中文字库突破“万套”大关的中文电脑字库。
更多资料,请参见:
字王网站:http://ziwang.com/
https://github.com/ziwang-com/CBF2018

科研成果,AI人工智能是不是有效,一个最大的特点就是可以大规模投入应用,以及第三方验证:
CBF2018,采用的Log-AI-NET(基于逻辑的神经网络算法模型),是目前国内唯一工业级的人工智能项目,无需人工干预,能够批量化、全自动生成“专家级”最终作品。
从创意、设计、到ttf字库设计,所有环节全部数字化,可完美仿真人工手写书法,以及泼墨、飞白等传统书法的特殊效果。
2018版CBF《中华大字库》升级工程,是国庆节后启动的,短短一个月,就完成了开发平台由Delphi到Python的移植,以及4500余款AI中文字库的全部设计工作。

CBF《中华大字库》部分作品浏览:
以下作品全部由电脑AI自动生成,没有任何人工后期ps修正。


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
【极宽QQ群】
群号:1057170501 ,zwPython.com学习QQ群,面向py初学者和大众小白用户。
群号:124134140,TOP极宽金融量化,三千人超大QQ群,面向专业金融实盘用户。
群号:699266891,TFB极宽足球大数据QQ群
群号:790548107,FASTAI智能量化QQ群。
【微信公众号】
请大家关注TOP极宽量化公众号,大量原创Python量化技术
回复

使用道具 举报

0

主题

10

帖子

30

积分

禁止发言

积分
30
发表于 2020-10-16 06:26:57 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|zwPython.com研习社

GMT+8, 2020-12-1 03:28 , Processed in 0.065805 second(s), 4 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表