【听杨姐说】
中科院计算所研究员、微信人工智能首席科学顾问、博士生导师罗平是庖丁科技的AI大脑。他发现,正有越来越多的金融从业者在庖丁科技的网站上上传正在撰写的文件,有的甚至是两个共同撰写者各自分别上传自己的那部分。
没错,矫正错误正是金融“民工”们的硬需求:哪个IPO申请书或者财报文件都不容有一丁点错误——轻则导致经济赔偿,严重的数据错误甚至可能导致上市失败。
而事实上形势比看到的更加严峻。
2018年1月12日,财政部在自己的官网上刊登了一篇《我国上市公司2016年执行企业内部控制规范体系情况分析报告》。
报告中称,2016年在2931家披露内部控制是否存在缺陷的上市公司中,942家披露内部控制存在缺陷,占比32.14%,其中42家披露内部控制存在重大缺陷,40家披露内部控制存在重要缺陷,895家披露内部控制存在一般缺陷;1989家披露内部控制未存在缺陷,占比67.86%。
不论对监管层还是上市公司,抑或是第三方审计机构,这都是一个非常令人抓狂的数字。
一些审计机构正在招人手来解决这个问题,但看起来相当麻烦,因为不仅人力成本巨高且耗时巨大。他们也试图通过IT部门寻找一个更加高效的解决办法,但IT部门却找不到一个能够真正解决问题的服务商。
然而,这正是AI公司庖丁科技罗平他们正在做的事。
中科院计算所研究员、微信人工智能首席科学顾问罗平
罗平所建立的AI模型,专门研读沪深证券交易所上市公司公开披露的年度内部控制评价报告、内部控制审计报告、年度报告等公开资料,针对企业内控报告披露存在的问题,还可以智能甄别遗失披露、不及时披露、格式不规范、补充更正、前后矛盾、认定标准不明晰等主要问题。
“这会是我们今年的战略产品!”庖丁科技CEO高大光透露:“目前庖丁科技的AI模型对IPO文件的纠错能力,已经高达99.9%!”
金融民工的硬需求
知乎上有一个调查:整个金融行业什么样的职位最苦逼,排在第一名的是投资银行家,他们非常的苦!他们苦在哪儿呢?投行的从业者门槛非常高,每个人都必须要有光鲜的背景,都是海归、或名校毕业。
但是实际上他们每天都做着非常苦的工作,特别是事业初期的投行从业者,每天都在撰写各种金融文档、各种募集说明书,包括债券募集说明书、IPO或者资产证券化说明书。
这些说明书平均都是500页以上,撰写工作非常繁杂枯燥。而且这些东西都有 Deadline,错过要等好几个月才能重新审批。如此大的工作量,经常让他们感到非常痛苦。
这些金融监管机构对文档的要求那是非常高,不仅要真实、准确还需要完整,由于公开的金融文档具有一定法律效力,如果数据有错误,则可能要面对诉讼连带责任。
此外,文档的质量往往关乎IPO是否能成功,也是证监会考评每个投资银行的重要指标。如果级别从A降到B,投行每年将支付更多的监管费用,这是很大的一笔运营成本。
举两个例子:2011年,高盛的一个私募产品,里面存在数字方面的错误,带来超过 4500 万美金的赔偿诉讼。另外,国内某银行在财报中公布“负债8亿亿”,实际上是8万亿。
“有的即将上市IPO公司老板对错别字都零容忍。”庖丁科技董事长林得苗透露,因为他就怕出一丁点错影响上市发行,“而这些,我们都能检查出来,而且是在短短的20多分钟里就能搞定。如果是普通的公司,大约要20个人干15天!”
AI读懂你的财报
其实罗平和林得苗之所以给这套AI系统取名庖丁解文,就是取义于“庖丁解牛”这个成语,希望AI技术能够像庖丁一样,干净利落的把金融文档结构化。
创立庖丁科技的最初动因听起来很有“爱”:林得苗的爱人在金融机构上班,每天做的就是周而复始的文案工作,其中涉及不少数据核对等问题。林得苗就想,为什么不能用人工智能的技术来解决这些问题呢?
已经是个连续创业者的林得苗行动力超强,他立刻找到了在惠普时的老同事罗平,其实他们两个都是同一届毕业的学生,两人相熟多年,一拍即合。罗平用了三个月,就完成了核心产品——AutoDoc。2017年8月庖丁科技开始融资,9月份完成第一轮融资,目前正在筹备第二轮融资。
这是一个用AI取代人工智能提升基础文本工作效率的产品。它的主要功能是财务数据复核。用户只需上传需要复核的金融文档,经过自动解析和比对,机器会自动标注出数据不一致的地方。
庖丁科技在1000个已公开的债券募集说明书上进行测试和人工确认。测试结果是:其中68.92%的文档存在数据不一致的错误。
2017年10月,全球最大的资产管理公司贝莱德的负责人在北京与高大光等人一起吃了饭时,直接就问:“把你的东西卖给我吧”。他之所以下这个决定,很简单的一个逻辑就是,庖丁科技的产品有人在用:“从投资领域也好,商业社会也好,能把最先进、最前沿的技术落地,才是最有用的。”
事实上,这套系统的智能和复杂程度并没有操作起来的那么简单。
除了自然语言的理解外,还有表格。一般的表格是结构化的,但是很多财报里的表格并没有边框,计算机就无法读懂。罗平和庖丁科技的团队通过一个黑科技技术可以自动给没有边框的表格“加上边框”,从而将非结构化的数据结构化。
这是一个结构化的过程——只有读懂语义,提取出这样的信息才是有用的。所以,在某种程度上,庖丁是通过技术来讲所有财报的内容重新“翻译”了一遍,将这些内容变成了计算机能读懂的语言,特别是一些超级长的句子。
“我们还有个核心技术是可以帮他们做自动撰写、自动复核等一系列的工作。因为在这些行业里面不能有错,有错的话损失太大了,比如说IPO去审核的时候因为文档里有一个数字有问题,就直接失去IPO资格,损失会非常大,所以这个场景的切入点会是这些金融机构的刚需。当然,我们把这些数字结构化之后,也会有更为广阔的应用空间。”罗平说。
中国的palantir
其实,如果跳出庖丁来看庖丁,你会发现,这家公司挑选了金融领域做AI,是很有“目的”的一个决定。
今天的银行、基金、保险、券商、信托、期货,所有金融的东西,包括用微信支付,实际上都在跟金融发生关系,金融领域涉及了人类所有的经济活动,中石油也好、中国移动也好、腾讯也好,只要他做得足够大,都会在资本市场进行融资,都会在资本市场继续做资本运作,这些东西都被金融数据记录下来。
而庖丁科技真正想做的,其实是从金融开始,扎到每一个细分领域去——例如现在美国有一家全世界最大的大数据商业分析公司palantir,也是从金融开始扎到365行里。
说起这家palantir的创始人之一Peter Thiel,就是大名鼎鼎的paypal的创始人。palantir这家公司本来默默无闻,结果在2015年时被人翻出来居然已经有了202亿美元的估值,排名仅次于Uber和Airbnb之后。
palantir主要有两个平台最强悍,一个是PalantirGotham平台,另一个是Palantir Metropolis平台,但前者主要用于国防安全领域,后者更偏重于金融领域的应用。
事实上,Palantir最为人津津乐道的案例有两个,一是此前美国政府追捕本拉登行动中,Palantir扮演了重要的情报分析的角色;二是Palantir协助多家银行追回了纳斯达克前主席麦道夫BernieMadoff所隐藏起来的数十亿美元巨款。
庖丁科技显然只是在后者上正在效仿Palantir,他们试图建立更丰富的属性图谱,在垂直领域成为图谱的底层提供商,从而最终能够形成一个“资本图谱”!
换句话说,那些被关联得越来越多的知识图谱、属性图谱,未来都将成为一个神奇的金融AI的基础——甚至能够用于对一个公司贷款、投资等决策的依据!
这样的工作需要更多的时间来“养成”,市场潜力也颇为巨大。中国在2016年的时候传统的金融机构在IT方面的投入差不多一年1000亿左右,而且都是投向基础IT,比如说工商银行买电脑等等,所谓智能化的投入不到1%,也就是10亿左右。
现在保守估计,到了2020年,智能化的升级应该占到总投入的20%以上,在美国那边更高。比如Palantir公司在2016年已经通过NLP及计算机视觉技术,分析所有场景的大数据,最后给各个行业公司运用,他们在2016年的收入是35亿美金。
一个会令人颇为期待的挑战是,目前据说有几家国际巨头都要进入中国国内做类似的事,但罗平认为,这对巨头来讲挑战比较大,因为中文是非常复杂的一种语言。相对来说,其实中国的AI去做英文的内容相对来说更加简单。
杨姐点评:
是的,庖丁科技也有个小小的野心——进入英文市场。
契机是美国证监会要求投行的人用“最平实”的语言来描述标的企业,每句话都要让普通大众老百姓都看得懂。针对这样的要求,庖丁科技如鱼得水,因为庖丁科技的技术恰恰不是写一个规则把这些东西提取出来,而通过数据驱动的方式来将之“识别”出来。
那么庖丁科技最终的目标究竟是什么呢?
庖丁科技通过将自己的AI模块部署到金融机构的私有云里,帮助金融机构处理他们最头疼的文档,但他们最终希望得到的并不是数据,而是一个训练得无比聪慧的大脑,这个大脑无论运用到哪里都将成为一个最有经验的决策者。
注意,基于传统的知识图谱构建的新的资本图谱,能够把传统意义上金融投资机构在做的事情用计算机来代替,这是美国同类公司正在做的。而前文提到的贝莱德是全世界最大的资产管理公司,管理着5万亿美金,他们最害怕的不是像他一样资产管理机构,最害怕的是那些Google、Facebook这样的公司,因为害怕他们造出来的AI最后能够取代投资经理来进行投资,或者有那么一、两个资深的人就OK了。
因为,这意味着像庖丁科技这样的AI公司未来就是一个新的金融机构!
举报/反馈

小白

5142获赞 3.4万粉丝
关注TMT
优质财经领域创作者
关注
0
0
收藏
分享