茂名365在线网是茂名地区的大型综合性新闻网站
当前位置:茂名365网 > 新闻 > 国内新闻 >

我们问了Yann LeCun等16个顶级数据科学家,这是他们给数据新人的建议

2018-05-20 18:08 网络整理 点 击:移动版

标签:

      

大数据文摘作品
织梦内容管理系统

编译:Fei、杨小咩是小怪兽、张南星、Rita、云舟 内容来自dedecms


本文来自织梦

数据科学为何迷人?这与数据科学家密不可分! 织梦内容管理系统


copyright dedecms

通过合理使用大量数据,在这群人的手中,大批新应用、新行业应用而生。

dedecms.com


织梦内容管理系统

语音识别,计算机视觉中的物体识别,机器人,自动驾驶汽车,生物信息学,神经科学,系外行星的发现,对宇宙起源的理解,以及在经费有限的条件下,组织一支胜出的棒球队。

内容来自dedecms


本文来自织梦

数据科学家是整个产业的核心。他们必须将应用领域的知识与统计专业知识结合起来,并运用最新的计算机科学思想来实施。 织梦内容管理系统


织梦好,好织梦

本文节选自《工作中的数据科学家》,书中采访了16个不同行业的16位顶级数据科学家,以了解他们在理论上如何思考,以及在实际中解决什么问题,数据的作用和取得成功的原因。 内容来自dedecms


织梦内容管理系统

本文中,你将看到这些来自不同行业的科学家对以下这个问题的回答: copyright dedecms


内容来自dedecms

“你会给初入数据科学行业的人提供什么建议?”

织梦内容管理系统


内容来自dedecms

去年,大数据文摘也花费3个月的时间,访谈了来自不同国家不同行业的。感兴趣的同学可以在文末看到这十篇内容。

本文来自织梦


dedecms.com

copyright dedecms


织梦好,好织梦

Chris Wiggins,纽约时报首席数据科学家、哥伦比亚应用数学副教授

dedecms.com


织梦内容管理系统

创造力和关怀。你必须真正喜欢某件事情,愿意花很长一段时间来琢磨它。还有,保持一定的怀疑。我喜欢博士生的一个原因是——五年的时间足以让你有一个发现,让你认识到你一路上做错的所有事情。对你来说很棒的是,能理智地反复思考“冷聚变”然后意识到“哦,我真的搞砸了”,从而犯下一系列错误并解决它们。 dedecms.com


dedecms.com

我认为攻读博士学位的过程,特别是做研究时,确实能让你对那些看起来理所当然的事情有所怀疑。我认为这点很有用,因为,如果不能保持怀疑,你很容易就会走上错误的道路——因为这是你第一次遇到一条看起来很靠谱的路。 dedecms.com


织梦好,好织梦

虽然这个答案看起来无聊,但事实是你需要真正拥有技术深度。数据科学还未形成一个领域,所以目前还没有证据。 内容来自dedecms


内容来自dedecms

我们很容易就可以通过维基百科理解机器学习的概念。但要真正做到这一点,你需要知道对一个具体的问题应该使用哪种工具,而且你需要充分了解每种工具的缺陷和限制。要获得这些经验没有捷径。只有不断试错。你会发现自己将分类问题归入聚类问题,或将聚类问题归入假设检验问题。 copyright dedecms


本文来自织梦

你发现自己开始尝试某些事情,自信自己做的是对的,然而最终意识到你完全错了,这样的事情你会经历许多次,而且非常不幸没有捷径可走——但这会提升你的经验。你只需要这样做下去,并不断犯错误,这也是另一个我喜欢在这个领域从业多年的人的理由。 本文来自织梦


内容来自dedecms

在某件事上要想成为专家需要很长时间。这需要多年的错误。几个世纪以来现实一直如此。引用著名物理学家Niels Bohr的一句名言,成为一个领域的专家的方法就是在该领域中尽可能地犯错。 内容来自dedecms


copyright dedecms

Caitlin Smallwood,Netflix的科学与算法副总裁 织梦好,好织梦


内容来自dedecms

我会说在你做任何其他事情之前,首先要硬着头皮理解数据的基础知识,尽管它既不迷人也不那么有趣。换句话说,努力了解如何捕获数据,准确理解每个数据字段是如何定义的,并了解数据何时丢失。

内容来自dedecms


内容来自dedecms

如果数据缺失,这是否意味着什么?它是否仅在某些情况下丢失?这些小小的微妙的数据陷阱会让你深深陷入数据科学的魅力中。

copyright dedecms


内容来自dedecms

你可以使用最复杂的算法,但如果这一切建立在不经检验的数据集上,你得到的结果也毫无价值。无论你有多迫不及待想要着手数据建模的部分,你都无法忽略原始的数据。在开始建模之前,标记你的i,跨过你的t,仔细检查你所掌握的所有底层数据。

dedecms.com


织梦好,好织梦

我又渐渐学会的另一件事是,在系统环境下,混合算法几乎总比单一算法表现得出色,因为不同的技术会利用数据模式的不同方面,特别是在复杂的大型数据集中。因此,虽然你可以采用一种特定的算法并不断迭代以获得更好的模型,但我的经验是,算法组合往往比单一算法更好。

内容来自dedecms


dedecms.com

Yann LeCun,Facebook人工智能研究总监、纽约大学教授 织梦好,好织梦


织梦内容管理系统

我总是给出同样的建议,因为我经常被问到这个问题。我认为,如果你是一名本科生,选择一门你可以尽可能多地学习数学和物理课程的专业。而且它必须是正确的课程。我说的话可能听起来自相矛盾了,但工程学或物理学的专业可能比数学、计算机科学或经济学更合适。当然,你需要学习编程,所以你需要参加计算机科学专业的大量课程来学习编程的机制。

copyright dedecms


本文来自织梦

然后,参与一项数据科学领域的研究生项目。学习本科生的机器学习,人工智能或计算机视觉课程,因为你需要接触这些技术。在那之后,尽可能多地参加数学和物理课程,尤其是应用数学课程,例如优化问题,因为他们使你能够更加充分地应对真正的挑战。 织梦内容管理系统


dedecms.com

这也取决于你想去的地方,因为数据科学或人工智能的背景下有许多不同的工作。人们应该真正思考他们想做什么,然后研究这些主题。目前的热门话题是深度学习,这意味着你需要学习和理解神经网络的经典著作,学习优化问题,学习线性代数等知识。这有助于你了解我们每天会遇到的基本数学技巧和一般概念。 dedecms.com


内容来自dedecms

Erin Shellman,Zymergen的数据科学经理、Nordstrom数据实验室和AWS S3的前数据科学家 织梦好,好织梦


dedecms.com

对于那些仍在决定学习什么的人来说,我会说STEM(理工科)领域毫无意义,尤其是‘TEM’领域。学习STEM科目将为你提供测试和了解世界的工具。 dedecms.com


织梦好,好织梦

这就是我对数学,统计和机器学习的看法。我对数学本身不感兴趣,但我的兴趣在于用数学来描述事物。毕竟这些都是工具集,所以即使你对数学或统计学上不感兴趣,这仍然非常值得我们投入进去,考虑如何将它应用于你真正热爱的事情上。 本文来自织梦


copyright dedecms

对于像我这样试图转型的人来说,我会觉得很困难。要知道,转行很困难,而且你必须加倍努力。这不是数据科学独有的困难——这就是生活。在这个领域,我们很难不与别人建立联系,我们可以通过与慷慨的人们见面、喝咖啡来建立有效的联系。在我的生活中,头条规则就是“跟进”。如果你和某个人交流,在他身上发现了你想要的东西,就跟进。 内容来自dedecms


copyright dedecms

数据科学家的文章可能非常唬人,因为大多数文章读起来像数据科学术语表。事实是,技术变化如此之快,以至于没有人拥有可能值得记录下来的所有经验。 织梦好,好织梦


织梦好,好织梦

当你看到这里时,这一点可能是压倒性的,而且你可能会觉得“这不适合我,我没有任何这些技能,也没有什么可以贡献的。”我劝你们不要有这种想法,只要你随时都可以改变和学习新东西。 织梦好,好织梦


本文来自织梦

最终,公司需要的是能够严格定义问题并设计解决方案的人。他们也需要善于学习的人。我认为这些才是核心技能。

本文来自织梦


织梦好,好织梦

内容来自dedecms


dedecms.com

Daniel Tunkelang, Twiggle的首席搜索传道者、LinkedIn的前搜索质量主管 dedecms.com


织梦内容管理系统

对于那些来自数学或自然科学领域的人,我建议他们投资于学习软件技能——尤其是Hadoop和R,它们是使用最广泛的工具。来自软件工程的人应该参加一个机器学习课程,并使用真实的数据进行一个项目,其中许多数据都是免费的。正如许多人所说,成为数据科学家的最好方式是实践数据科学。

copyright dedecms


织梦好,好织梦

数据就在那里,科学也不是那么难学,特别是对于那些受过数学、科学或工程学训练的人。读《数据的不合理有效性》—谷歌研究人员Alon Halevy、Peter Norvig和Fernando Pereira的一篇经典文章。文章通常被总结为“更多的数据胜过更好的算法。”

dedecms.com


copyright dedecms

数据的不合理有效性 织梦好,好织梦

http://www.cs.columbia.edu/igert/courses/E6898/Norvig.pdf

织梦好,好织梦


内容来自dedecms

整篇文章都值得一读,因为它概述了最近在使用网络规模数据改进语音识别和机器翻译方面取得的成功。另外,请听Monica Rogati关于更好的数据如何击败更多数据的见解吧。理解并内化这两个观点,你正在成为一名数据科学家的道路上狂奔。

织梦内容管理系统


内容来自dedecms

John Foreman,产品管理副总裁兼MailChimp前首席数据科学家 织梦内容管理系统


我发现很难找到并聘用合适的人。

这确实是一件很困难的事情,因为当我们思考大学制度的现状时,无论是本科生还是研究生院,你只关注一件事。

你擅长什么。但数据科学家有点像新兴的文艺复兴人士,因为数据科学本质上是多学科的。

dedecms.com


内容来自dedecms

这就是为什么有了那个“数据科学家比计算机程序员懂得更多的统计知识,并且能比统计学家更好地编程”的一个大笑话的原因。

copyright dedecms


内容来自dedecms

这个笑话是什么意思?这是说数据科学家是一个对这两件事情略知一二的人。但我想说,他们知道的不只是两件事。他们还必须知道如何沟通。

织梦好,好织梦


dedecms.com

他们还需要知道概率,组合,微积分等。

copyright dedecms


内容来自dedecms

学习一些可视化也无妨。他们还需要知道如何操作数据,使用数据库,甚至一点点OR。有很多事情他们需要知道。所以要找到这些人真的很难,因为他们必须接触很多学科,他们必须能够明智地讲述他们的经验。这对任何一个申请人来说都是个艰巨的任务。

织梦内容管理系统


内容来自dedecms

雇用一个人需要很长时间,这也是为什么我认为人们一直在谈论现在数据科学还没有足够的人才的原因。我认为这在一定程度上是正确的。我想一些正在开办的学位课程会对现状有所帮助。

织梦好,好织梦


但即使如此,从这些学位项目中毕业,对于MailChimp,我们还是会看看你如何表达并与我们交流这个特定项目是如何教会你使用数据科学横贯多个学科的。 内容来自dedecms


本文来自织梦

这将淘汰非常多的人。我希望有更多的课程将重点着眼于数据科学家在工作环境的沟通和协作方面。

内容来自dedecms


内容来自dedecms

Roger Ehrenberg,IA风险投资公司的执行合伙人

内容来自dedecms


织梦好,好织梦

我想这些领域有最多的机会也有最大的挑战。 dedecms.com


医疗保健数据显然在PII和隐私问题上有一些大问题。 copyright dedecms


dedecms.com

除此之外,还有僵硬的官僚主义,僵化的基础设施和数据孤岛,这使得解决需要跨多个数据集进行集成的难题变得非常困难。

织梦好,好织梦


织梦内容管理系统

但数据一定会改变这个行业,我认为我们在这里讨论的许多技术都直接关系到如何使医疗保健更好、更便宜、更分散。这是一代人的机会。 织梦内容管理系统


织梦内容管理系统

早期的另一个巨大领域是风险管理——不管是金融、贸易还是保险领域。 dedecms.com


内容来自dedecms

当你在讨论将新的数据集纳入风险评估时,这真的是一个难题——尤其是在将这些技术应用到保险业这样的行业时,就像医疗保健一样,大量官僚机构中存在大量隐私问题和数据。
本文来自织梦


内容来自dedecms

与此同时,这些老旧而僵化的公司才刚刚开始开放,并正在与创业社区互动,以利用新技术。这是另一个让我非常兴奋的领域。 内容来自dedecms


copyright dedecms

第三个我热衷的领域是重塑制造业,并使其更加高效。制造业回归陆上的趋势已经形成。

内容来自dedecms


更强大的制造业可能成为在美国创造充满活力的中产阶级的桥梁。我认为技术可以帮助加速这一有利趋势。

内容来自dedecms


本文来自织梦

Claudia Perlich, Dstillery首席科学家 织梦内容管理系统


本文来自织梦

我认为,最终,学习如何做数据科学就像学习滑雪。你必须做。 copyright dedecms


copyright dedecms

你只能看很多视频视频,然后不断地学习。在一天结束的时候,你必须骑上你那该死的雪橇,从那座山上下来。 本文来自织梦

转载请注明出处: http://www.maoming7.com/view-162773-1.html

相关新闻

     相关文章>>
发表评论
评价:
表情:
验证码:点击我更换图片
谢谢观看!
茂名365网每天新鲜每天精彩