cool hit counter Daily Three Questions Compilation V_Intefrankly

Daily Three Questions Compilation V


73.Please explain what are the advantages of Kafka over traditional technologies?

Apache Kafka与传统的消息传递技术相比优势之处在于:

快速:单一的Kafka代理可以处理成千上万的客户端,每秒处理数兆字节的读写操作。

可伸缩:在一组机器上对数据进行分区和简化,以支持更大的数据

Persistent:Messages are persistent and replicated across the cluster to prevent data loss.

74.在数据制作过程中,如何能从Kafka得到准确的信息?

在数据中,为了精确地获得Kafka的消息,必须遵循两件事: 在数据消耗期间避免重复,在数据生产过程中避免重复。

这里有两种方法,可以在数据生成时准确地获得一个语义:

• 每个分区使用一个单独的写入器,每当你发现一个网络错误,检查该分区中的最后一条消息,以查看您的最后一次写入是否成功

• 在消息中包含一个主键(UUID或其他),并在用户中进行反复制

75.解释Kafka的用户如何消费信息?

kafka consumer has the concept of consumer community, when the producer will publish the data to the topic, the consumer through the pull way, periodically pull data from the server, of course, in the pull data, the server will tell the consumer can consume the message offset.

创建一个Topic (名为topic1),再创建一个属于group1的Consumer实例,并创建三个属于group2的Consumer实例,然后通过 Producer向topic1发送Key分别为1,2,3的消息。结果发现属于group1的Consumer收到了所有的这三条消息,同时 group2中的3个Consumer分别收到了Key为1,2,3的消息,如下图所示。

结论:不同 Consumer Group下的消费者可以消费partition中相同的消息,相同的Consumer Group下的消费者只能消费partition中不同的数据。zookeeper会记录每个consumer的在每个topic的每个partition下的消费的offset,然后每次去消费去拉取数据时,都会从上次记录的位置开始拉取数据。

76.我们可以在没有Zookeeper的情况下使用Kafka吗?

Zookeeper是一个开放源码的、高性能的协调服务,它用于Kafka的分布式应用。不可能越过Zookeeper,直接联系Kafka broker。一旦Zookeeper停止工作,它就不能服务客户端请求。

• Zookeeper主要用于在集群中不同节点之间进行通信

• 在Kafka中,它被用于提交偏移量,因此如果节点在任何情况下都失败了,它都可以从之前提交的偏移量中获取

• 除此之外,它还执行其他活动,如: leader检测、分布式同步、配置管理、识别新节点何时离开或连接、集群、节点实时状态等等。

77.如何减少ISR中的扰动?broker什么时候离开ISR?

An ISR is a set of copies of messages that are fully synchronized with LEADERS, meaning that the ISR contains all committed messages. The ISR should always contain all copies until a real failure occurs. If a copy does not keep up with the LEADER updates, it will be removed from the ISR.

78.Kafka为什么需要复制?

Kafka's message replication ensures that any published messages are not lost and can be used in the event of machine errors, program errors or, more commonly, software upgrades.

79.What is ISR in kafka? What's the role?

ISR (In-Sync Replicas),这个是指副本同步队列。副本数对Kafka的吞吐率是有一定的影响,但极大的增强了可用性。默认情况下Kafka的replica数量为1,即每个partition都有一个唯一的leader,为了确保消息的可靠性,通常应用中将其值(由broker的参数offsets.topic.replication.factor指定)大小设置为大于1,比如3。 所有的副本(replicas)统称为Assigned Replicas,即AR。ISR是AR中的一个子集,由leader维护ISR列表,follower从leader同步数据有一些延迟(包括延迟时间replica.lag.time.max.ms和延迟条数replica.lag.max.messages两个维度, 当前最新的版本0.10.x中只支持replica.lag.time.max.ms这个维度),任意一个超过阈值都会把follower剔除出ISR, 存入OSR(Outof-Sync Replicas)列表,新加入的follower也会先存放在OSR中。AR=ISR+OSR。

80.What happens if the preferred copy is not in the ISR?

如果首选的副本不在ISR中,控制器将无法将leadership转移到首选的副本。

81.有可能在生产后发生消息偏移吗?

在大多数队列系统中,作为生产者的类无法做到这一点,它的作用是触发并忘记消息。broker将完成剩下的工作,比如使用id进行适当的元数据处理、偏移量等。

作为消息的用户,你可以从Kafka broker中获得补偿。如果你注视SimpleConsumer类,你会注意到它会获取包括偏移量作为列表的MultiFetchResponse对象。此外,当你对Kafka消息进行迭代时,你会拥有包括偏移量和消息发送的MessageAndOffset对象。

82.Comparison of maven and sbt?

1.sbt项目用ivy2,可以使用maven的包

2.sbt可以进行增量编译,且编译速度是堪比c++的

3.sbt提供了一个scala的console,并且导入默认的一些包,非常方便的交互

4.sbt在插件上支持的并不是那么好,很多maven中好用的功能,需要用额外的插件,比如mvn dependency:tree(ps:最新版的不需要plugin ,运行sbt test:compile即可,会出现在target/resolution-cache/reports下各种非常详细的报告)

5.maven using pom.xml for project management

83.hive来自同个表的两个聚合函数的结果如何相除?

SELECT SUM(if(reordered = 1,1,0))/COUNT(1) FROM join_table;

注:聚合函数的结果不能用别名显示

84.How do the results of two aggregation functions from different tables of hive divide?

The WITH AS phrase, also called subquery factoring, can be used. as follows

WITH

c1

AS (select count(*) as a1 from orders),

c2

AS (select count(*) as a2 from join_table)

SELECT c1.a1/c2.a2 FROM c1,c2;

85.How is data skew handled in Hive?

首先要定位到哪些数据 导致数据倾斜。确定完之后常见的处理方法有:

原理是加个combiner函数,加上combiner相当于提前进行reduce,就会把一个mapper中的相同key进行了聚合,减少shuffle过程中数据量,以及reduce端的计算量。这种方法可以有效的缓解数据倾斜问题,但是如果导致数据倾斜的key 大量分布在不同的mapper的时候,这种方法就不是很有效了。

The principle is local aggregation plus global aggregation, that is, two mapreduce, the first time in the map phase for those who have led to the data skewed key plus a random prefix of 1 to n, so that the same key before will also be divided into different reduce for aggregation, so then there are those skewed key for local aggregation, the number will be greatly reduced. Then do a second mapreduce in that case remove the random prefix and do a global aggregation. This will effectively reduce mapreduce. Performing two mapreduce's though, the performance is slightly worse than one.

86.linux命令中,执行一个程序,后面加上&, 代表的意思是什么?

后台执行。也就是执行这个程序的同时,你的终端同时还能够做其他的事情,如果不加这个符号,那么你执行这个程序后,你的终端只能等这个程序执行完成才能够继续执行其他的操作 。

87.spark有哪几种运行方式?

spark运行模式分为:Local(本地idea上运行),Standalone,yarn,mesos等,其中在yarn上的运行方式是最常见的生产方式。根据spark Application的Driver Program是否在集群中运行,spark on yarn的运行方式又可以分为Cluster模式和Client模式。

88.fsimage和editlogs的作用?

fsimage保存了最新的元数据检查点,edits保存自最新检查点后的命名空间的变化。从最新检查点后,hadoop将对每个文件的操作都保存在edits中,为避免edits不断增大,secondary namenode就会周期性合并fsimage和edits成新的fsimage,edits再记录新的变化, 这种机制有个问题:因edits存放在Namenode中,当Namenode挂掉,edits也会丢失,导致利用secondary namenode恢复Namenode时,会有部分数据丢失。

89.Write in Hive the recurrence rate for each user's contribution (number of contributions on Jan 2 / number of contributions on Jan 1)?

表名: Item

字段名:usr_id,item_id,item_create_time

select usr_id,sum(if (item_create_time=0102, 1, 0))/sum(if (item_create_time =0101, 1, 0))

from item

groupby usr_id;

90.How the map method calls the reduce method

reduce端可能从多个map的结果中获取数据,而这些map的执行速度不尽相同,当其中一个map运行结束时,reduce就会从jobtracker中获取该信息。map运行结束后tasktracker会得到消息,进而将消息汇报给jobtracker,reduce定时从jobtracker获取该信息。

Important notice.

公众号现在已经把目前所有的干货都整理出来了,

在外面点击菜单即可看到全部内容。

关注这个公众号,定期会有大数据学习的干货推送给你哦~


Recommended>>
1、How has metaprogramming evolved from C98 to C17
2、How to deal with the threat of cryptocurrency mining malware
3、Lv Shuwang Chinas leading expert on cybersecurity what kind of network are you using
4、Cadillac CT6 Super Cruise beats Tesla autopilot
5、McLarens nextgeneration sports car to come in 2019 with hybridautonomous driving technology

    已推荐到看一看 和朋友分享想法
    最多200字,当前共 发送

    已发送

    朋友将在看一看看到

    确定
    分享你的想法...
    取消

    分享想法到看一看

    确定
    最多200字,当前共

    发送中

    网络异常,请稍后重试

    微信扫一扫
    关注该公众号